このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240530となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 医療のための公正な機械学習は, 身体的因子の断面積を認識する必要がある : 事例研究
Fair Machine Learning for Healthcare Requires Recognizing the Intersectionality of Sociodemographic Factors, a Case Study ( http://arxiv.org/abs/2407.15006v1 ) ライセンス: Link先を確認 | Alissa A. Valentine, Alexander W. Charney, Isotta Landi, | (参考訳) 医療システムに人工知能(AI)を実装することへの関心が高まるにつれて、これらのシステムの公平性や、それらが永続する可能性のある格差を評価する方法についての議論が続いている。
社会経済状態(SES)は、マシンラーニングモデルに一般的に含まれており、SESの増加がより良い健康に結びついているという前提がある。
本研究は,ニューヨーク市のマウント・シナイ・ヘルス・システム (Mount Sinai Health System) の患者が統合失調症 (SCZ) の診断率に及ぼす影響について,ロジスティック回帰モデルを用いて検討した。
交差する枠組みでは、患者SES、人種、性別が大きな相互作用を持つことが判明した。
以上の結果から、SESの増加は、黒人におけるSCZ診断の可能性が高くなることが示唆された(\beta=4.1\times10^{-8}$, $SE=4.5\times10^{-9}$, $p < 0.001$)。
高いSESは、白人におけるSCZ診断の保護因子として機能する(\beta=-4.1\times10^{-8}$, $SE=6.7\times10^{-9}$, $p < 0.001$)。
健康格差を確実に説明し定量化するためには、さらなる調査が必要である。
それでも私たちは、医療分野のための公正なAIツールを構築するには、社会デマログラフ的要因の交差性を認識する必要があると提唱している。
As interest in implementing artificial intelligence (AI) in medical systems grows, discussion continues on how to evaluate the fairness of these systems, or the disparities they may perpetuate. Socioeconomic status (SES) is commonly included in machine learning models to control for health inequities, with the underlying assumption that increased SES is associated with better health. In this work, we considered a large cohort of patients from the Mount Sinai Health System in New York City to investigate the effect of patient SES, race, and sex on schizophrenia (SCZ) diagnosis rates via a logistic regression model. Within an intersectional framework, patient SES, race, and sex were found to have significant interactions. Our findings showed that increased SES is associated with a higher probability of obtaining a SCZ diagnosis in Black Americans ($\beta=4.1\times10^{-8}$, $SE=4.5\times10^{-9}$, $p < 0.001$). Whereas high SES acts as a protective factor for SCZ diagnosis in White Americans ($\beta=-4.1\times10^{-8}$, $SE=6.7\times10^{-9}$, $p < 0.001$). Further investigation is needed to reliably explain and quantify health disparities. Nevertheless, we advocate that building fair AI tools for the health care space requires recognizing the intersectionality of sociodemographic factors. | 翻訳日:2024-08-05 01:55:24 公開日:2024-05-30 |
# マルチモーダル大言語モデルを用いた活動の時間的グラウンド化
Temporal Grounding of Activities using Multimodal Large Language Models ( http://arxiv.org/abs/2407.06157v1 ) ライセンス: Link先を確認 | Young Chol Song, | (参考訳) アクティビティの時間的基盤、より大きなイベントコンテキスト内でのアクションの特定の時間間隔の識別は、ビデオ理解において重要なタスクである。
近年の多モーダル大言語モデル(LLM)の進歩は、時間的推論能力を高める新たな機会を提供する。
本稿では,画像ベースとテキストベースの大規模言語モデル(LLM)を時間的活動ローカライゼーションのための2段階的アプローチで組み合わせることの有効性を評価する。
提案手法は既存のビデオベースLLMよりも優れていることを示す。
さらに、より小さなマルチモーダルLCMにおける命令チューニングの影響について検討し、アクションクエリの処理能力の洗練により、より表現力が高く情報的出力が得られ、特定の活動時間間隔を特定するパフォーマンスが向上することを示した。
Charades-STAデータセットの実験結果は、時間的活動の局所化とビデオ理解の分野を前進させる上で、このアプローチの可能性を浮き彫りにした。
Temporal grounding of activities, the identification of specific time intervals of actions within a larger event context, is a critical task in video understanding. Recent advancements in multimodal large language models (LLMs) offer new opportunities for enhancing temporal reasoning capabilities. In this paper, we evaluate the effectiveness of combining image-based and text-based large language models (LLMs) in a two-stage approach for temporal activity localization. We demonstrate that our method outperforms existing video-based LLMs. Furthermore, we explore the impact of instruction-tuning on a smaller multimodal LLM, showing that refining its ability to process action queries leads to more expressive and informative outputs, thereby enhancing its performance in identifying specific time intervals of activities. Our experimental results on the Charades-STA dataset highlight the potential of this approach in advancing the field of temporal activity localization and video understanding. | 翻訳日:2024-07-22 14:07:46 公開日:2024-05-30 |
# トピックモデリングを用いたOpenAIのテキスト・ビデオモデル「ソーラ」に関する公開談話の分析
Analysing the Public Discourse around OpenAI's Text-To-Video Model 'Sora' using Topic Modeling ( http://arxiv.org/abs/2407.13071v1 ) ライセンス: Link先を確認 | Vatsal Vinay Parikh, | (参考訳) OpenAIのテキスト・ツー・ビデオモデルであるSoraが最近導入され、オンラインコミュニティに広く普及した。
本研究の目的は,5つのサブレディット(r/OpenAI,r/Technology,r/singularity,r/vfx,r/ChatGPT)からのRedditコメント1,827件のコーパスでトピックモデリング分析を行うことで,ソラを取り巻く支配的なテーマや物語を明らかにすることである。
コメントは2024年2月のソラの発表から2ヶ月にわたって収集された。
データを前処理した後、LDA(Latent Dirichlet Allocation)が4つの重要なトピックを抽出するために使用された。
1)ソラ討論におけるAIの影響と動向
2 Sora に関する公的な意見及び懸念
3)ソラによる芸術表現と映像創造
4) Sora's Applications in Media and Entertainment
ワードクラウド、バーチャート、t-SNEクラスタリングなどの可視化は、トピックキーワードの重要性とトピック間のコメントの配布に関する洞察を提供した。
結果は、産業や雇用、公共の感情や倫理的懸念、クリエイティブな応用、メディアやエンターテイメント分野のユースケースに対するソラの潜在的影響に関する顕著な物語を浮き彫りにした。
特定の時間枠内のRedditデータに限定されるが、この研究はオンラインの談話分析を通じて、新しい生成AI技術の大衆認識を理解するためのフレームワークを提供する。
The recent introduction of OpenAI's text-to-video model Sora has sparked widespread public discourse across online communities. This study aims to uncover the dominant themes and narratives surrounding Sora by conducting topic modeling analysis on a corpus of 1,827 Reddit comments from five relevant subreddits (r/OpenAI, r/technology, r/singularity, r/vfx, and r/ChatGPT). The comments were collected over a two-month period following Sora's announcement in February 2024. After preprocessing the data, Latent Dirichlet Allocation (LDA) was employed to extract four key topics: 1) AI Impact and Trends in Sora Discussions, 2) Public Opinion and Concerns about Sora, 3) Artistic Expression and Video Creation with Sora, and 4) Sora's Applications in Media and Entertainment. Visualizations including word clouds, bar charts, and t-SNE clustering provided insights into the importance of topic keywords and the distribution of comments across topics. The results highlight prominent narratives around Sora's potential impact on industries and employment, public sentiment and ethical concerns, creative applications, and use cases in the media and entertainment sectors. While limited to Reddit data within a specific timeframe, this study offers a framework for understanding public perceptions of emerging generative AI technologies through online discourse analysis. | 翻訳日:2024-07-22 08:07:30 公開日:2024-05-30 |
# ジェネレーティブAIにおけるトレーニングデータとモデル出力の正確性:情報コミッショナー事務所コンサルテーションへの対応
Accuracy of training data and model outputs in Generative AI: CREATe Response to the Information Commissioner Office Consultation ( http://arxiv.org/abs/2407.13072v1 ) ライセンス: Link先を確認 | Zihao Li, Weiwei Yi, Jiahong Chen, | (参考訳) 大規模言語モデルがより広く採用されるにつれて、生成AIの正確性はますます重要になっている。
トレーニングデータやアウトプットの幻覚に潜在的な欠陥があるため、不正確さは個人の関心に重大な影響を与える。
したがって、これらのモデルの精度を保証することは技術的な必要だけでなく、規制命令でもある。
ICOは、生成AIの正確性に関する証拠を求めている。
グラスゴー大学に本部を置くクリエイティヴ・エコノミーの規制センターとして、知的財産、競争、情報および技術法に関する関連研究を行っている。
我々は、生成AIの正確性に関する証拠を求めるICOの呼びかけを歓迎し、私たちが注目すべきと信じているデータ保護法とAI規制の側面を強調して喜んでいます。
The accuracy of Generative AI is increasingly critical as Large Language Models become more widely adopted. Due to potential flaws in training data and hallucination in outputs, inaccuracy can significantly impact individuals interests by distorting perceptions and leading to decisions based on flawed information. Therefore, ensuring these models accuracy is not only a technical necessity but also a regulatory imperative. ICO call for evidence on the accuracy of Generative AI marks a timely effort in ensuring responsible Generative AI development and use. CREATe, as the Centre for Regulation of the Creative Economy based at the University of Glasgow, has conducted relevant research involving intellectual property, competition, information and technology law. We welcome the ICO call for evidence on the accuracy of Generative AI, and we are happy to highlight aspects of data protection law and AI regulation that we believe should receive attention. | 翻訳日:2024-07-22 08:07:30 公開日:2024-05-30 |
# ExU:多言語情報ナラティブを抽出し,その拡散を理解するAIモデル
ExU: AI Models for Examining Multilingual Disinformation Narratives and Understanding their Spread ( http://arxiv.org/abs/2406.15443v1 ) ライセンス: Link先を確認 | Jake Vasilakes, Zhixue Zhao, Ivan Vykopal, Michal Gregor, Martin Hyben, Carolina Scarton, | (参考訳) オンラインの偽情報に対処するには、ファクトチェックやジャーナリストが大量のデータを盗むのを助けるために、言語全体での物語を分析する必要がある。
ExUプロジェクトは、マルチリンガルな偽情報分析のためのAIベースのモデルの開発に重点を置いており、噂の姿勢分類とクレーム検索のタスクに対処している。
本稿では,ExUプロジェクトの提案を概説し,ファクトチェックを支援するツールの設計に関するユーザ要件調査の結果を要約する。
Addressing online disinformation requires analysing narratives across languages to help fact-checkers and journalists sift through large amounts of data. The ExU project focuses on developing AI-based models for multilingual disinformation analysis, addressing the tasks of rumour stance classification and claim retrieval. We describe the ExU project proposal and summarise the results of a user requirements survey regarding the design of tools to support fact-checking. | 翻訳日:2024-07-01 07:01:19 公開日:2024-05-30 |
# 数学語問題におけるLLMのロバスト性の検討
Investigating the Robustness of LLMs on Math Word Problems ( http://arxiv.org/abs/2406.15444v1 ) ライセンス: Link先を確認 | Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral, Swaroop Mishra, | (参考訳) 大規模言語モデル(LLMs)は、数学用語問題(MWPs)の解決など、様々なタスクに優れるが、無関係な情報を含む現実世界の問題に苦慮する。
そこで本稿では,無関係な変数を追加することにより,MWPの逆変量を生成するプロンプトフレームワークを提案する。
本稿では,対戦型MWPと非対戦型MWPの両方を含むデータセットProbleMATHICを紹介する。
実験の結果,LLMは数値ノイズによる乱れの影響を受けやすいことが明らかとなり,対向MWPでは平均26%の相対的な性能低下がみられた。
これを軽減するために、データセットの対向サンプルにLLM(Llama-2, Mistral)を微調整する。
敵のトレーニングインスタンスの微調整により、敵のMWPのパフォーマンスが約8%向上し、ノイズに対する堅牢性が向上し、推論のための関連データを識別する能力が向上した。
最後に、我々のプロンプトフレームワークの一般化性を評価するため、GSM-8Kベンチマークの逆変種であるGSM-8K-Advを紹介する。
LLMは敵対的な情報に直面すると苦労し続け、パフォーマンスは最大6%低下した。
Large Language Models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates adversarial variants of MWPs by adding irrelevant variables. We introduce a dataset, ProbleMATHIC, containing both adversarial and non-adversarial MWPs. Our experiments reveal that LLMs are susceptible to distraction by numerical noise, resulting in an average relative performance drop of ~26% on adversarial MWPs. To mitigate this, we fine-tune LLMs (Llama-2, Mistral) on the adversarial samples from our dataset. Fine-tuning on adversarial training instances improves performance on adversarial MWPs by ~8%, indicating increased robustness to noise and better ability to identify relevant data for reasoning. Finally, to assess the generalizability of our prompting framework, we introduce GSM-8K-Adv, an adversarial variant of the GSM-8K benchmark. LLMs continue to struggle when faced with adversarial information, reducing performance by up to ~6%. | 翻訳日:2024-07-01 07:01:19 公開日:2024-05-30 |
# 半監督糸球体セグメンテーションにおける弱-ストロング整合性の利用
Utilizing Weak-to-Strong Consistency for Semi-Supervised Glomeruli Segmentation ( http://arxiv.org/abs/2406.16900v1 ) ライセンス: Link先を確認 | Irina Zhang, Jim Denholm, Azam Hamidinekoo, Oskar Ålund, Christopher Bagnall, Joana Palés Huix, Michal Sulikowski, Ortensia Vito, Arthur Lewis, Robert Unwin, Magnus Soderberg, Nikolay Burlutskiy, Talha Qaiser, | (参考訳) 糸球体インスタンスの正確なセグメンテーションは、腎疾患の診断とモニタリングを支援するために腎生検の自動化解析において高い臨床的意義を持つ。
実世界の病理像を分析することは、しばしばサーバ間の変動を包含し、データアノテーションの労働集約的なプロセスを必要とする。
したがって、従来の教師付き学習手法は、外部データセットに適用した場合、一般に準最適性能を達成する。
これらの課題を考慮し,複数の実世界のデータセット上で検証された弱強整合性フレームワークに基づく,糸球体セグメンテーションのための半教師付き学習手法を提案する。
U-NetやSegFormerといった既存の教師付きベースラインモデルと比較して,3つの独立したデータセットに対する実験結果は,我々のアプローチの優れた性能を示している。
Accurate segmentation of glomerulus instances attains high clinical significance in the automated analysis of renal biopsies to aid in diagnosing and monitoring kidney disease. Analyzing real-world histopathology images often encompasses inter-observer variability and requires a labor-intensive process of data annotation. Therefore, conventional supervised learning approaches generally achieve sub-optimal performance when applied to external datasets. Considering these challenges, we present a semi-supervised learning approach for glomeruli segmentation based on the weak-to-strong consistency framework validated on multiple real-world datasets. Our experimental results on 3 independent datasets indicate superior performance of our approach as compared with existing supervised baseline models such as U-Net and SegFormer. | 翻訳日:2024-07-01 06:41:31 公開日:2024-05-30 |
# ニューロイメージングにおける解釈可能な深層学習の応用--包括的考察
Applications of interpretable deep learning in neuroimaging: a comprehensive review ( http://arxiv.org/abs/2406.17792v1 ) ライセンス: Link先を確認 | Lindsay Munroe, Mariana da Silva, Faezeh Heidari, Irina Grigorescu, Simon Dahan, Emma C. Robinson, Maria Deprez, Po-Wah So, | (参考訳) 深層学習モデルの臨床的採用は、ニューラルネットワークのブラックボックスの性質が、信頼性と信頼性に関する懸念を招いているため、部分的には妨げられている。
これらの懸念は、複雑な脳の表現型と、しばしば遭遇する物体間不均一性により、神経イメージングの分野に特に関係している。
この課題は、深層学習モデルの内部動作の可視化と解釈を可能にする解釈可能な深層学習(iDL)手法によって解決することができる。
本研究は、iDL法の神経イメージング応用に関する文献を体系的にレビューし、iDL説明特性がどのように評価されたかを批判的に分析した。
対象は75例,iDL法は10例であった。
また, 生物学的妥当性, 頑健性, 連続性, 選択性, 下流タスクパフォーマンスの5つの特徴について検討した。
文献で最もよく使われているiDLアプローチは、神経画像データに最適である可能性があり、この分野の今後の方向性について議論した。
Clinical adoption of deep learning models has been hindered, in part, because the black-box nature of neural networks leads to concerns regarding their trustworthiness and reliability. These concerns are particularly relevant in the field of neuroimaging due to the complex brain phenotypes and inter-subject heterogeneity often encountered. The challenge can be addressed by interpretable deep learning (iDL) methods that enable the visualisation and interpretation of the inner workings of deep learning models. This study systematically reviewed the literature on neuroimaging applications of iDL methods and critically analysed how iDL explanation properties were evaluated. Seventy-five studies were included, and ten categories of iDL methods were identified. We also reviewed five properties of iDL explanations that were analysed in the included studies: biological validity, robustness, continuity, selectivity, and downstream task performance. We found that the most popular iDL approaches used in the literature may be sub-optimal for neuroimaging data, and we discussed possible future directions for the field. | 翻訳日:2024-07-01 06:21:45 公開日:2024-05-30 |
# ソーシャルネットワークにおける敵対的サイバーいじめ・ヘイトスピーチ検出のための深層学習手法
Deep Learning Approaches for Detecting Adversarial Cyberbullying and Hate Speech in Social Networks ( http://arxiv.org/abs/2406.17793v1 ) ライセンス: Link先を確認 | Sylvia Worlali Azumah, Nelly Elsayed, Zag ElSayed, Murat Ozer, Amanda La Guardia, | (参考訳) サイバブリングは、技術的手段によって解決できる技術と密接に結びついている重要な関心事である。
その流行にもかかわらず、テクノロジーはサイバーいじめを緩和するソリューションも提供する。
サイバーいじめが個人のオンライン体験に悪影響を及ぼすという懸念に対処するため、様々なオンラインプラットフォームや研究者がデジタル環境の安全性を高めるための対策を積極的に導入している。
研究者はサイバーいじめの防止や最小化のために検出モデルの作成を続けているが、悪意のあるアクターはこれらの検出方法を回避するために敵対的手法を展開している。
本稿では、ソーシャルネットワークサイトテキストデータ中の敵対的攻撃コンテンツにおけるサイバーいじめの検出、特にヘイトスピーチを強調することに焦点を当てる。
修正アルゴリズムを用いた深層学習に基づく手法を用いて,本論文は有意な結果を得た。
100の固定エポックを持つLSTMモデルは、高い精度、精度、リコール、F1スコア、AUC-ROCスコアが87.57%、88.73%、88.15%、91%の顕著な性能を示した。
さらに、LSTMモデルの性能は以前の研究を上回った。
Cyberbullying is a significant concern intricately linked to technology that can find resolution through technological means. Despite its prevalence, technology also provides solutions to mitigate cyberbullying. To address growing concerns regarding the adverse impact of cyberbullying on individuals' online experiences, various online platforms and researchers are actively adopting measures to enhance the safety of digital environments. While researchers persist in crafting detection models to counteract or minimize cyberbullying, malicious actors are deploying adversarial techniques to circumvent these detection methods. This paper focuses on detecting cyberbullying in adversarial attack content within social networking site text data, specifically emphasizing hate speech. Utilizing a deep learning-based approach with a correction algorithm, this paper yielded significant results. An LSTM model with a fixed epoch of 100 demonstrated remarkable performance, achieving high accuracy, precision, recall, F1-score, and AUC-ROC scores of 87.57%, 88.73%, 87.57%, 88.15%, and 91% respectively. Additionally, the LSTM model's performance surpassed that of previous studies. | 翻訳日:2024-07-01 06:21:45 公開日:2024-05-30 |
# 集中治療室における低解像度熱映像からの看護活動スコア予測のためのマルチスケール視覚変換器の利用
Use of a Multiscale Vision Transformer to predict Nursing Activities Score from Low Resolution Thermal Videos in an Intensive Care Unit ( http://arxiv.org/abs/2406.04364v1 ) ライセンス: Link先を確認 | Isaac YL Lee, Thanh Nguyen-Duc, Ryo Ueno, Jesse Smith, Peter Y Chan, | (参考訳) 看護婦の過度な介護労働負荷は、より貧しい患者のケアと労働者のバーンアウトの増加に関係している。
集中治療室(ICU)におけるこの負荷の測定は、看護活動スコア(NAS)を用いて行われることが多いが、通常は手動および散発的に記録される。
これまでの作業では、コンピュータビジョンを使用して介護者と患者の相互作用時間を受動的に導き、スタッフの作業量を監視することで、AmI(Ambient Intelligence)を利用してきた。
本稿では、MViT(Multiscale Vision Transformer)を用いて、ICUで記録された低解像度サーマルビデオからNASを受動的に予測する。
458本のビデオがオーストラリアのメルボルンにあるICUから取得され、間接予測と直接予測手法を用いてMViTv2モデルを訓練するために使用された。
間接的手法は、NASを推測する前にビデオから潜在的に特定可能なNAS活動8つのうち1を予測した。
直接手法はビデオからNASスコアを即座に予測する。
間接法では、平均5倍精度57.21%、受信機動作特性曲線(ROC AUC)0.865、F1スコア0.570、平均2乗誤差(MSE28.16)が得られた。
直接法ではMSEは18.16であった。
また、MViTv2はR(2+1)DやResNet50-LSTMといった類似のモデルと同一の設定で比較した。
本研究は、MViTv2を用いてICU内のNASを受動的に予測し、スタッフの作業負荷を自動的に監視する可能性を示す。
以上の結果から,NASを直接予測した場合とNASを間接的に予測する場合の精度も向上した。
我々は今後の研究の方向性を提供し、受動NASモニタリングの精度をさらに向上させることを願っている。
Excessive caregiver workload in hospital nurses has been implicated in poorer patient care and increased worker burnout. Measurement of this workload in the Intensive Care Unit (ICU) is often done using the Nursing Activities Score (NAS), but this is usually recorded manually and sporadically. Previous work has made use of Ambient Intelligence (AmI) by using computer vision to passively derive caregiver-patient interaction times to monitor staff workload. In this letter, we propose using a Multiscale Vision Transformer (MViT) to passively predict the NAS from low-resolution thermal videos recorded in an ICU. 458 videos were obtained from an ICU in Melbourne, Australia and used to train a MViTv2 model using an indirect prediction and a direct prediction method. The indirect method predicted 1 of 8 potentially identifiable NAS activities from the video before inferring the NAS. The direct method predicted the NAS score immediately from the video. The indirect method yielded an average 5-fold accuracy of 57.21%, an area under the receiver operating characteristic curve (ROC AUC) of 0.865, a F1 score of 0.570 and a mean squared error (MSE) of 28.16. The direct method yielded a MSE of 18.16. We also showed that the MViTv2 outperforms similar models such as R(2+1)D and ResNet50-LSTM under identical settings. This study shows the feasibility of using a MViTv2 to passively predict the NAS in an ICU and monitor staff workload automatically. Our results above also show an increased accuracy in predicting NAS directly versus predicting NAS indirectly. We hope that our study can provide a direction for future work and further improve the accuracy of passive NAS monitoring. | 翻訳日:2024-06-23 14:05:12 公開日:2024-05-30 |
# 量子的可観測性を持つ相対論的統計場理論のための運動量空間の定式化
A momentum space formulation for some relativistic statistical field theories with quantum-like observables ( http://arxiv.org/abs/2406.04365v1 ) ライセンス: Link先を確認 | Brenden McDearmon, | (参考訳) 運動量空間上の変動スカラー場を考えると、いくつかの相対論的統計場理論が構築される。
可観測物のヒルベルト空間は、変動するスカラー場の函数から構成され、函数の期待値の観点から内積が定義される。
すると、ヒルベルト空間からボソニック・フォック空間が構成され、フォック空間に作用する生成と消滅作用素が定義される。
生成および消滅演算子は、場演算子を定義するために用いられる。
これらの場の作用素はいくつかの興味深い量子的性質を持つ。
例えば、場作用素は一般に可換ではないし、自由体論の特定の場合において、微小因果性条件を満たすように示せる。
Considering a fluctuating scalar field on momentum space, some relativistic statistical field theories are constructed. A Hilbert space of observables is then constructed from functionals of the fluctuating scalar field with an inner product defined in terms of expectation values of the functionals. A bosonic Fock space is then constructed from the Hilbert space and creation and annihilation operators that act on the Fock space are defined. The creation and annihilation operators are used to define field operators. These field operators have some interesting quantum-like properties. For example, the field operators do not commute in general and, in the particular case of the free field theory, can be shown to satisfy the microcausality condition. | 翻訳日:2024-06-23 14:05:12 公開日:2024-05-30 |
# 2つの水素原子の量子的および古典的機械的運動のシミュレーションと比較
Simulating and comparing the quantum and classical mechanically motion of two hydrogen atoms ( http://arxiv.org/abs/2406.04366v1 ) ライセンス: Link先を確認 | Hui-hui Miao, | (参考訳) 有限次元量子化学モデルにおける原子核の量子力学運動と古典力学運動の量子進化の包括的比較について述べる。
光学キャビティに2つの2層人工原子を持つTavis-Cummings-Hubbardモデルの改良版について述べる。
中性水素分子の形成と分解に繋がる初期の状況について論じる。
マルコフ開系の散逸過程は、量子マスター方程式(リンドブラディアン)を解くことによってシミュレートされる。
これら2つの原子(核)の運動は、量子的および古典的機械的に比較される。
量子形態では、原子核の移動性は原子核のトンネル効果によって表される。
また、原子核の古典運動が強度のゆらぎによるシステム内の相互作用に与える影響について述べる。
暗黒状態もまた、解離過程とともに生成され、進化の最終結果に無視できない影響を持つ。
A comprehensive comparison of quantum evolution between the quantum and classical mechanically motion of nuclei in a finite-dimensional quantum chemistry model is presented. A modified version of Tavis-Cummings-Hubbard model with two two-level artificial atoms in optical cavities is described for simulating the association and dissociation of neutral hydrogen molecule. The initial circumstances that led to the formation and decomposition of neutral hydrogen molecule are discussed. The dissipative process of Markovian open system is simulated through solving quantum master equation - Lindbladian. The motion of these two atoms (nuclei) both quantum and classical mechanically is compared. In quantum form, nuclei's mobility is portrayed by tunneling effect of nuclei. And we describe the effect of the classical motion of nuclei on the interaction within the system by fluctuation of strengths. Consideration is also given to the dark state, which is produced along with the dissociation process and has a non-negligible impact on the final result of the evolution. | 翻訳日:2024-06-23 14:05:12 公開日:2024-05-30 |
# 分子特性予測のためのBert,Roberta,Xlnetを用いたアンサンブルモデル
Ensemble Model With Bert,Roberta and Xlnet For Molecular property prediction ( http://arxiv.org/abs/2406.06553v1 ) ライセンス: Link先を確認 | Junling Hu, | (参考訳) 本稿では,分子特性を高精度に予測するための新しい手法を提案する。
本手法は,BERT,RoBERTa,XLNetのアンサンブル学習と教師付き微調整を用いて,既存の先進モデルと比較して有意な効果を示した。
重要なことに、実験グループによって直面する限られた計算資源の問題に対処し、分子特性を正確に予測することができる。
この革新は、コスト効率が高く、資源効率のよいソリューションを提供し、分子領域におけるさらなる研究を推し進める可能性がある。
This paper presents a novel approach for predicting molecular properties with high accuracy without the need for extensive pre-training. Employing ensemble learning and supervised fine-tuning of BERT, RoBERTa, and XLNet, our method demonstrates significant effectiveness compared to existing advanced models. Crucially, it addresses the issue of limited computational resources faced by experimental groups, enabling them to accurately predict molecular properties. This innovation provides a cost-effective and resource-efficient solution, potentially advancing further research in the molecular domain. | 翻訳日:2024-06-23 13:55:28 公開日:2024-05-30 |
# 可観測、進化方程式、定常状態方程式
Partial symplectic quantum tomography schemes. Observables, evolution equations, and stationary states equations ( http://arxiv.org/abs/2406.06554v1 ) ライセンス: Link先を確認 | Ya. A. Korennoy, V. I. Man'ko, | (参考訳) 量子力学における部分シンプレクティック条件および結合確率表現について考察する。
最も興味深い物理作用素の対応規則を見つけ、作用素の双対記号の式を導出する。
計算は、これらの表現において星生成物量子化スキームを決定する量子化器と量子化器の一般形式化を用いて行われた。
トモグラフィーパラメータの分布としてガウス関数を考慮し、合同確率表現の例を検討した。
部分シンプレクティック条件と結合確率分布の進化方程式と定常状態方程式を得る。
Partial symplectic conditional and joint probability representations of quantum mechanics are considered. The correspondence rules for most interesting physical operators are found and the expressions of the dual symbols of operators are derived. Calculations were made by use of general formalism of quantizers and dequantizers determining the star product quantization scheme in these representations. Taking the Gaussian functions as the distributions of the tomographic parameters the examples of joint probability representations were considered. Evolution equations and stationary states equations for partial symplectic conditional and joint probability distributions are obtained. | 翻訳日:2024-06-23 13:55:28 公開日:2024-05-30 |
# MIMOフェーディングチャネル上の学習可能なCSI融合マスキングを用いたロバストな画像意味符号化
Robust Image Semantic Coding with Learnable CSI Fusion Masking over MIMO Fading Channels ( http://arxiv.org/abs/2406.07389v1 ) ライセンス: Link先を確認 | Bingyan Xie, Yongpeng Wu, Yuxuan Shi, Wenjun Zhang, Shuguang Cui, Merouane Debbah, | (参考訳) 様々なシナリオにおいて驚くべき進歩を遂げる一方で、既存のセマンティック・コミュニケーション・フレームワークは主に単一出力のガウシアン・チャネルやレイリー・ファイディング・チャネルを考慮し、広く使われているマルチインプット・マルチ・アウトプット・チャネル(MIMO)を無視した。
MIMOフェードと戦うための一般的な解決策の1つは、MIMOチャネル状態情報(CSI)のフィードバックを利用することである。
本稿では,MIMO CSIを新たな視点からシステム設計に取り入れ,学習可能なCSI融合セマンティックコミュニケーション(LCFSC)フレームワークを提案する。
特徴量とCSIの急激な組み合わせによる特徴量融合を回避するため,Swin Transformer内の非侵襲的なCSI融合多頭部注意モジュールを提案する。
学習された注目マスキングマップは、ソース状態とチャネル状態の両方で決定されるので、より堅牢な注意分布を生成することができる。
さらに、マスク要素の比率を学習可能なマスク比で柔軟に調整することができ、これは教師なしの条件変動干渉に基づいて生成される。
このようにして、CSI対応セマンティックコーディングは学習可能なCSI融合マスキングによって達成される。
実験結果は,従来のスキームよりもLCFSCの方が優れており,MIMOフェージングチャネルにおけるSwin Transformerをベースとしたセマンティックコミュニケーションフレームワークが優れていることを示す。
Though achieving marvelous progress in various scenarios, existing semantic communication frameworks mainly consider single-input single-output Gaussian channels or Rayleigh fading channels, neglecting the widely-used multiple-input multiple-output (MIMO) channels, which hinders the application into practical systems. One common solution to combat MIMO fading is to utilize feedback MIMO channel state information (CSI). In this paper, we incorporate MIMO CSI into system designs from a new perspective and propose the learnable CSI fusion semantic communication (LCFSC) framework, where CSI is treated as side information by the semantic extractor to enhance the semantic coding. To avoid feature fusion due to abrupt combination of CSI with features, we present a non-invasive CSI fusion multi-head attention module inside the Swin Transformer. With the learned attention masking map determined by both source and channel states, more robust attention distribution could be generated. Furthermore, the percentage of mask elements could be flexibly adjusted by the learnable mask ratio, which is produced based on the conditional variational interference in an unsupervised manner. In this way, CSI-aware semantic coding is achieved through learnable CSI fusion masking. Experiment results testify the superiority of LCFSC over traditional schemes and state-of-the-art Swin Transformer-based semantic communication frameworks in MIMO fading channels. | 翻訳日:2024-06-23 13:45:35 公開日:2024-05-30 |
# CLAY:高品質な3Dアセット作成のための制御可能な大規模生成モデル
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets ( http://arxiv.org/abs/2406.13897v1 ) ライセンス: Link先を確認 | Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu, | (参考訳) デジタルクリエイティビティの領域では、想像力から複雑な3D世界を創造する可能性はしばしば、既存のデジタルツールの限界によって妨げられています。
この格差を狭めるために,人間の想像力を複雑な3Dデジタル構造に変換するために設計された3次元幾何学および材料生成装置であるCLAYを紹介する。
CLAYは、古典的なテキストやイメージ入力だけでなく、さまざまなプリミティブ(マルチビューイメージ、ボクセル、バウンディングボックス、ポイントクラウド、暗黙の表現など)からの3D対応コントロールもサポートする。
中心となるのは、多解像度変分オートエンコーダ(VAE)と最小限の遅延拡散変換器(DiT)で構成される大規模な生成モデルで、多様な3次元測地からリッチな3D先行情報を直接抽出する。
具体的には、連続かつ完備な曲面を表現するためにニューラルネットワークを採用し、潜在空間に純粋なトランスフォーマーブロックを持つ幾何生成モジュールを使用する。
我々は、慎重に設計された処理パイプラインを通して得られた超大規模3次元モデルデータセットに基づいてCLAYを訓練するプログレッシブトレーニング手法を提案し、その結果、15億のパラメータを持つ3次元ネイティブジオメトリを生成する。
外観生成のために、CLAYは2K解像度のテクスチャを拡散、粗さ、金属モードで生成できる多視点材料拡散モデルを用いて物理ベースレンダリング(PBR)テクスチャを作成する。
我々はCLAYを、スケッチ的な概念設計から複雑な詳細を持つ生産可能な資産まで、様々な制御可能な3Dアセット作成に活用することを実証する。
初めてでも、CLAYを使って鮮明な3D想像力を生かし、無限の創造性を生み出すことができる。
In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity. | 翻訳日:2024-06-23 13:15:04 公開日:2024-05-30 |
# 制約付きか制約なしか? データからニューラルネットワークに基づく方程式の発見
Constrained or Unconstrained? Neural-Network-Based Equation Discovery from Data ( http://arxiv.org/abs/2406.02581v1 ) ライセンス: Link先を確認 | Grant Norman, Jacqueline Wentz, Hemanth Kolla, Kurt Maute, Alireza Doostan, | (参考訳) 多くの分野において、実践者はモデルシステムに微分方程式に依存することが多い。
しかし、多くの応用において、そのような方程式の理論的導出や解の正確な解法は難解である。
代わりに、パラメータ推定、演算子サブセット選択、ニューラルネットワークに基づく手法を含む最近開発された手法は、通常の微分方程式と偏微分方程式(PDE)の両方を、解釈可能性のスペクトル上でデータ駆動で発見することを可能にする。
これらの戦略の成功は、しばしば、状態変数のノイズの多い観測から代表方程式を正しく同定することに基づいており、それと密接に絡み合っているように、数学的戦略はそれらの方程式を強制するために利用された。
具体的には、後者は制約のない最適化戦略によって対処されている。
本稿では,PDEをニューラルネットワークとして表現し,制約付き最適化問題を解き,物理インフォームドニューラルネットワーク(PINN)に類似した中間状態表現を用いてPDEを発見することを提案する。
この制約付き最適化問題の目的関数は、データのマッチングを促進するが、制約は、PDEが複数の空間的コロケーションポイントで満たされることを要求する。
本稿では,この制約付き最適化問題を解くために,ペナルティ法と広く使用されている信頼区間障壁法を提案し,これらの手法を数値解析例で比較する。
バーガーズ方程式とコルトヴェーグ・ド・ヴライス方程式による結果から、後者の制約法はペナルティ法よりも優れており、特に高い騒音レベルやより少ないコロケーション点に対して優れていることが示された。
いずれの手法も、自動微分に依存するPINN方式とは対照的に、有限差分法などの古典的手法を用いてこれらのニューラルネットワークPDEを解く。
私たちは、他の小さな、しかし重要な、実装の詳細を簡潔に強調します。
Throughout many fields, practitioners often rely on differential equations to model systems. Yet, for many applications, the theoretical derivation of such equations and/or accurate resolution of their solutions may be intractable. Instead, recently developed methods, including those based on parameter estimation, operator subset selection, and neural networks, allow for the data-driven discovery of both ordinary and partial differential equations (PDEs), on a spectrum of interpretability. The success of these strategies is often contingent upon the correct identification of representative equations from noisy observations of state variables and, as importantly and intertwined with that, the mathematical strategies utilized to enforce those equations. Specifically, the latter has been commonly addressed via unconstrained optimization strategies. Representing the PDE as a neural network, we propose to discover the PDE by solving a constrained optimization problem and using an intermediate state representation similar to a Physics-Informed Neural Network (PINN). The objective function of this constrained optimization problem promotes matching the data, while the constraints require that the PDE is satisfied at several spatial collocation points. We present a penalty method and a widely used trust-region barrier method to solve this constrained optimization problem, and we compare these methods on numerical examples. Our results on the Burgers' and the Korteweg-De Vreis equations demonstrate that the latter constrained method outperforms the penalty method, particularly for higher noise levels or fewer collocation points. For both methods, we solve these discovered neural network PDEs with classical methods, such as finite difference methods, as opposed to PINNs-type methods relying on automatic differentiation. We briefly highlight other small, yet crucial, implementation details. | 翻訳日:2024-06-06 23:49:24 公開日:2024-05-30 |
# 深層学習を用いた毒性都市プラムの時空間予測
Spatiotemporal Predictions of Toxic Urban Plumes Using Deep Learning ( http://arxiv.org/abs/2406.02582v1 ) ライセンス: Link先を確認 | Yinan Wang, M. Giselle Fernández-Godino, Nipun Gunawardena, Donald D. Lucas, Xiaowei Yue, | (参考訳) 産業事故、化学物質の流出、構造的な火災は大量の有害物質を放出し、都市大気に分散し人口に影響を及ぼす可能性がある。
コンピュータモデルは通常、流体力学方程式を解くことによって有毒なプラムの輸送を予測するために用いられる。
しかし、これらのモデルは、乱流をシミュレートし、個々の建物や通りを解決するために多くの格子セルを必要とするため、計算コストがかかる可能性がある。
緊急対応時には、重要な時空間的特徴を迅速かつ適切に把握できる代替手段が必要である。
本稿では,ST-GasNetと呼ばれる新しい深層学習モデルを提案する。
ST-GasNetは高分解能大渦シミュレーションモデルにより生成された地中有害な都市プラムの時間的配列の限られたセットから時空間依存性を学習する。
独立したシーケンスでは、ST-GasNetは、建物が大きな羽根を小さな羽根に分割した場合であっても、入力としての初期挙動を考えると、リアルタイムの時空間進化を正確に予測する。
大規模な風の境界条件情報を組み込むことで、ST-GasNetは予測期間全体のテストデータに対して、少なくとも90%の予測精度を達成する。
Industrial accidents, chemical spills, and structural fires can release large amounts of harmful materials that disperse into urban atmospheres and impact populated areas. Computer models are typically used to predict the transport of toxic plumes by solving fluid dynamical equations. However, these models can be computationally expensive due to the need for many grid cells to simulate turbulent flow and resolve individual buildings and streets. In emergency response situations, alternative methods are needed that can run quickly and adequately capture important spatiotemporal features. Here, we present a novel deep learning model called ST-GasNet that was inspired by the mathematical equations that govern the behavior of plumes as they disperse through the atmosphere. ST-GasNet learns the spatiotemporal dependencies from a limited set of temporal sequences of ground-level toxic urban plumes generated by a high-resolution large eddy simulation model. On independent sequences, ST-GasNet accurately predicts the late-time spatiotemporal evolution, given the early-time behavior as an input, even for cases when a building splits a large plume into smaller plumes. By incorporating large-scale wind boundary condition information, ST-GasNet achieves a prediction accuracy of at least 90% on test data for the entire prediction period. | 翻訳日:2024-06-06 23:49:24 公開日:2024-05-30 |
# Kolmogorov-Arnoldネットワークにおける多項式基底関数の可能性を探る:異なる多項式群の比較研究
Exploring the Potential of Polynomial Basis Functions in Kolmogorov-Arnold Networks: A Comparative Study of Different Groups of Polynomials ( http://arxiv.org/abs/2406.02583v1 ) ライセンス: Link先を確認 | Seyd Teymoor Seydi, | (参考訳) 本稿では,従来のスプライン法に代わるKANモデルにおける18個の多項式の包括的調査とその可能性について述べる。
多項式は、直交多項式、超幾何多項式、q-ポリノミアル、フィボナッチ関連多項式、組合せ多項式、数理論多項式などの数学的性質に基づいて、様々な群に分類される。
本研究は,MNISTデータセット上の手書き桁分類のような複雑なタスクに対するkanモデルにおける基底関数としてのこれらの多項式の適合性を検討することを目的とする。
総合的精度,Kappa,F1スコアを含むkanモデルの性能指標を評価し,比較した。
Gottlieb-KANモデルはすべてのメトリクスで最高のパフォーマンスを達成し、与えられたタスクに適した選択肢としての可能性を示している。
しかし、より複雑なデータセット上のこれらの多項式のさらなる解析とチューニングは、kanモデルにおけるそれらの能力を十分に理解するために必要である。
これらのkanモデルの実装のソースコードはhttps://github.com/seydi1370/Basis_Functions で公開されている。
This paper presents a comprehensive survey of 18 distinct polynomials and their potential applications in Kolmogorov-Arnold Network (KAN) models as an alternative to traditional spline-based methods. The polynomials are classified into various groups based on their mathematical properties, such as orthogonal polynomials, hypergeometric polynomials, q-polynomials, Fibonacci-related polynomials, combinatorial polynomials, and number-theoretic polynomials. The study aims to investigate the suitability of these polynomials as basis functions in KAN models for complex tasks like handwritten digit classification on the MNIST dataset. The performance metrics of the KAN models, including overall accuracy, Kappa, and F1 score, are evaluated and compared. The Gottlieb-KAN model achieves the highest performance across all metrics, suggesting its potential as a suitable choice for the given task. However, further analysis and tuning of these polynomials on more complex datasets are necessary to fully understand their capabilities in KAN models. The source code for the implementation of these KAN models is available at https://github.com/seydi1370/Basis_Functions . | 翻訳日:2024-06-06 23:49:24 公開日:2024-05-30 |
# 惑星因果推論 : 貧困の地理学における意味
Planetary Causal Inference: Implications for the Geography of Poverty ( http://arxiv.org/abs/2406.02584v1 ) ライセンス: Link先を確認 | Kazuki Sakamoto, Connor T. Jerzak, Adel Daoud, | (参考訳) 衛星画像などの地球観測データは、機械学習と組み合わせることで、生活環境の予測を通じて貧困の地理的理解に大きな影響を与える可能性がある。
近年、EOデータを用いた空間経済効果の予測だけでなく、下流の政策分析に欠かせない原因や効果についても研究が進められている。
本稿では、まず、因果領域におけるEO-ML分析への関心の高まりについて述べる。
次に, 空間統計学とEO-ML手法の関係を追究し, 因果MLパイプラインにおけるEOデータの利用方法, (1.) 下流因果解析における貧困結果の計算, (2.) EO画像分解処理, (3.) EOベースの処理効果の不均一性, (4.) EOベースの輸送性分析の4つの方法について議論した。
今後、研究者がEOデータを因果ML分析に組み込むためのワークフローを提供する。
Earth observation data such as satellite imagery can, when combined with machine learning, have profound impacts on our understanding of the geography of poverty through the prediction of living conditions, especially where government-derived economic indicators are either unavailable or potentially untrustworthy. Recent work has progressed in using EO data not only to predict spatial economic outcomes, but also to explore cause and effect, an understanding which is critical for downstream policy analysis. In this review, we first document the growth of interest in EO-ML analyses in the causal space. We then trace the relationship between spatial statistics and EO-ML methods before discussing the four ways in which EO data has been used in causal ML pipelines -- (1.) poverty outcome imputation for downstream causal analysis, (2.) EO image deconfounding, (3.) EO-based treatment effect heterogeneity, and (4.) EO-based transportability analysis. We conclude by providing a workflow for how researchers can incorporate EO data in causal ML analysis going forward. | 翻訳日:2024-06-06 23:49:24 公開日:2024-05-30 |
# 文脈カウント:定量的タスクにおける変圧器の力学的検討
Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task ( http://arxiv.org/abs/2406.02585v1 ) ライセンス: Link先を確認 | Siavash Golkar, Alberto Bietti, Mariel Pettee, Michael Eickenberg, Miles Cranmer, Keiya Hirashima, Geraud Krawezik, Nicholas Lourie, Michael McCabe, Rudy Morel, Ruben Ohana, Liam Holden Parker, Bruno Régaldo-Saint Blancard, Kyunghyun Cho, Shirley Ho, | (参考訳) トランスフォーマーはさまざまなドメインにわたって機械学習に革命をもたらしたが、その振る舞いを理解することは依然として重要であり、特に高度なアプリケーションではそうである。
本稿では,定量的・科学的文脈におけるトランスフォーマーの理解を高めることを目的とした,新しい玩具問題である文脈カウントタスクを紹介する。
このタスクは、オブジェクト検出や領域ベースの科学分析のようなデータセット内の正確なローカライズと計算を必要とする。
本稿では,因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的,実証的な解析を行い,様々な位置符号化が性能と解釈可能性に与える影響について検討する。
特に, 因果的注意がタスクに適しており, 位置埋め込みが最良となることはないが, 回転埋め込みは競争力があり, 訓練が容易である。
また,分布性能のうちどのトークンをバイアス項として使用するかが強く関連していることも示している。
Transformers have revolutionized machine learning across diverse domains, yet understanding their behavior remains crucial, particularly in high-stakes applications. This paper introduces the contextual counting task, a novel toy problem aimed at enhancing our understanding of Transformers in quantitative and scientific contexts. This task requires precise localization and computation within datasets, akin to object detection or region-based scientific analysis. We present theoretical and empirical analysis using both causal and non-causal Transformer architectures, investigating the influence of various positional encodings on performance and interpretability. In particular, we find that causal attention is much better suited for the task, and that no positional embeddings lead to the best accuracy, though rotary embeddings are competitive and easier to train. We also show that out of distribution performance is tightly linked to which tokens it uses as a bias term. | 翻訳日:2024-06-06 23:49:24 公開日:2024-05-30 |
# 信頼度を考慮したサブストラクチャービームサーチ(CABS):大規模言語モデルを用いた構造化データ生成における幻覚の軽減
Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models ( http://arxiv.org/abs/2406.00069v1 ) ライセンス: Link先を確認 | Chengwei Wei, Kee Kiat Koo, Amir Tavanaei, Karim Bouyarmane, | (参考訳) 大規模言語モデル(LLM)は構造化データ生成を容易にし、表形式のデータ、ドキュメントデータベース、製品カタログなどのドメインに応用しています。
しかし、誤った参照や幻覚による生成の正確性への懸念が続き、緩和のためにある種のモデル信頼が組み込まれる必要がある。
LLM世代における既存の信頼度推定法は主に、個々のトークンレベルまたは出力シーケンスレベル全体の信頼度に重点を置いており、サブ構造レベルでの独立および相関の両方のエントリの複雑な混合からなる構造化データ生成への適用性を制限する。
本稿では,生成したサブ構造レベルのデータに対する信頼度推定法について検討する。
本稿では, LLMトランスの隠れ状態に適用する信頼ネットワークの概念を, 従来のトークン条件の確率よりも高い目標推定値として導入する。
さらに、構造化データ生成におけるサブ構造レベルで動作する新しい復号法である、信頼性に配慮したサブ構造ビームサーチ(CABS)を提案する。
CABSは、各サブ構造レベルのデータに対する信頼ネットワークからの信頼度を考慮し、プロンプトを反復的に精製することにより、構造化データ生成の忠実度を高める。
その結果、CABSは、製品属性生成の問題で平均90%の精度で、構造化データ生成における従来のトークンレベルのビーム探索を16.7%リコールした。
Large Language Models (LLMs) have facilitated structured data generation, with applications in domains like tabular data, document databases, product catalogs, etc. However, concerns persist about generation veracity due to incorrect references or hallucinations, necessitating the incorporation of some form of model confidence for mitigation. Existing confidence estimation methods on LLM generations primarily focus on the confidence at the individual token level or the entire output sequence level, limiting their applicability to structured data generation, which consists of an intricate mix of both independent and correlated entries at the sub-structure level. In this paper, we first investigate confidence estimation methods for generated sub-structure-level data. We introduce the concept of Confidence Network that applies on the hidden state of the LLM transformer, as a more targeted estimate than the traditional token conditional probability. We further propose Confidence-Aware sub-structure Beam Search (CABS), a novel decoding method operating at the sub-structure level in structured data generation. CABS enhances the faithfulness of structured data generation by considering confidence scores from the Confidence Network for each sub-structure-level data and iteratively refining the prompts. Results show that CABS outperforms traditional token-level beam search for structured data generation by 16.7% Recall at 90% precision averagely on the problem of product attribute generation. | 翻訳日:2024-06-06 08:43:16 公開日:2024-05-30 |
# 光度曲線解析の最適化:カタクリスティック変数のEclipseマッピングにおけるScipyの最小化関数の評価
Optimizing Photometric Light Curve Analysis: Evaluating Scipy's Minimize Function for Eclipse Mapping of Cataclysmic Variables ( http://arxiv.org/abs/2406.00071v1 ) ライセンス: Link先を確認 | Anoop Kumar, Madan Mohan Tito Ayyalasomayajula, Dheerendra Panwar, Yeshwanth Vasa, | (参考訳) Scipyの最小限関数に特に焦点をあてて、日食マッピング法は、Pythonおよび必須ライブラリを使用して徹底的に研究され、実装されている。
SLSQP(Sequential Least Squares Programming)、Nelder-Mead(Nelder-Mead)、Conjugate Gradient(Conjugate Gradient)など、多くの最適化技術が使用されている。
しかし、測光曲線を調べるために、これらの手法はカイ二乗制約の下で最大エントロピー方程式を解こうとしている。
そのため、これらの手法は、まず2次元ガウスデータをチ二乗制限なしで評価し、その後、降着円盤をマッピングし、カタクリスティック可変KIC 201325107のガウス構造を明らかにするために使用される。
コード構造に対して批判的な分析を行い、潜在的な欠陥と設計上の問題を見つける。
さらに、解析により、ガウス重み付けのばらつき、ディスク画像の解像度、光曲線のデータ点数、制約度など、計算時間と画質に影響を与えるいくつかの要因が示されている。
With a particular focus on Scipy's minimize function the eclipse mapping method is thoroughly researched and implemented utilizing Python and essential libraries. Many optimization techniques are used, including Sequential Least Squares Programming (SLSQP), Nelder-Mead, and Conjugate Gradient (CG). However, for the purpose of examining photometric light curves these methods seek to solve the maximum entropy equation under a chi-squared constraint. Therefore, these techniques are first evaluated on two-dimensional Gaussian data without a chi-squared restriction, and then they are used to map the accretion disc and uncover the Gaussian structure of the Cataclysmic Variable KIC 201325107. Critical analysis is performed on the code structure to find possible faults and design problems. Additionally, the analysis shows how several factors impacting computing time and image quality are included including the variance in Gaussian weighting, disc image resolution, number of data points in the light curve, and degree of constraint. | 翻訳日:2024-06-06 08:43:16 公開日:2024-05-30 |
# Gransformer: Transformerベースのグラフ生成
Gransformer: Transformer-based Graph Generation ( http://arxiv.org/abs/2203.13655v3 ) ライセンス: Link先を確認 | Ahmad Khajenezhad, Seyed Ali Osia, Mahmood Karimian, Hamid Beigy, | (参考訳) トランスフォーマーは自然言語処理や機械ビジョンといった様々なタスクで広く使われている。
本稿では,グラフ生成のためのTransformerに基づくアルゴリズムであるGransformerを提案する。
我々は、与えられたグラフの構造情報を利用するためにTransformerエンコーダを変更する。
注意機構は、各ノード間のエッジの有無を考慮に入れられる。
また、注目度と位置エンコーディングの両方に適用されるノードペア間のグラフベースの親しみ度尺度も導入する。
この親しみの尺度は、メッセージパッシングアルゴリズムに基づいており、グラフに関する構造情報を含んでいる。
また,本手法は自己回帰的であり,1回の前方通過で必要条件付き確率を得ることが可能である。
出力層では,各ノードに接続された従属エッジの逐次生成を効率的にモデル化するために,マスク付きオートエンコーダを用いて密度推定を行う。
さらに,BFSノードオーダリングを用いて,先行ノードに接続することなく,モデルが孤立ノードを生成するのを防ぐ手法を提案する。
本手法は,合成および実世界のデータセットを用いて評価し,再帰モデルやグラフ畳み込みネットワークを含む関連するデータセットと比較する。
実験結果から,提案手法はこれらの手法と比較して高い性能を示した。
Transformers have become widely used in various tasks, such as natural language processing and machine vision. This paper proposes Gransformer, an algorithm based on Transformer for generating graphs. We modify the Transformer encoder to exploit the structural information of the given graph. The attention mechanism is adapted to consider the presence or absence of edges between each pair of nodes. We also introduce a graph-based familiarity measure between node pairs that applies to both the attention and the positional encoding. This measure of familiarity is based on message-passing algorithms and contains structural information about the graph. Also, this measure is autoregressive, which allows our model to acquire the necessary conditional probabilities in a single forward pass. In the output layer, we also use a masked autoencoder for density estimation to efficiently model the sequential generation of dependent edges connected to each node. In addition, we propose a technique to prevent the model from generating isolated nodes without connection to preceding nodes by using BFS node orderings. We evaluate this method using synthetic and real-world datasets and compare it with related ones, including recurrent models and graph convolutional networks. Experimental results show that the proposed method performs comparatively to these methods. | 翻訳日:2024-06-05 00:04:47 公開日:2024-05-30 |
# LIA:遅延影響近似を用いたフェデレーション学習におけるプライバシ保護データ品質評価
LIA: Privacy-Preserving Data Quality Evaluation in Federated Learning Using a Lazy Influence Approximation ( http://arxiv.org/abs/2205.11518v3 ) ライセンス: Link先を確認 | Ljubomir Rokvic, Panayiotis Danassis, Sai Praneeth Karimireddy, Boi Faltings, | (参考訳) フェデレートラーニング(Federated Learning)では、低品質、腐敗、悪意のあるデータを扱うことが不可欠である。
しかし、プライバシー上の懸念から従来のデータ評価手法は適していない。
この問題に対処するため,プライバシを保ちながらデータのフィルタリングとスコア付けを行うために,"lazy influence"と呼ばれる新しい影響近似を利用する,シンプルで効果的なアプローチを提案する。
これを行うために、各参加者は自身のデータを使用して、他の参加者のバッチの影響を推定し、微分的にプライベートな難読度スコアを中央コーディネータに送信する。
我々の手法は、様々なシミュレーションや実世界の環境でバイアスや破損したデータをフィルタし、90\%(時には100\%)以上のリコール率を達成し、強い差分プライバシー保証を$\varepsilon \leq 1$で維持できることが示されている。
In Federated Learning, it is crucial to handle low-quality, corrupted, or malicious data. However, traditional data valuation methods are not suitable due to privacy concerns. To address this, we propose a simple yet effective approach that utilizes a new influence approximation called "lazy influence" to filter and score data while preserving privacy. To do this, each participant uses their own data to estimate the influence of another participant's batch and sends a differentially private obfuscated score to the central coordinator. Our method has been shown to successfully filter out biased and corrupted data in various simulated and real-world settings, achieving a recall rate of over $>90\%$ (sometimes up to $100\%$) while maintaining strong differential privacy guarantees with $\varepsilon \leq 1$. | 翻訳日:2024-06-03 21:09:19 公開日:2024-05-30 |
# 分散グラフクラスタリングのための最適グラフフィルタの学習
Learning Optimal Graph Filters for Clustering of Attributed Graphs ( http://arxiv.org/abs/2211.04634v2 ) ライセンス: Link先を確認 | Meiby Ortiz-Bouza, Selin Aviyente, | (参考訳) 多くの現実世界のシステムは、システム内の異なるエンティティがノードによって表現され、エッジによって相互作用するグラフとして表現することができる。
グラフィカルな構造を持つ大規模なデータセットを研究する上で重要なタスクはグラフクラスタリングである。
ノード間の接続を利用したグラフクラスタリングには多くの作業があったが、多くの実世界のネットワークにもノード属性がある。
属性グラフのクラスタリングには、グラフ構造とノード属性の合同モデリングが必要である。
最近の研究は、グラフ畳み込みネットワークとグラフフィルタリングを通して、これら2つの相補的な情報ソースを組み合わせることに重点を置いている。
しかし、これらの手法は主にローパスフィルタに限られており、クラスタリングタスクのフィルタパラメータを明示的に学習していない。
本稿では,FIR(Finite Impulse Response)およびARMA(Autoregressive moving Average)グラフフィルタのパラメータをクラスタリングに最適化したグラフ信号処理手法を提案する。
提案手法は、2段階反復最適化問題として定式化され、与えられたデータに最適な解釈可能なグラフフィルタを学習し、異なるクラスタ間の分離を最大化する。
提案手法は属性付きネットワーク上で評価され,最先端手法と比較される。
Many real-world systems can be represented as graphs where the different entities in the system are presented by nodes and their interactions by edges. An important task in studying large datasets with graphical structure is graph clustering. While there has been a lot of work on graph clustering using the connectivity between the nodes, many real-world networks also have node attributes. Clustering attributed graphs requires joint modeling of graph structure and node attributes. Recent work has focused on combining these two complementary sources of information through graph convolutional networks and graph filtering. However, these methods are mostly limited to lowpass filtering and do not explicitly learn the filter parameters for the clustering task. In this paper, we introduce a graph signal processing based approach, where we learn the parameters of Finite Impulse Response (FIR) and Autoregressive Moving Average (ARMA) graph filters optimized for clustering. The proposed approach is formulated as a two-step iterative optimization problem, focusing on learning interpretable graph filters that are optimal for the given data and that maximize the separation between different clusters. The proposed approach is evaluated on attributed networks and compared to the state-of-the-art methods. | 翻訳日:2024-06-03 21:09:19 公開日:2024-05-30 |
# EVEREST: 冗長な時空間トークンを除去した効率的なマスクビデオオートエンコーダ
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens ( http://arxiv.org/abs/2211.10636v5 ) ライセンス: Link先を確認 | Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang, | (参考訳) Masked Video Autoencoder (MVA) アプローチは、従来のビデオ表現学習法を著しく上回り、その可能性を実証している。
しかし、ランダムマスキング戦略によって非形式的トークンやフレームを予測する際に、計算量やメモリを無駄にしてしまう。
(例:16ノード以上、128 NVIDIA A100 GPU)。
この問題を解決するために,ビデオ中のパッチ間の不平等な情報密度を利用して,リッチなモーション特徴を含むトークンを発見し,事前学習と微調整の両方で非形式的なトークンを捨てる,驚くほど効率的な映像表現学習手法であるVERESTを提案する。
さらに,情報集約型フレーム選択戦略を提案し,最小冗長度で情報的および因果的フレームにフォーカスできるようにする。
提案手法は,MVAの計算とメモリ要求を大幅に低減し,マルチベンチマークと未計算のEgo4Dデータセットの計算およびメモリ重大ベースラインに匹敵する性能を保ちながら,1台のGPUで事前学習と微調整を可能にする。
ビデオ理解のさらなる研究の障壁を減らすことに、私たちの研究が貢献できることを願っています。
Masked Video Autoencoder (MVA) approaches have demonstrated their potential by significantly outperforming previous video representation learning methods. However, they waste an excessive amount of computations and memory in predicting uninformative tokens/frames due to random masking strategies. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose EVEREST, a surprisingly efficient MVA approach for video representation learning that finds tokens containing rich motion features and discards uninformative ones during both pre-training and fine-tuning. We further present an information-intensive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces the computation and memory requirements of MVA, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy baselines on multiple benchmarks and the uncurated Ego4D dataset. We hope that our work contributes to reducing the barrier to further research on video understanding. | 翻訳日:2024-06-03 21:09:19 公開日:2024-05-30 |
# Web3におけるデジタル継承:ポロキャット・クサマ生態系におけるソウルバウンドトークンとソーシャルリカバリパレットの事例研究
Digital Inheritance in Web3: A Case Study of Soulbound Tokens and the Social Recovery Pallet within the Polkadot and Kusama Ecosystems ( http://arxiv.org/abs/2301.11074v2 ) ライセンス: Link先を確認 | Justin Goldston, Tomer Jordi Chaffer, Justyna Osowska, Charles von Goins II, | (参考訳) 近年、ソーシャルメディアユーザーやブロックチェーンエコシステム間のデジタル継承に関する議論が活発化している。
その結果、ソーシャルメディアのコンテンツ暗号通貨や非偽造トークンなどのデジタル資産は、ますます価値と普及し、テスターの死や無能力化によって、これらの資産を移動するための明確かつ安全なメカニズムが必要とされるようになった。
本研究では,PolkadotおよびKusamaブロックチェーンネットワークのユースケースとして,ソウルバウンドトークンとソーシャルリカバリパレットを用いたデジタル継承フレームワークを提案する。
本研究で論じられた知見は、ソウルバウンドトークンとソーシャルリカバリパレットがデジタル継承計画の作成に有望な解決策を提供する一方で、テスタのデジタルエグゼキュータや開発者にとって重要な考察がもたらされることを示唆している。
人工知能や量子コンピューティングといった他の技術の潜在的な影響とリスクを十分に理解するためには、さらなる研究が必要であるが、この研究は、ユーザがデジタル継承戦略を計画し始め、開発者がより直感的なソリューションを開発するためのプライマーを提供する。
In recent years discussions centered around digital inheritance have increased among social media users and across blockchain ecosystems. As a result digital assets such as social media content cryptocurrencies and non-fungible tokens have become increasingly valuable and widespread, leading to the need for clear and secure mechanisms for transferring these assets upon the testators death or incapacitation. This study proposes a framework for digital inheritance using soulbound tokens and the social recovery pallet as a use case in the Polkadot and Kusama blockchain networks. The findings discussed within this study suggest that while soulbound tokens and the social recovery pallet offer a promising solution for creating a digital inheritance plan the findings also raise important considerations for testators digital executors and developers. While further research is needed to fully understand the potential impacts and risks of other technologies such as artificial intelligence and quantum computing this study provides a primer for users to begin planning a digital inheritance strategy and for developers to develop a more intuitive solution. | 翻訳日:2024-06-03 21:00:54 公開日:2024-05-30 |
# オフラインデータインフォームド行動ポリシー設計による効率的な政策評価
Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design ( http://arxiv.org/abs/2301.13734v4 ) ライセンス: Link先を確認 | Shuze Liu, Shangtong Zhang, | (参考訳) ほとんどの強化学習実践者は、オンラインモンテカルロ推定器を用いて、ハイパーパラメータチューニングまたは異なるアルゴリズム設計選択のテストを行い、そこでポリシーを環境内で繰り返し実行し、平均的な結果を得る。
このような環境との大規模な相互作用は、多くのシナリオにおいて禁じられている。
本稿では,オンラインモンテカルロ推定器のデータ効率を不偏性を維持しながら向上させる手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
行動ポリシー学習誤差が分散の減少量にどのように影響するかを特徴付けるために理論的解析が提供される。
従来の手法と比較すると,オフラインデータに対する要求が少なく,より広い環境において実験性能が向上する。
Most reinforcement learning practitioners evaluate their policies with online Monte Carlo estimators for either hyperparameter tuning or testing different algorithmic design choices, where the policy is repeatedly executed in the environment to get the average outcome. Such massive interactions with the environment are prohibitive in many scenarios. In this paper, we propose novel methods that improve the data efficiency of online Monte Carlo estimators while maintaining their unbiasedness. We first propose a tailored closed-form behavior policy that provably reduces the variance of an online Monte Carlo estimator. We then design efficient algorithms to learn this closed-form behavior policy from previously collected offline data. Theoretical analysis is provided to characterize how the behavior policy learning error affects the amount of reduced variance. Compared with previous works, our method achieves better empirical performance in a broader set of environments, with fewer requirements for offline data. | 翻訳日:2024-06-03 21:00:54 公開日:2024-05-30 |
# 動的ビュー合成のための動的単眼映像のデカップリング
Decoupling Dynamic Monocular Videos for Dynamic View Synthesis ( http://arxiv.org/abs/2304.01716v4 ) ライセンス: Link先を確認 | Meng You, Junhui Hou, | (参考訳) 動的モノクラー映像からの動的ビュー合成の課題、すなわち、移動カメラが捉えたダイナミックシーンのモノクラー映像を自由視点で合成することは、主に2次元フレームの制限によりシーンの「textbf{dynamic objects}」を正確にモデル化することにある。
既存の方法では、既処理の2D光流と深度マップをオフザシェルフ方式でネットワークを監視し、2D情報を3Dに持ち上げる際に、前処理の監督の正確さと曖昧さに悩まされる。
本稿では,この課題を教師なしの方法で解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。
このようなきめ細かい動きの定式化は、ネットワークの学習の難しさを軽減し、品質の高い新しいビューだけでなく、余分な監督を必要とする既存の方法よりも正確なシーンフローと深さを生成することができる。
The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the \textbf{dynamic objects} of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision. | 翻訳日:2024-06-03 21:00:54 公開日:2024-05-30 |
# 時系列分類のためのロバストな説明者勧告
Robust Explainer Recommendation for Time Series Classification ( http://arxiv.org/abs/2306.05501v4 ) ライセンス: Link先を確認 | Thu Trang Nguyen, Thach Le Nguyen, Georgiana Ifrim, | (参考訳) 時系列分類(英: Time series classification)とは、人間の活動認識、スポーツ分析、一般的なセンシングといった分野に共通する、時間的シーケンスを扱うタスクである。
この領域では、データとモデルをよりよく理解するために説明が鍵となるため、説明可能性への関心が高まっている。
近年,時系列における各データポイントの重要性を数値で定量化する手法として,サリエンシマップの形式での説明を提供するために,時系列に対して様々な手法が提案され,適用されている。
しかし、サリエンシマップは、しばしば意見の相違があるため、どちらを使うべきかは定かではない。
本稿では,時系列分類のための説明手法を定量的に評価し,ランク付けするための新しい枠組みを提案する。
本稿では,与えられた説明手法(分類課題の関連性)の有意な評価方法と,説明を並べて比較する方法について述べる。
目標は、与えられた時系列分類データセットのベストプラクティスを推奨することである。
本稿では,時系列分類におけるサリエンシに基づく説明を推奨するモデル非依存的説明評価フレームワークAMEEを提案する。
このアプローチでは、各説明によって導かれる入力時系列にデータ摂動を付加する。
その結果,時系列の識別的部分の摂動によって分類精度が著しく変化し,各説明の評価に利用できることがわかった。
異なる種類の摂動と異なるタイプの分類器に頑健であるためには、摂動と分類器の精度損失を集約する。
この新しいアプローチでは、ランダムな説明者やオラクルの説明者を含む、さまざまな説明者の中で最高の説明者を推薦することができる。
合成データセットの定量的および定性的な分析、さまざまな時系列データセット、および既知の専門家の真実を用いた実世界のケーススタディを提供する。
Time series classification is a task which deals with temporal sequences, a prevalent data type common in domains such as human activity recognition, sports analytics and general sensing. In this area, interest in explainability has been growing as explanation is key to understand the data and the model better. Recently, a great variety of techniques have been proposed and adapted for time series to provide explanation in the form of saliency maps, where the importance of each data point in the time series is quantified with a numerical value. However, the saliency maps can and often disagree, so it is unclear which one to use. This paper provides a novel framework to quantitatively evaluate and rank explanation methods for time series classification. We show how to robustly evaluate the informativeness of a given explanation method (i.e., relevance for the classification task), and how to compare explanations side-by-side. The goal is to recommend the best explainer for a given time series classification dataset. We propose AMEE, a Model-Agnostic Explanation Evaluation framework, for recommending saliency-based explanations for time series classification. In this approach, data perturbation is added to the input time series guided by each explanation. Our results show that perturbing discriminative parts of the time series leads to significant changes in classification accuracy, which can be used to evaluate each explanation. To be robust to different types of perturbations and different types of classifiers, we aggregate the accuracy loss across perturbations and classifiers. This novel approach allows us to recommend the best explainer among a set of different explainers, including random and oracle explainers. We provide a quantitative and qualitative analysis for synthetic datasets, a variety of timeseries datasets, as well as a real-world case study with known expert ground truth. | 翻訳日:2024-06-03 20:51:10 公開日:2024-05-30 |
# アウト・オブ・ディストリビューションの一般化と校正のための事前学習モデル選択に関する実証的研究
An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration ( http://arxiv.org/abs/2307.08187v3 ) ライセンス: Link先を確認 | Hiroki Naganuma, Ryuichiro Hataya, Ioannis Mitliagkas, | (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化タスクでは、微調整された事前学習モデルが一般的な戦略となっている。
学習アルゴリズムの進歩に焦点をあてたこれまでの研究と異なり、トレーニング済みモデルのサイズ、トレーニング済みデータセットのサイズ、トレーニング戦略が下流タスクの一般化と不確実性校正にどのように影響するかを体系的に検討した。
各種事前学習モデルサイズ, \update{five}事前学習データセット, および4つの分散シフトデータセットに関する広範な実験による5つのデータ拡張について, 合計12万時間以上にわたって100モデルを評価した。
提案手法は,アルゴリズムの改良だけでOODの精度が大幅に向上し,事前学習モデル選択が有意な影響を示した。
OOD性能と校正性能は,従来の浅層モデルよりも良く校正できるという従来の研究とは対照的に,より大きなモデルとより大きな事前学習データによって改善されている。
本研究は,分布外一般化とキャリブレーションのための事前学習モデル選択の重要性を概観するものである。
In out-of-distribution (OOD) generalization tasks, fine-tuning pre-trained models has become a prevalent strategy. Different from most prior work that has focused on advancing learning algorithms, we systematically examined how pre-trained model size, pre-training dataset size, and training strategies impact generalization and uncertainty calibration on downstream tasks. We evaluated 100 models across diverse pre-trained model sizes, \update{five} pre-training datasets, and five data augmentations through extensive experiments on four distribution shift datasets totaling over 120,000 GPU hours. Our results demonstrate the significant impact of pre-trained model selection, with optimal choices substantially improving OOD accuracy over algorithm improvement alone. We find larger models and bigger pre-training data improve OOD performance and calibration, in contrast to some prior studies that found modern deep networks to calibrate worse than classical shallow models. Our work underscores the overlooked importance of pre-trained model selection for out-of-distribution generalization and calibration. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# パラメトリック不安定性からのバックアクション回避計測の保護
Protecting backaction-evading measurements from parametric instability ( http://arxiv.org/abs/2308.09168v4 ) ライセンス: Link先を確認 | E. P. Ruddy, Y. Jiang, N. E. Frattini, K. O. Quinlan, K. W. Lehnert, | (参考訳) パラメトリック結合型発振器系における1つの二次状態の無雑音測定は、2つの発振器の総和と差分周波数をポンピングすることで理論的に可能であり、バックアクション回避(BAE)方式を実現することができる。
これは純粋な3波混合システムにおいて最も単純なシナリオでは当てはまるが、この方式の実装は、システムの不安定化とノイズの追加という不要な高次パラメトリックプロセスによって妨げられる。
総和と差分周波数から2つのポンプを変形させることでシステムを安定させ,BAE性能を回復し,非アクセス不能な協調動作の操作を可能にすることを解析的に示す。
また,弱い信号検出実験(PRX QUANTUM 4, 020302 (2023))で示された加速度は,このデチューニング技術により達成可能であることを示した。
Noiseless measurement of a single quadrature in systems of parametrically coupled oscillators is theoretically possible by pumping at the sum and difference frequencies of the two oscillators, realizing a backaction-evading (BAE) scheme. Although this would hold true in the simplest scenario for a system with pure three-wave mixing, implementations of this scheme are hindered by unwanted higher-order parametric processes that destabilize the system and add noise. We show analytically that detuning the two pumps from the sum and difference frequencies can stabilize the system and fully recover the BAE performance, enabling operation at otherwise inaccessible cooperativities. We also show that the acceleration demonstrated in a weak signal detection experiment [PRX QUANTUM 4, 020302 (2023)] was only achievable because of this detuning technique. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# 確率的近位点アルゴリズムのばらつき低減手法
Variance reduction techniques for stochastic proximal point algorithms ( http://arxiv.org/abs/2308.09310v2 ) ライセンス: Link先を確認 | Cheik Traoré, Vassilis Apidopoulos, Saverio Salzo, Silvia Villa, | (参考訳) 有限和最小化の文脈では、分散還元法は最先端確率勾配法の性能向上に広く用いられている。
彼らの実践的な影響は明らかであり、理論上も明らかである。
確率的近点アルゴリズムは、ステップサイズの選択に関してより安定であるため、確率的勾配アルゴリズムの代替として研究されてきたが、その分散化バージョンは勾配アルゴリズムほど研究されていない。
本研究では,確率的近点アルゴリズムにおける分散低減手法の統一化研究を提案する。
そこで我々は,SVRG,SAGA,およびそれらの変種をスムーズかつ凸関数に適用するために,SVRG,SAGAの近位バージョンを指定可能な一般確率的近位アルゴリズムを提案する。
我々は、反復と目的関数値に対して、いくつかの収束結果を提供する。
さらに、Polyak-{\L}ojasiewicz (PL) 条件下では、イテレートと関数値に対する線形収束率を得る。
数値実験により, 勾配法に対する近似分散低減法の利点を実証し, 特に, 難解問題に対する段差選択に対する安定性について考察した。
In the context of finite sums minimization, variance reduction techniques are widely used to improve the performance of state-of-the-art stochastic gradient methods. Their practical impact is clear, as well as their theoretical properties. Stochastic proximal point algorithms have been studied as an alternative to stochastic gradient algorithms since they are more stable with respect to the choice of the stepsize but their variance reduced versions are not as studied as the gradient ones. In this work, we propose the first unified study of variance reduction techniques for stochastic proximal point algorithms. We introduce a generic stochastic proximal algorithm that can be specified to give the proximal version of SVRG, SAGA, and some of their variants for smooth and convex functions. We provide several convergence results for the iterates and the objective function values. In addition, under the Polyak-{\L}ojasiewicz (PL) condition, we obtain linear convergence rates for the iterates and the function values. Our numerical experiments demonstrate the advantages of the proximal variance reduction methods over their gradient counterparts, especially about the stability with respect to the choice of the stepsize for difficult problems. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# BayotIDE: 機能分解を伴うBayesian Online Multivariate Time Series Imputation
BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition ( http://arxiv.org/abs/2308.14906v3 ) ライセンス: Link先を確認 | Shikai Fang, Qingsong Wen, Yingtao Luo, Shandian Zhe, Liang Sun, | (参考訳) 交通やエネルギーといった現実のシナリオでは、値やノイズが欠けている巨大な時系列データが広く観測され、不規則にサンプリングされる。
多くの計算法が提案されているが、そのほとんどは局所的な水平線で動作するため、長いシーケンスを適合サイズのパッチのバッチに分割することでモデルが訓練される。
この局所的な地平線は、モデルにグローバルなトレンドや周期的なパターンを無視させる。
さらに重要なことは、ほとんどの方法では、観測は通常のタイムスタンプでサンプリングされ、異なるアプリケーションから生じる複雑な不規則なサンプル時系列を扱うことができないと仮定している。
第3に、既存のほとんどのメソッドはオフラインで学習される。
したがって、高速なストリーミングデータを持つ多くのアプリケーションには適していない。
これらの制限を克服するために、ベイズオンライン多変量時系列インプチューション(英語版)と機能分解(英語版)を提案する。
多変量時系列を低ランク時間因子群と異なるパターンの重み付けの組み合わせとして扱う。
異なるカーネルを持つガウス過程(GP)の群を関数的事前関数として適用し,その因子に適合する。
計算効率を向上させるため、等価確率微分方程式(SDE)を構築し、オンライン推論のためのスケーラブルなアルゴリズムを開発することにより、GPを状態空間に変換する。
提案手法は任意のタイムスタンプ上での計算だけでなく,下流アプリケーションに対する不確実な定量化と解釈性も提供する。
合成と実世界の両方のデータセットで評価を行い、https://github.com/xuangu-fang/BayOTIDE} でコードを公開します。
In real-world scenarios like traffic and energy, massive time-series data with missing values and noises are widely observed, even sampled irregularly. While many imputation methods have been proposed, most of them work with a local horizon, which means models are trained by splitting the long sequence into batches of fit-sized patches. This local horizon can make models ignore global trends or periodic patterns. More importantly, almost all methods assume the observations are sampled at regular time stamps, and fail to handle complex irregular sampled time series arising from different applications. Thirdly, most existing methods are learned in an offline manner. Thus, it is not suitable for many applications with fast-arriving streaming data. To overcome these limitations, we propose BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition. We treat the multivariate time series as the weighted combination of groups of low-rank temporal factors with different patterns. We apply a group of Gaussian Processes (GPs) with different kernels as functional priors to fit the factors. For computational efficiency, we further convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE), and developing a scalable algorithm for online inference. The proposed method can not only handle imputation over arbitrary time stamps, but also offer uncertainty quantification and interpretability for the downstream application. We evaluate our method on both synthetic and real-world datasets.We release the code at {https://github.com/xuangu-fang/BayOTIDE} | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# 視覚・言語モデルにおけるフレーズ接地とタスクパフォーマンスの合同研究
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models ( http://arxiv.org/abs/2309.02691v3 ) ライセンス: Link先を確認 | Noriyuki Kojima, Hadar Averbuch-Elor, Yoav Artzi, | (参考訳) 視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。
しかし、この基底を現代のモデルで観察することは複雑であり、たとえそのタスクが一般化に導電性のある方法で対処されたとしても、一般に行われることが予想される。
本稿では,タスク性能と句のグラウンド化を共同で研究する枠組みを提案し,両者の関係を調査するための3つのベンチマークを提案する。
以上の結果から,現代モデルでは,句の理解と課題解決の両立が困難であることが示唆された。
我々は、地面の表現アノテーションをブルートフォースでトレーニングし、それが生成するダイナミクスを分析することで、この問題にどのように対処できるかを示す。
コードはhttps://github.com/lil-lab/phrase_grounding.comで入手できる。
Key to tasks that require reasoning about natural language in visual contexts is grounding words and phrases to image regions. However, observing this grounding in contemporary models is complex, even if it is generally expected to take place if the task is addressed in a way that is conductive to generalization. We propose a framework to jointly study task performance and phrase grounding, and propose three benchmarks to study the relation between the two. Our results show that contemporary models demonstrate inconsistency between their ability to ground phrases and solve tasks. We show how this can be addressed through brute-force training on ground phrasing annotations, and analyze the dynamics it creates. Code and at available at https://github.com/lil-lab/phrase_grounding. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# 仮説探索: 言語モデルによる帰納的推論
Hypothesis Search: Inductive Reasoning with Language Models ( http://arxiv.org/abs/2309.05660v2 ) ライセンス: Link先を確認 | Ruocheng Wang, Eric Zelikman, Gabriel Poesia, Yewen Pu, Nick Haber, Noah D. Goodman, | (参考訳) 帰納的推論(inductive reasoning)は、中核的な問題解決能力である。人間はいくつかの例から根底にある原則を特定でき、新しいシナリオにしっかりと一般化できる。
最近の研究は、帰納的推論タスクにおける大きな言語モデル(LLM)を評価し、直接的に「文脈学習」を行うように促している。
これは単純な帰納的タスクではうまく機能するが、Abstraction and Reasoning Corpus (ARC)のような複雑なタスクではうまく機能しない。
本研究では,複数の抽象レベルで明示的な仮説を生成することで,LLMの帰納的推論能力を向上させることを提案する。
これらのプログラムは、観察されたサンプル上で実行し、新しい入力に一般化することで検証することができる。
仮説探索空間を減らすために、我々は、実装すべき仮説の集合をフィルタリングするステップを探索する: LLMにそれらをより小さな仮説の集合にまとめるように依頼するか、あるいは人間のアノテータにサブセットを選択するよう依頼する。
我々は、ARC視覚誘導推論ベンチマーク、その変種1D-ARC、文字列変換データセットSyGuS、リスト変換データセットList Functionsにおけるパイプラインの有効性を検証する。
ARCの100プロブレムのランダムなサブセットでは、LLMサマリーを用いた自動パイプラインが30%の精度を実現し、直接プロンプトベースライン(精度17%)を上回った。
LLM生成候補から選択する人の最小限の入力により、パフォーマンスは33%向上する。
提案手法は,抽象的仮説生成と具体的なプログラム表現の両方が帰納的推論タスクにおいて LLM に有効であることを示す。
Inductive reasoning is a core problem-solving capacity: humans can identify underlying principles from a few examples, which robustly generalize to novel scenarios. Recent work evaluates large language models (LLMs) on inductive reasoning tasks by directly prompting them yielding "in context learning." This works well for straightforward inductive tasks but performs poorly on complex tasks such as the Abstraction and Reasoning Corpus (ARC). In this work, we propose to improve the inductive reasoning ability of LLMs by generating explicit hypotheses at multiple levels of abstraction: we prompt the LLM to propose multiple abstract hypotheses about the problem, in natural language, then implement the natural language hypotheses as concrete Python programs. These programs can be verified by running on observed examples and generalized to novel inputs. To reduce the hypothesis search space, we explore steps to filter the set of hypotheses to implement: we either ask the LLM to summarize them into a smaller set of hypotheses or ask human annotators to select a subset. We verify our pipeline's effectiveness on the ARC visual inductive reasoning benchmark, its variant 1D-ARC, string transformation dataset SyGuS, and list transformation dataset List Functions. On a random 100-problem subset of ARC, our automated pipeline using LLM summaries achieves 30% accuracy, outperforming the direct prompting baseline (accuracy of 17%). With the minimal human input of selecting from LLM-generated candidates, performance is boosted to 33%. Our ablations show that both abstract hypothesis generation and concrete program representations benefit LLMs on inductive reasoning tasks. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# Byzantine-Resilient Federated PCA and Low Rank Column-wise Sensing
Byzantine-Resilient Federated PCA and Low Rank Column-wise Sensing ( http://arxiv.org/abs/2309.14512v2 ) ライセンス: Link先を確認 | Ankit Pratap Singh, Namrata Vaswani, | (参考訳) 本研究は、フェデレートされた主成分分析(PCA)とフェデレーションされたローランクカラムワイズセンシング(LRCS)の2つの関連する学習問題を考察する。
ノード攻撃はビザンティンであると仮定され、これは攻撃者は全能であり、共謀できることを意味する。
本稿では,PCA問題の解法であり,LRCS問題の鍵となる部分であるSubspace-Medianという,ビザンチン耐性の高い通信効率・サンプリング効率のアルゴリズムを提案する。
また, フェデレーションPCAにおいて, 最も自然なビザンチン耐性溶液について検討した。
第2の貢献は、ビザンチン系水平結合LRCSの完全交互勾配降下(GD)と最小化(altGDmin)アルゴリズムと、それに対するサンプルおよび通信複雑性の保証である。
大規模なシミュレーション実験は、我々の理論的な保証を裏付けるために用いられる。
LRCSのために開発したアイデアは、他のLRリカバリ問題にも容易に拡張可能である。
This work considers two related learning problems in a federated attack prone setting: federated principal components analysis (PCA) and federated low rank column-wise sensing (LRCS). The node attacks are assumed to be Byzantine which means that the attackers are omniscient and can collude. We introduce a novel provably Byzantine-resilient communication-efficient and sampleefficient algorithm, called Subspace-Median, that solves the PCA problem and is a key part of the solution for the LRCS problem. We also study the most natural Byzantine-resilient solution for federated PCA, a geometric median based modification of the federated power method, and explain why it is not useful. Our second main contribution is a complete alternating gradient descent (GD) and minimization (altGDmin) algorithm for Byzantine-resilient horizontally federated LRCS and sample and communication complexity guarantees for it. Extensive simulation experiments are used to corroborate our theoretical guarantees. The ideas that we develop for LRCS are easily extendable to other LR recovery problems as well. | 翻訳日:2024-06-03 20:41:23 公開日:2024-05-30 |
# マルチリガンドドッキングとバインドサイト設計のための高調波自己整合流マッチング
Harmonic Self-Conditioned Flow Matching for Multi-Ligand Docking and Binding Site Design ( http://arxiv.org/abs/2310.05764v4 ) ライセンス: Link先を確認 | Hannes Stärk, Bowen Jing, Regina Barzilay, Tommi Jaakkola, | (参考訳) タンパク質の機能のかなりの部分は、酵素触媒を含む小さな分子の結合を必要とする。
そのため、小さな分子に対する結合ポケットの設計には、薬物合成からエネルギー貯蔵まで、いくつかの影響のある応用がある。
この目的に向けて,我々はまず,自己条件付きフローマッチングの目的に基づいて,3次元タンパク質-リガンド結合構造を改良した生成過程であるHarmonicFlowを開発した。
FlowSiteはこのフローモデルを拡張して、タンパク質ポケットの離散残基タイプと分子の結合3D構造を共同で生成する。
本研究では,HarmonicFlowがポケットレベルのドッキングにおいて,ドッキングの簡易性,汎用性,平均サンプル品質を向上することを示す。
この構造モデリングによって実現されたFlowSiteは、ベースラインアプローチよりもはるかに優れたバインディングサイトを設計する。
A significant amount of protein function requires binding small molecules, including enzymatic catalysis. As such, designing binding pockets for small molecules has several impactful applications ranging from drug synthesis to energy storage. Towards this goal, we first develop HarmonicFlow, an improved generative process over 3D protein-ligand binding structures based on our self-conditioned flow matching objective. FlowSite extends this flow model to jointly generate a protein pocket's discrete residue types and the molecule's binding 3D structure. We show that HarmonicFlow improves upon state-of-the-art generative processes for docking in simplicity, generality, and average sample quality in pocket-level docking. Enabled by this structure modeling, FlowSite designs binding sites substantially better than baseline approaches. | 翻訳日:2024-06-03 20:31:38 公開日:2024-05-30 |
# 欠測データを用いた微分プライベートデータ生成
Differentially Private Data Generation with Missing Data ( http://arxiv.org/abs/2310.11548v2 ) ライセンス: Link先を確認 | Shubhankar Mohapatra, Jianqiao Zong, Florian Kerschbaum, Xi He, | (参考訳) 差分プライバシー(DP)保証付き合成データの生成に成功している研究はいくつかあるが、入力データが欠落している場合に高品質な合成データを生成するには不十分である。
そこで本研究では,DP合成データの問題点を形式化し,データとプライバシ要件の異なる4つの実世界のデータセットにおける合成データの実用性を大幅に向上させる3つの効果的な適応戦略を提案する。
また,これらDP合成データ生成アルゴリズムの完全真実データに対するプライバシーの影響と不完全データとの関係についても検討する。
我々は、欠落したメカニズムをサンプリングプロセスとしてモデル化し、真理データに対するプライバシー保証のより厳密な上限を得る。
全体として、この研究は、欠落したデータの存在下で、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
Despite several works that succeed in generating synthetic data with differential privacy (DP) guarantees, they are inadequate for generating high-quality synthetic data when the input data has missing values. In this work, we formalize the problems of DP synthetic data with missing values and propose three effective adaptive strategies that significantly improve the utility of the synthetic data on four real-world datasets with different types and levels of missing data and privacy requirements. We also identify the relationship between privacy impact for the complete ground truth data and incomplete data for these DP synthetic data generation algorithms. We model the missing mechanisms as a sampling process to obtain tighter upper bounds for the privacy guarantees to the ground truth data. Overall, this study contributes to a better understanding of the challenges and opportunities for using private synthetic data generation algorithms in the presence of missing data. | 翻訳日:2024-06-03 20:31:38 公開日:2024-05-30 |
# 神経崩壊のレンズによるアウトオブディストリビューションの検出
Detecting Out-of-Distribution Through the Lens of Neural Collapse ( http://arxiv.org/abs/2311.01479v5 ) ライセンス: Link先を確認 | Litian Liu, Yao Qin, | (参考訳) AIの安全なデプロイには、効率的で汎用性の高いOOD(Out-of-Distribution)検出が不可欠だが、既存のアルゴリズムでは依然として難しい。
ニューラル・コラプス(Neural Collapse)に触発されて、OOD試料の特徴と比較して重量ベクトルに近づいた分布内分布(ID)サンプルの特徴が明らかになった。
さらに,ID機能は空間的に拡張され,単純な等角的タイトフレームワークが構築される傾向があることも明らかにした。
ニューラル・コラプスの知見を両面から考慮し,OOD検出に重みベクトルに近づき,特徴ノルムを用いてOODサンプルをフィルタリングすることで,この視点を補完することを提案する。
オフザシェルフモデルに対する広範囲な実験により,OOD検出の一般化能力を向上し,多様な分類タスクやモデルアーキテクチャにまたがる手法の有効性と有効性を示した。
Efficient and versatile Out-of-Distribution (OOD) detection is essential for the safe deployment of AI yet remains challenging for existing algorithms. Inspired by Neural Collapse, we discover that features of in-distribution (ID) samples cluster closer to the weight vectors compared to features of OOD samples. In addition, we reveal that ID features tend to expand in space to structure a simplex Equiangular Tight Framework, which nicely explains the prevalent observation that ID features reside further from the origin than OOD features. Taking both insights from Neural Collapse into consideration, we propose to leverage feature proximity to weight vectors for OOD detection and further complement this perspective by using feature norms to filter OOD samples. Extensive experiments on off-the-shelf models demonstrate the efficiency and effectiveness of our method across diverse classification tasks and model architectures, enhancing the generalization capability of OOD detection. | 翻訳日:2024-06-03 20:31:38 公開日:2024-05-30 |
# ニューラルネットワークにおける超平面最適化のためのランダム線形射影損失
Random Linear Projections Loss for Hyperplane-Based Optimization in Neural Networks ( http://arxiv.org/abs/2311.12356v3 ) ライセンス: Link先を確認 | Shyam Venkatasubramanian, Ahmed Aloui, Vahid Tarokh, | (参考訳) 損失関数の設計は、ニューラルネットワークのトレーニングとパフォーマンスを最適化するために重要である。
この研究はRandom Linear Projections (RLP)損失を導入し、これはデータ内の幾何学的関係を利用してトレーニング効率を向上させる新しいアプローチである。
ポイントワイズ誤差を最小化する従来の損失関数とは違い、RLP損失は、特徴予測ペアの固定サイズのサブセットと特徴ラベルペアを接続する超平面の集合間の距離を最小化する。
我々の実験的な評価は、ベンチマークデータセットと合成例で実施され、従来の損失関数で訓練されたニューラルネットワークは、従来の損失関数で訓練されたニューラルネットワークよりも優れ、データサンプルが少なくて性能が向上し、付加的なノイズに対してより堅牢性を示すことを示した。
実験結果を支持する理論的分析を行った。
Advancing loss function design is pivotal for optimizing neural network training and performance. This work introduces Random Linear Projections (RLP) loss, a novel approach that enhances training efficiency by leveraging geometric relationships within the data. Distinct from traditional loss functions that target minimizing pointwise errors, RLP loss operates by minimizing the distance between sets of hyperplanes connecting fixed-size subsets of feature-prediction pairs and feature-label pairs. Our empirical evaluations, conducted across benchmark datasets and synthetic examples, demonstrate that neural networks trained with RLP loss outperform those trained with traditional loss functions, achieving improved performance with fewer data samples, and exhibiting greater robustness to additive noise. We provide theoretical analysis supporting our empirical findings. | 翻訳日:2024-06-03 20:21:48 公開日:2024-05-30 |
# 影は嘘をつくな! 生成モデルは射影幾何学を知らない...今のところ
Shadows Don't Lie and Lines Can't Bend! Generative Models don't know Projective Geometry...for now ( http://arxiv.org/abs/2311.17138v2 ) ライセンス: Link先を確認 | Ayush Sarkar, Hanlin Mai, Amitabh Mahapatra, Svetlana Lazebnik, D. A. Forsyth, Anand Bhattad, | (参考訳) 生成モデルは驚くほどリアルなイメージを作り出すことができる。
本稿では,生成した画像が実画像と異なる幾何学的特徴を持つことを示す。
生成した画像の集合を構築し、単純な信号ベースの分類器を騙して、それが本物であると信じ込ませる。
次に, 幾何特性にのみ注目する分類器によって, 予め決められた画像が確実に識別可能であることを示す。
私たちはそのような分類器を3つ使います。
3つの分類器は画像画素へのアクセスを拒否され、導出した幾何学的特徴のみを見る。
第1の分類器は画像のパースペクティブフィールド、第2の分類器は画像内で検出された線、第3の分類器は検出された物体と影の関係を調べる。
本手法は、複数の異なる発電機の画像に対して、SOTAローカル信号ベース検出器よりも確実に生成された画像を検出する。
正則写像は、分類器が幾何的問題を確実に特定できることを示唆する。
現状のジェネレータは実画像の幾何学的特性を確実に再現できないと結論付けている。
Generative models can produce impressively realistic images. This paper demonstrates that generated images have geometric features different from those of real images. We build a set of collections of generated images, prequalified to fool simple, signal-based classifiers into believing they are real. We then show that prequalified generated images can be identified reliably by classifiers that only look at geometric properties. We use three such classifiers. All three classifiers are denied access to image pixels, and look only at derived geometric features. The first classifier looks at the perspective field of the image, the second looks at lines detected in the image, and the third looks at relations between detected objects and shadows. Our procedure detects generated images more reliably than SOTA local signal based detectors, for images from a number of distinct generators. Saliency maps suggest that the classifiers can identify geometric problems reliably. We conclude that current generators cannot reliably reproduce geometric properties of real images. | 翻訳日:2024-06-03 20:21:48 公開日:2024-05-30 |
# 大規模言語モデルにおけるプライバシ問題:調査
Privacy Issues in Large Language Models: A Survey ( http://arxiv.org/abs/2312.06717v4 ) ライセンス: Link先を確認 | Seth Neel, Peter Chang, | (参考訳) これは、Large Language Models(LLMs)のプライバシー問題に焦点を当てた、AI研究の活発な領域に関する最初の調査である。
具体的には、プライバシのリスクを強調し、トレーニングや推論プロセスにプライバシを構築し、トレーニングされたモデルから効率的なデータ削除を可能にし、既存のプライバシ規則に準拠する作業に重点を置いています。
我々の焦点は、アルゴリズムを開発し、定理を証明し、実証的な評価を行う技術研究の要約である。
これらの課題に異なる角度から対処する広範な法的・政策的な取り組みがあるが、これは我々の調査の焦点ではない。
しかしながら、これらの研究は、近年の法的発展とともに、これらの技術的問題がどのように形式化されているのかを知らせるものであり、第1節で概説する。
私たちは、すべての関連する作業を含めるために、最善を尽くしましたが、この研究の速い動きの性質のために、最近の研究を見逃してしまったかもしれません。
この調査を比較的最新に保とうとしますので、もしあなたの仕事のいくつかを見逃してしまったら、ご連絡ください。
この調査で取り上げたドキュメントのリストと、https://github.com/safr-ml-lab/survey-llm.comで公開されていた関連コードとともに、リポジトリを維持しています。
This is the first survey of the active area of AI research that focuses on privacy issues in Large Language Models (LLMs). Specifically, we focus on work that red-teams models to highlight privacy risks, attempts to build privacy into the training or inference process, enables efficient data deletion from trained models to comply with existing privacy regulations, and tries to mitigate copyright issues. Our focus is on summarizing technical research that develops algorithms, proves theorems, and runs empirical evaluations. While there is an extensive body of legal and policy work addressing these challenges from a different angle, that is not the focus of our survey. Nevertheless, these works, along with recent legal developments do inform how these technical problems are formalized, and so we discuss them briefly in Section 1. While we have made our best effort to include all the relevant work, due to the fast moving nature of this research we may have missed some recent work. If we have missed some of your work please contact us, as we will attempt to keep this survey relatively up to date. We are maintaining a repository with the list of papers covered in this survey and any relevant code that was publicly available at https://github.com/safr-ml-lab/survey-llm. | 翻訳日:2024-06-03 20:21:48 公開日:2024-05-30 |
# Bexcitonics: 開量子力学への準粒子的アプローチ
Bexcitonics: Quasi-particle approach to open quantum dynamics ( http://arxiv.org/abs/2401.11049v3 ) ライセンス: Link先を確認 | Xinxian Chen, Ignacio Franco, | (参考訳) 我々は,階層的運動方程式(HEOM)に基づいて,任意の複雑性のボソニック熱浴に結合したオープン量子系の力学を捉えるための準粒子アプローチを開発した。
これは、HEOMのダイナミクスを一般化し、ベキシトンと呼ばれるいくつかのボソニックな架空の準粒子と相互作用する系の粒子にマッピングすることで実現される。
ベキシトンは、浴槽相関関数を分解して個々の特徴へと分解する。
具体的には、ベクシトンの生成と消滅はHEOMの補助密度行列を結合させる。
このアプローチは、マルコフ的でない環境においても、全ての順序に対するシステムバス結合を含む正確な量子マスター方程式を構築するための体系的な戦略を提供する。
具体的には、ベクシトンに異なる測度と表現を導入することで、HEOMの異なる変種を直接生成することができ、これらの変種が共通の準粒子図を共有することを示した。
ベキシトニックな性質は非物理的であるが、相関系の基底力学とその数値収束の粗い粒度のビューを提供する。
例えば、お風呂がアンダーダムド発振器でできているときのHEOMの不安定性を分析し、それが非常に励起されたベキシトンの生成につながることを示す。
ベキシトニック・ピクチャーはHEOMを伝播するより効率的なアプローチを開発するためにも用いられる。
例えば、多重構成時間依存のHartree を用いたベキシトンのモード結合を導入し、HEOM のダイナミクスを効率的に伝播する。
We develop a quasiparticle approach to capture the dynamics of open quantum systems coupled to bosonic thermal baths of arbitrary complexity based on the Hierarchical Equations of Motion (HEOM). This is done by generalizing the HEOM dynamics and mapping it into that of the system in interaction with a few bosonic fictitious quasiparticles that we call bexcitons. Bexcitons arise from a decomposition of the bath correlation function into discrete features. Specifically, bexciton creation and annihilation couple the auxiliary density matrices in the HEOM. The approach provides a systematic strategy to construct exact quantum master equations that include the system-bath coupling to all orders even for non-Markovian environments. Specifically, by introducing different metrics and representations for the bexcitons it is possible to straightforwardly generate different variants of the HEOM, demonstrating that all these variants share a common underlying quasiparticle picture. Bexcitonic properties, while unphysical, offer a coarse-grained view of the correlated system-bath dynamics and its numerical convergence. For instance, we use it to analyze the instability of the HEOM when the bath is composed of underdamped oscillators and show that it leads to the creation of highly excited bexcitons. The bexcitonic picture can also be used to develop more efficient approaches to propagate the HEOM. As an example, we use the particle-like nature of the bexcitons to introduce mode-combination of bexcitons that uses the multi-configuration time-dependent Hartree to efficiently propagate the HEOM dynamics. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# 大規模言語モデルを用いた材料科学文献からの実験的データのマイニング:評価研究
Mining experimental data from Materials Science literature with Large Language Models: an evaluation study ( http://arxiv.org/abs/2401.11052v3 ) ライセンス: Link先を確認 | Luca Foppiano, Guillaume Lambard, Toshiyuki Amagasa, Masashi Ishii, | (参考訳) 本研究は, GPT-3.5-Turbo, GPT-4, GPT-4-Turboなどの大規模言語モデル(LLMs)を用いて, 材料科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。
この目的のために、我々は主に情報抽出の2つの重要なタスクに焦点を当てている。
一 研究資料及び物性の命名された実体認識(NER)
(ii)これらのエンティティ間の関係抽出(RE)。
材料インフォマティクス (MI) におけるデータセットの欠如により, 超伝導体研究に基づくSuperMatと, 汎用評価コーパスであるMeasEvalを用いて評価を行った。
これらのタスクの実行におけるLCMのパフォーマンスは、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
本稿では, 物質科学情報アセスメントに固有の複雑さに対処するために, 化学式を標準化することを強調する, 複雑な物質表現の比較分析のための新しい方法論を提案する。
NERでは、LLMはゼロショットプロンプトでベースラインを上回り、少数ショットプロンプトで限定的な改善しか示さない。
しかし、GPT-3.5-TurboはREの適切な戦略で微調整され、ベースラインを含む全てのモデルを上回った。
微調整なしでは、GPT-4とGPT-4-Turboは、わずか2つの例が与えられた後に顕著な推論と関係抽出能力を示し、ベースラインを超えた。
全体として、LLMは概念を接続する上で関連する推論スキルを示すが、物質のような複雑なドメイン固有のエンティティを抽出する必要のあるタスクには、専門化されたモデルの方がよい選択である。
これらの知見は、将来の研究において、他の物質科学サブドメインに適用可能な最初のガイダンスを提供する。
This study is dedicated to assessing the capabilities of large language models (LLMs) such as GPT-3.5-Turbo, GPT-4, and GPT-4-Turbo in extracting structured information from scientific documents in materials science. To this end, we primarily focus on two critical tasks of information extraction: (i) a named entity recognition (NER) of studied materials and physical properties and (ii) a relation extraction (RE) between these entities. Due to the evident lack of datasets within Materials Informatics (MI), we evaluated using SuperMat, based on superconductor research, and MeasEval, a generic measurement evaluation corpus. The performance of LLMs in executing these tasks is benchmarked against traditional models based on the BERT architecture and rule-based approaches (baseline). We introduce a novel methodology for the comparative analysis of intricate material expressions, emphasising the standardisation of chemical formulas to tackle the complexities inherent in materials science information assessment. For NER, LLMs fail to outperform the baseline with zero-shot prompting and exhibit only limited improvement with few-shot prompting. However, a GPT-3.5-Turbo fine-tuned with the appropriate strategy for RE outperforms all models, including the baseline. Without any fine-tuning, GPT-4 and GPT-4-Turbo display remarkable reasoning and relationship extraction capabilities after being provided with merely a couple of examples, surpassing the baseline. Overall, the results suggest that although LLMs demonstrate relevant reasoning skills in connecting concepts, specialised models are currently a better choice for tasks requiring extracting complex domain-specific entities like materials. These insights provide initial guidance applicable to other materials science sub-domains in future work. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# 機器変数による条件平均部分因果効果の同定と推定
Identification and Estimation of Conditional Average Partial Causal Effects via Instrumental Variable ( http://arxiv.org/abs/2401.11130v2 ) ライセンス: Link先を確認 | Yuta Kawakami, Manabu Kuroki, Jin Tian, | (参考訳) 異種因果効果を推定することへの関心は近年かなり高まっている。
本稿では,条件付き平均部分因果効果(CAPCE)について検討し,連続処理による因果効果の不均一性を明らかにする。
楽器変数設定においてCAPCEを識別するための条件を提供する。
特にCAPCEは、連続処理の異種因果効果を推定するために一般的に用いられる尺度で必要とされるよりも弱い仮定の下で同定可能である。
CAPCE推定器の3つのファミリー(Sieve, parametric, and reproduction kernel Hilbert space (RKHS) )を開発し,その統計特性を解析した。
本稿では,合成および実世界のデータに基づくCAPCE推定器について述べる。
There has been considerable recent interest in estimating heterogeneous causal effects. In this paper, we study conditional average partial causal effects (CAPCE) to reveal the heterogeneity of causal effects with continuous treatment. We provide conditions for identifying CAPCE in an instrumental variable setting. Notably, CAPCE is identifiable under a weaker assumption than required by a commonly used measure for estimating heterogeneous causal effects of continuous treatment. We develop three families of CAPCE estimators: sieve, parametric, and reproducing kernel Hilbert space (RKHS)-based, and analyze their statistical properties. We illustrate the proposed CAPCE estimators on synthetic and real-world data. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# 社会的・道徳的なRLエージェントを目指して: LLMによるリワードデザイン
Towards Socially and Morally Aware RL agent: Reward Design With LLM ( http://arxiv.org/abs/2401.12459v2 ) ライセンス: Link先を確認 | Zhaoyue Wang, | (参考訳) 強化学習エージェント(RL)を設計およびデプロイする場合、報酬関数は目的を達成するためにエージェントを動機付けます。
目的の誤った、あるいは不完全な仕様は、人間の価値観と一致しない行動をもたらし、不明瞭で文脈に依存した社会的・道徳的な規範に固執せず、ネガティブな副作用や安全でない探索のような望ましくない結果を引き起こす。
これまでの研究では、ネガティブな副作用を避けるために報酬関数を手作業で定義していた。
本研究は,大規模言語モデル(LLM)のモラルと社会的規範の理解を,安全なRL法探索に活用する能力について研究する。
この研究は、人間のフィードバックに対する言語モデルの結果を評価し、直接報酬信号として言語モデルの能力を示す。
When we design and deploy an Reinforcement Learning (RL) agent, reward functions motivates agents to achieve an objective. An incorrect or incomplete specification of the objective can result in behavior that does not align with human values - failing to adhere with social and moral norms that are ambiguous and context dependent, and cause undesired outcomes such as negative side effects and exploration that is unsafe. Previous work have manually defined reward functions to avoid negative side effects, use human oversight for safe exploration, or use foundation models as planning tools. This work studies the ability of leveraging Large Language Models (LLM)' understanding of morality and social norms on safe exploration augmented RL methods. This work evaluates language model's result against human feedbacks and demonstrates language model's capability as direct reward signals. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# 精密ベクトル埋め込みを可能にするエキスパートのコントラスト学習と混合
Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings ( http://arxiv.org/abs/2401.15713v2 ) ライセンス: Link先を確認 | Logan Hallee, Rohan Kapur, Arjun Patel, Jason P. Gleghorn, Bohdan Khomtchouk, | (参考訳) トランスフォーマーニューラルネットワークの進歩は、文類似性モデルの能力を大幅に向上させたが、高い差別的なタスクに苦労し、科学文献のような重要な文書の準最適表現を生み出した。
検索の強化と検索への依存度が高まるにつれ、多種多様な文書を簡潔かつ記述的なベクトルとして表現することが重要である。
本稿では, バイオメディカル領域に着目した類似度指標として共引用を用いたニッチデータセットを組み込むことにより, 科学文献のベクトル埋め込みを改善する。
本研究では,複数層のパーセプトロン区間を拡大し,複数の異なる専門家にコピーする,新たなMixture of Experts(MoE)拡張パイプラインを事前訓練されたBERTモデルに適用する。
私たちのMOEの変種は、N$の専門知識を持つ科学ドメインよりも優れていますが、標準的なBERTモデルは1つのドメインでしか排他的ではありません。
注目すべきなのは、単一のトランスフォーマーブロックをMoEに拡張するだけで、すべてのレイヤで完全なMoE拡張で見られるメリットの85%をキャプチャできることだ。
これは、多種多様な入力を数値的に表現する汎用的で効率的なワンサイズ・フィッツ・オール変圧器ネットワークを約束する。
提案手法は, 科学文献の表現における重要な進歩と, ベクトルデータベース検索とコンパイルの強化を約束するものである。
The advancement of transformer neural networks has significantly elevated the capabilities of sentence similarity models, but they struggle with highly discriminative tasks and produce sub-optimal representations of important documents like scientific literature. With the increased reliance on retrieval augmentation and search, representing diverse documents as concise and descriptive vectors is crucial. This paper improves upon the vectors embeddings of scientific literature by assembling niche datasets using co-citations as a similarity metric, focusing on biomedical domains. We apply a novel Mixture of Experts (MoE) extension pipeline to pretrained BERT models, where every multi-layer perceptron section is enlarged and copied into multiple distinct experts. Our MoE variants perform well over $N$ scientific domains with $N$ dedicated experts, whereas standard BERT models excel in only one domain. Notably, extending just a single transformer block to MoE captures 85% of the benefit seen from full MoE extension at every layer. This holds promise for versatile and efficient One-Size-Fits-All transformer networks for numerically representing diverse inputs. Our methodology marks significant advancements in representing scientific text and holds promise for enhancing vector database search and compilation. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# ビデオゲームによるシミュレータフリービジュアルドメインランダム化
Simulator-Free Visual Domain Randomization via Video Games ( http://arxiv.org/abs/2402.01335v2 ) ライセンス: Link先を確認 | Chintan Trivedi, Nemanja Rašajski, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis, | (参考訳) ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達性を改善する効果的なコンピュータビジョン技術である。
しかし、既存のアプローチは、構築が困難な複雑で特殊なシミュレーションエンジンの微調整に大きく依存し、その実現可能性とスケーラビリティに影響を及ぼす。
本稿では,シミュレーションエンジンへのアクセスを必要とせず,ドメインランダム化のために既存の商用ビデオゲームの多元性を独自に活用するビデオ理解フレームワークであるBehAVEを紹介する。
BehAVE (1)の下では、ビデオゲームの本質的なリッチな視覚的多様性がランダム化の源として機能し、(2)プレイヤーの行動は、動作のテキスト記述を通して意味的に表現される -- が、類似したコンテンツを持つビデオの*アライメント*を導く。
我々は、様々なビデオおよびテキスト基盤モデルにわたるFPSジャンルの25のゲームでBehAVEをテストし、ドメインランダム化に対する頑健さを報告する。
BehAVEはプレイヤーの行動パターンの調整に成功し、1つのFPSゲームでトレーニングされた時に、それらを複数の見えないFPSゲームにゼロショットで転送することができる。
より困難な設定では、BehAVEは、異なるジャンル(Minecraft)のゲームでトレーニングされた場合でも、ファンデーションモデルのゼロショット転送性を改善して、FPSゲーム(最大22%)を目にすることができないようにしている。
コードとデータセットはhttps://github.com/nrasajski/BehAVEで見ることができる。
Domain randomization is an effective computer vision technique for improving transferability of vision models across visually distinct domains exhibiting similar content. Existing approaches, however, rely extensively on tweaking complex and specialized simulation engines that are difficult to construct, subsequently affecting their feasibility and scalability. This paper introduces BehAVE, a video understanding framework that uniquely leverages the plethora of existing commercial video games for domain randomization, without requiring access to their simulation engines. Under BehAVE (1) the inherent rich visual diversity of video games acts as the source of randomization and (2) player behavior -- represented semantically via textual descriptions of actions -- guides the *alignment* of videos with similar content. We test BehAVE on 25 games of the first-person shooter (FPS) genre across various video and text foundation models and we report its robustness for domain randomization. BehAVE successfully aligns player behavioral patterns and is able to zero-shot transfer them to multiple unseen FPS games when trained on just one FPS game. In a more challenging setting, BehAVE manages to improve the zero-shot transferability of foundation models to unseen FPS games (up to 22%) even when trained on a game of a different genre (Minecraft). Code and dataset can be found at https://github.com/nrasajski/BehAVE. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# グラフファウンデーションのモデルはすでにここにある
Position: Graph Foundation Models are Already Here ( http://arxiv.org/abs/2402.02216v3 ) ライセンス: Link先を確認 | Haitao Mao, Zhikai Chen, Wenzhuo Tang, Jianan Zhao, Yao Ma, Tong Zhao, Neil Shah, Mikhail Galkin, Jiliang Tang, | (参考訳) グラフファウンデーションモデル(GFM)はグラフ領域において重要な研究トピックとして現れており、様々なタスクやドメインにわたる適用性を高めるために、広範囲で多様なデータに基づいてトレーニングされたグラフモデルの開発を目指している。
GFMの開発は従来のグラフニューラルネットワーク(GNN)に対して独自の課題を提示している。
GFMを構築する上での最大の課題は、膨大な多様なグラフデータを効果的に活用してポジティブな転送を実現することである。
CVドメインとNLPドメインの既存の基礎モデルからインスピレーションを得て,グラフ上の不変性を符号化する基本移動可能な単位である `graph vocabulary'' を提唱し,GFM開発の新たな視点を提案する。
我々は,ネットワーク分析,表現性,安定性などの重要な側面から,グラフ語彙の構成を定めている。
このような語彙的観点は、将来のGFM設計を、ニューラルネットワークのスケーリング法則に従って前進させる可能性がある。
GFM設計に関するすべての関連リソースはここにある。
Graph Foundation Models (GFMs) are emerging as a significant research topic in the graph domain, aiming to develop graph models trained on extensive and diverse data to enhance their applicability across various tasks and domains. Developing GFMs presents unique challenges over traditional Graph Neural Networks (GNNs), which are typically trained from scratch for specific tasks on particular datasets. The primary challenge in constructing GFMs lies in effectively leveraging vast and diverse graph data to achieve positive transfer. Drawing inspiration from existing foundation models in the CV and NLP domains, we propose a novel perspective for the GFM development by advocating for a ``graph vocabulary'', in which the basic transferable units underlying graphs encode the invariance on graphs. We ground the graph vocabulary construction from essential aspects including network analysis, expressiveness, and stability. Such a vocabulary perspective can potentially advance the future GFM design in line with the neural scaling laws. All relevant resources with GFM design can be found here. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# GUARD: 大規模言語モデルのガイドライン適合性をテストするための自然言語ジェイルブレーカー生成のためのロールプレイング
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models ( http://arxiv.org/abs/2402.03299v4 ) ライセンス: Link先を確認 | Haibo Jin, Ruoxi Chen, Andy Zhou, Yang Zhang, Haohan Wang, | (参考訳) 大規模言語モデル(LLM)の安全フィルタをバイパスする"jailbreaks"の発見と有害な応答により、コミュニティは安全対策を実施するようになった。
主要な安全対策の1つは、リリース前にLLMをジェイルブレイクで積極的にテストすることである。
そのため、このようなテストはジェイルブレイクを大量かつ効率的に生成できる方法を必要とする。
本稿では,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略に従う。
我々は,新しいジェイルブレイクに協力するために,4つの異なる役割をユーザLLMに割り当てるロールプレイングシステムを提案する。
さらに、既存のジェイルブレイクを収集し、クラスタリング周波数と文による意味パターンを用いて、異なる独立した特徴に分割する。
これらの特徴を知識グラフに整理し、よりアクセスしやすく、検索しやすくします。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成するが、これはLLMを非倫理的またはガイドライン違反の応答を生成するのに有効である。
また、当社のシステムでは、政府発行のガイドラインに従って自動でジェイルブレイクを発生させ、LCMがそれに従っているかどうかを検査する仕組みも開発しています。
本稿では,GUARD (Guideline Upholding through Adaptive Role-play Diagnostics) と呼ぶ。
我々は,GUARDが3つの最先端オープンソースLLM(Vicuna-13B,LongChat-7B,Llama-2-7B)および広く利用されている商用LLM(ChatGPT)に対する有効性を実証的に検証した。
さらに、我々の研究は視覚言語モデル(MiniGPT-v2とGemini Vision Pro)の領域にまで拡張され、GUARDの汎用性を示し、多様なモダリティにわたって、より安全で信頼性の高いLLMベースのアプリケーションを開発する上で、貴重な洞察をもたらしています。
The discovery of "jailbreaks" to bypass safety filters of Large Language Models (LLMs) and harmful responses have encouraged the community to implement safety measures. One major safety measure is to proactively test the LLMs with jailbreaks prior to the release. Therefore, such testing will require a method that can generate jailbreaks massively and efficiently. In this paper, we follow a novel yet intuitive strategy to generate jailbreaks in the style of the human generation. We propose a role-playing system that assigns four different roles to the user LLMs to collaborate on new jailbreaks. Furthermore, we collect existing jailbreaks and split them into different independent characteristics using clustering frequency and semantic patterns sentence by sentence. We organize these characteristics into a knowledge graph, making them more accessible and easier to retrieve. Our system of different roles will leverage this knowledge graph to generate new jailbreaks, which have proved effective in inducing LLMs to generate unethical or guideline-violating responses. In addition, we also pioneer a setting in our system that will automatically follow the government-issued guidelines to generate jailbreaks to test whether LLMs follow the guidelines accordingly. We refer to our system as GUARD (Guideline Upholding through Adaptive Role-play Diagnostics). We have empirically validated the effectiveness of GUARD on three cutting-edge open-sourced LLMs (Vicuna-13B, LongChat-7B, and Llama-2-7B), as well as a widely-utilized commercial LLM (ChatGPT). Moreover, our work extends to the realm of vision language models (MiniGPT-v2 and Gemini Vision Pro), showcasing GUARD's versatility and contributing valuable insights for the development of safer, more reliable LLM-based applications across diverse modalities. | 翻訳日:2024-06-03 20:12:03 公開日:2024-05-30 |
# ディリクレフローマッチングとDNA配列設計への応用
Dirichlet Flow Matching with Applications to DNA Sequence Design ( http://arxiv.org/abs/2402.05841v2 ) ライセンス: Link先を確認 | Hannes Stark, Bowen Jing, Chenyu Wang, Gabriele Corso, Bonnie Berger, Regina Barzilay, Tommi Jaakkola, | (参考訳) 離散拡散またはフローモデルは自己回帰モデルよりも高速で制御可能なシーケンス生成を可能にする。
トレーニング対象における不連続性やさらなる病態に悩まされているため, 単純点上での「線形フローマッチング」は, この目標に向けて不十分であることを示す。
これを解決するために,確率経路としてのディリクレ分布の混合に基づいて,単純度に基づくディリクレフローマッチングを開発する。
本研究では,混合器の点数とフローのベクトル場との接続を導出し,分類器と分類器を含まない指導を可能にする。
さらに, 蒸留したディリクレフローマッチングにより, 最小性能で1ステップのシーケンス生成が可能となり, オートレグレッシブモデルと比較してO(L)$の高速化が可能となる。
複雑なDNAシークエンス生成タスクにおいて、分布測定値のすべてのベースラインと比較して優れた性能を示し、生成した配列に対して望ましい設計目標を達成する。
最後に, 設計目標を満たすDNAの生成に有効であることを示す。
コードはhttps://github.com/HannesStark/dirichlet-flow-matchingで入手できる。
Discrete diffusion or flow models could enable faster and more controllable sequence generation than autoregressive models. We show that na\"ive linear flow matching on the simplex is insufficient toward this goal since it suffers from discontinuities in the training target and further pathologies. To overcome this, we develop Dirichlet flow matching on the simplex based on mixtures of Dirichlet distributions as probability paths. In this framework, we derive a connection between the mixtures' scores and the flow's vector field that allows for classifier and classifier-free guidance. Further, we provide distilled Dirichlet flow matching, which enables one-step sequence generation with minimal performance hits, resulting in $O(L)$ speedups compared to autoregressive models. On complex DNA sequence generation tasks, we demonstrate superior performance compared to all baselines in distributional metrics and in achieving desired design targets for generated sequences. Finally, we show that our classifier-free guidance approach improves unconditional generation and is effective for generating DNA that satisfies design targets. Code is available at https://github.com/HannesStark/dirichlet-flow-matching. | 翻訳日:2024-06-03 20:02:19 公開日:2024-05-30 |
# ブロッホ・レッドフィールド方程式のモデリング:一般開放量子系に対する正確なリンドブラッド方程式の復元
Taming the Bloch-Redfield equation: Recovering an accurate Lindblad equation for general open quantum systems ( http://arxiv.org/abs/2402.06354v2 ) ライセンス: Link先を確認 | Diego Fernández de la Pradilla, Esteban Moreno, Johannes Feist, | (参考訳) マスター方程式はオープン量子系の研究において重要な役割を果たす。
特に、ブロッホ・レッドフィールド方程式は、具体的な物理的環境との関係から際立っている。
しかし、さらなる近似がなければ、密度行列が完全に正であることを保証するリンドブラッド・マスター方程式が導かれず、この方程式の使用に関していくつかの懸念が持ち上がった。
この研究は、Bloch-Redfieldフレームワークを数学的に堅牢なリンドブラッド方程式に変換する以前の試みに基づいており、実証性を保証するために一般的に用いられる世俗近似の中で失われる効果を完全に保存している。
環境誘起エネルギーシフトは非エルミート的であり、いくつかの崩壊速度は負であり、リンドブラッドの定理の仮定に反する。
本稿では,両問題に対する簡単な解法を提案し,評価する。
提案手法は,Bloch-Redfield方程式の非物理的ダイナミクスを緩和しつつ,具体的な物理的環境から導出したリンドブラッド方程式を得るための効果的で一般的な手順を提供する。
Master equations play a pivotal role in investigating open quantum systems. In particular, the Bloch-Redfield equation stands out due to its relation to a concrete physical environment. However, without further approximations it does not lead to a Lindblad master equation that guarantees that the density matrix stays completely positive, which has raised some concerns regarding its use. This study builds on previous efforts to transform the Bloch-Redfield framework into a mathematically robust Lindblad equation, while fully preserving the effects that are lost within the secular approximation that is commonly used to guarantee positivity. These previous approaches introduce two potential deficiencies: the environment-induced energy shift can be non-Hermitian and some decay rates can be negative, violating the assumptions of Lindblad's theorem. Here, we propose and evaluate straightforward solutions to both problems. Our approach offers an effective and general procedure for obtaining a Lindblad equation, derived from a concrete physical environment, while mitigating the unphysical dynamics present in the Bloch-Redfield equation. | 翻訳日:2024-06-03 20:02:19 公開日:2024-05-30 |
# ベストアーム識別レンズによる効率的なプロンプト最適化
Efficient Prompt Optimization Through the Lens of Best Arm Identification ( http://arxiv.org/abs/2402.09723v3 ) ライセンス: Link先を確認 | Chengshuai Shi, Kun Yang, Zihan Chen, Jundong Li, Jing Yang, Cong Shen, | (参考訳) 大きな言語モデル(LLM)の驚くべき命令追従能力は、適切なプロンプト(即時最適化)を自動的に見つけることへの関心が高まっている。
既存の作業の多くは、事前に生成された候補プロンプトのプールから選択するスキームに従っている。
しかし、これらの設計は主に世代戦略に重点を置いており、選択方法に限定的な注意が払われている。
特に、選択時に発生するコスト(例えば、LLMにアクセスし、応答を評価する)を明示的に考慮することは滅多にない。
この制限を克服するために、この作業は、明示的な予算制約の下でプロンプト選択を効率的に実行する、原則化されたフレームワークであるTRIPLEを提供する。
TRIPLEは,マルチアーム・バンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された,新たな接続上に構築されている。
様々な LLM を用いた複数タスクに対する広範囲な実験は,予算制約を満たすとともに,TriPLE のベースライン上での大幅な性能向上を実証している。
拡張として、トリプルの変種は、数発のプロンプトの例を効率よく選択し、優れた経験的性能を実現するために提案される。
The remarkable instruction-following capability of large language models (LLMs) has sparked a growing interest in automatically finding good prompts, i.e., prompt optimization. Most existing works follow the scheme of selecting from a pre-generated pool of candidate prompts. However, these designs mainly focus on the generation strategy, while limited attention has been paid to the selection method. Especially, the cost incurred during the selection (e.g., accessing LLM and evaluating the responses) is rarely explicitly considered. To overcome this limitation, this work provides a principled framework, TRIPLE, to efficiently perform prompt selection under an explicit budget constraint. TRIPLE is built on a novel connection established between prompt optimization and fixed-budget best arm identification (BAI-FB) in multi-armed bandits (MAB); thus, it is capable of leveraging the rich toolbox from BAI-FB systematically and also incorporating unique characteristics of prompt optimization. Extensive experiments on multiple well-adopted tasks using various LLMs demonstrate the remarkable performance improvement of TRIPLE over baselines while satisfying the limited budget constraints. As an extension, variants of TRIPLE are proposed to efficiently select examples for few-shot prompts, also achieving superior empirical performance. | 翻訳日:2024-06-03 20:02:19 公開日:2024-05-30 |
# 離散時間拡散モデルの非漸近収束:新しいアプローチと改善率
Non-asymptotic Convergence of Discrete-time Diffusion Models: New Approach and Improved Rate ( http://arxiv.org/abs/2402.13901v2 ) ライセンス: Link先を確認 | Yuchen Liang, Peizhong Ju, Yingbin Liang, Ness Shroff, | (参考訳) 近年,ノイズをデータに変換する強力な生成手法として,デノナイジング拡散モデルが登場している。
離散化確率微分方程式(D-SDE)に基づく拡散過程の理論的保証を提供する多くの研究があるが、実際の応用における多くの生成標本は離散時間拡散過程(DT)を直接利用している。
しかし、これらのDT過程を解析する研究はほとんどなく、例えば、DT拡散過程の収束は、有界な支持を持つ分布に対してのみ得られている。
本稿では,DT拡散過程下での分布のかなり大きなクラスに対する収束保証を確立するとともに,有界支持を伴う分布の収束率をさらに向上する。
特に、まず、有限第二モーメントを持つ滑らかかつ一般(おそらく非滑らかな)分布の収束率を確立する。
次に、これらの結果を、明示的なパラメータ依存を持つ多くの興味深い分布のクラスに特化させ、例えば、リプシッツのスコアを持つ分布、ガウス混合分布、およびアーリーストッピングを持つ任意の分布を含む。
さらに,新しい加速サンプリング器を提案し,対応する正則サンプリング器の収束率を,全てのシステムパラメータに対して桁違いに向上させることを示す。
本研究は、収束誤差の傾き係数表現を構築し、Tweedieの公式を利用してTaylor拡張パワー項を扱う新しい解析手法を特徴とする。
The denoising diffusion model has recently emerged as a powerful generative technique that converts noise into data. While there are many studies providing theoretical guarantees for diffusion processes based on discretized stochastic differential equation (D-SDE), many generative samplers in real applications directly employ a discrete-time (DT) diffusion process. However, there are very few studies analyzing these DT processes, e.g., convergence for DT diffusion processes has been obtained only for distributions with bounded support. In this paper, we establish the convergence guarantee for substantially larger classes of distributions under DT diffusion processes and further improve the convergence rate for distributions with bounded support. In particular, we first establish the convergence rates for both smooth and general (possibly non-smooth) distributions having a finite second moment. We then specialize our results to a number of interesting classes of distributions with explicit parameter dependencies, including distributions with Lipschitz scores, Gaussian mixture distributions, and any distributions with early-stopping. We further propose a novel accelerated sampler and show that it improves the convergence rates of the corresponding regular sampler by orders of magnitude with respect to all system parameters. Our study features a novel analytical technique that constructs a tilting factor representation of the convergence error and exploits Tweedie's formula for handling Taylor expansion power terms. | 翻訳日:2024-06-03 19:52:35 公開日:2024-05-30 |
# 変分量子固有解法における相転移のロバストな実験的シグナチャ
Robust Experimental Signatures of Phase Transitions in the Variational Quantum Eigensolver ( http://arxiv.org/abs/2402.18953v2 ) ライセンス: Link先を確認 | Kevin Lively, Tim Bode, Jochen Szangolies, Jian-Xin Zhu, Benedikt Fauseweh, | (参考訳) 変分量子固有解法(VQE)は、短期的な量子優位性を実現する量子古典的アルゴリズムの候補として広く考えられている。
しかし、ハードウェアノイズの現在のレベルは、信頼性の高い計算を実現するためにエラー軽減手法を広範囲に適用する必要がある。
本研究では、複数のIBMデバイスを用いて、異なる基底状態構成を特徴とする複数の「位相様」領域を持つ有限サイズのスピンモデルを探索する。
事前最適化されたVQE解を用いて、定性的に正確だが信頼できない結果を得るためにゼロノイズ外挿を必要とするエネルギーの計算とは対照的に、エネルギー微分、二点スピン相関関数の計算、忠実度感受性は、最小あるいはゼロの誤差緩和アプローチであっても、複数の領域にわたって正確な振る舞いをもたらすことを示した。
まとめると、これらの観測可能な集合は、電子構造計算における量子相転移、回避された交差、非断熱円錐交叉を識別するために、VQE溶液の準交叉を単純かつノイズロバストな方法で同定することができる。
The Variational Quantum Eigensolver (VQE) is widely considered to be a promising candidate for a quantum-classical algorithm which could achieve near-term quantum advantage. However, current levels of hardware noise can require extensive application of error-mitigation techniques to achieve reliable computations. In this work, we use several IBM devices to explore a finite-size spin model with multiple `phase-like' regions characterized by distinct ground-state configurations. Using pre-optimized VQE solutions, we demonstrate that in contrast to calculating the energy, where zero-noise extrapolation is required in order to obtain qualitatively accurate yet still unreliable results, calculations of the energy derivative, two-site spin correlation functions, and the fidelity susceptibility yield accurate behavior across multiple regions, even with minimal or no application of error-mitigation approaches. Taken together, these sets of observables could be used to identify level crossings in VQE solutions in a simple and noise-robust manner, with potential near-term application to identifying quantum phase transitions, avoided crossings and non-adiabatic conical intersections in electronic structure calculations. | 翻訳日:2024-06-03 19:42:50 公開日:2024-05-30 |
# 品質多様性アクター批判:価値・継承的特徴批判によるハイパフォーマンス・ディヴァージョンの学習
Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics ( http://arxiv.org/abs/2403.09930v2 ) ライセンス: Link先を確認 | Luca Grillotti, Maxence Faldor, Borja G. León, Antoine Cully, | (参考訳) 知性の重要な側面は、予期せぬ状況に適応するための幅広い行動のスペクトルを示す能力である。
過去10年間で、深層強化学習の進歩は、複雑な継続的制御タスクを解決するための画期的な成果をもたらした。
しかし、ほとんどのアプローチは特定の問題に特化した1つの解しか返さない。
本稿では,QDAC(Quality-Diversity Actor-Critic)について紹介する。QDAC(Quality-Diversity Actor-Critic)とは,価値関数批判と後継機能批判を利用して,ハイパフォーマンスで多様な振る舞いを学習する,非政治アクタ批判的深層強化学習アルゴリズムである。
この枠組みでは,(1)リターンを最大化し,(2)多様なスキルを実行するために,アクターが制約付き最適化を用いて両批評家をシームレスに統一する目的を最適化する。
他の品質多様性手法と比較すると、QDACは6つの困難な連続制御ロコモーションタスクにおいて、より高いパフォーマンスとより多様な振る舞いを達成する。
また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。
最後に、定性的分析は、アダプティブ・インテリジェント・ロボティクス.github.io/QDACという、様々な顕著な行動を示す。
A key aspect of intelligence is the ability to demonstrate a broad spectrum of behaviors for adapting to unexpected situations. Over the past decade, advancements in deep reinforcement learning have led to groundbreaking achievements to solve complex continuous control tasks. However, most approaches return only one solution specialized for a specific problem. We introduce Quality-Diversity Actor-Critic (QDAC), an off-policy actor-critic deep reinforcement learning algorithm that leverages a value function critic and a successor features critic to learn high-performing and diverse behaviors. In this framework, the actor optimizes an objective that seamlessly unifies both critics using constrained optimization to (1) maximize return, while (2) executing diverse skills. Compared with other Quality-Diversity methods, QDAC achieves significantly higher performance and more diverse behaviors on six challenging continuous control locomotion tasks. We also demonstrate that we can harness the learned skills to adapt better than other baselines to five perturbed environments. Finally, qualitative analyses showcase a range of remarkable behaviors: adaptive-intelligent-robotics.github.io/QDAC. | 翻訳日:2024-06-03 19:42:50 公開日:2024-05-30 |
# 量子世界の古典的サブシステムの探索
A Search for Classical Subsystems in Quantum Worlds ( http://arxiv.org/abs/2403.10895v2 ) ライセンス: Link先を確認 | Arsalan Adil, Manuel S. Rudolph, Andrew Arrasmith, Zoë Holmes, Andreas Albrecht, Andrew Sornborger, | (参考訳) デコヒーレンスとアインシュタイン選択は、基礎となる量子論から創発的古典世界のいくつかの特徴を説明するのに効果的である。
しかしながら、この理論は、大域ヒルベルト空間の特定の分解を構成系と環境サブシステム、および特別に構築されたハミルトニアンに仮定する。
この研究において、固定ハミルトニアンが与えられたとき、ある状態(「ポインター状態」)が絡み合いに対して堅牢であるという意味での準古典的なサブシステムの記述を許容する大域ヒルベルト空間のいくつかの分解(あるいはテンソル積構造)を発見する体系的なアプローチをとる。
すべてのハミルトニアンがエネルギー固有ベクトルが分離可能な分解においてポインタ基底を持つことを示す。
さらに、ポインタ状態を受け入れた多数の因子化を発見し、それらをランダムかつ構造化されたハミルトニアンの両方に対して準古典的な「現実」を探索するアルゴリズムを実装した。
また、ハミルトニアンがそのような分解を行うことができるいくつかの解析形式を導出し、それぞれが一意的な特徴を持つ。
このアプローチにはいくつかの意味がある: 準古典的なサブシステムへの分割を導出し、部分システムのデコヒーリングが局所性という古典的な概念と必ずしも一致しないことを示す。
量子基底の観点から、これらの結果は相対状態の解釈に興味深い影響をもたらす。
量子工学の観点からは、これらの結果はデコヒーレンス自由部分空間や他のパッシブエラー回避プロトコルの特徴付けに有用である。
Decoherence and einselection have been effective in explaining several features of an emergent classical world from an underlying quantum theory. However, the theory assumes a particular factorization of the global Hilbert space into constituent system and environment subsystems, as well as specially constructed Hamiltonians. In this work, we take a systematic approach to discover, given a fixed Hamiltonian, (potentially) several factorizations (or tensor product structures) of a global Hilbert space that admit a quasi-classical description of subsystems in the sense that certain states (the "pointer states") are robust to entanglement. We show that every Hamiltonian admits a pointer basis in the factorization where the energy eigenvectors are separable. Furthermore, we implement an algorithm that allows us to discover a multitude of factorizations that admit pointer states and use it to explore these quasi-classical "realms" for both random and structured Hamiltonians. We also derive several analytical forms that the Hamiltonian may take in such factorizations, each with its unique set of features. Our approach has several implications: it enables us to derive the division into quasi-classical subsystems, demonstrates that decohering subsystems do not necessarily align with our classical notion of locality, and challenges ideas expressed by some authors that the propensity of a system to exhibit classical dynamics relies on minimizing the interaction between subsystems. From a quantum foundations perspective, these results lead to interesting ramifications for relative-state interpretations. From a quantum engineering perspective, these results may be useful in characterizing decoherence free subspaces and other passive error avoidance protocols. | 翻訳日:2024-06-03 19:42:50 公開日:2024-05-30 |
# AIによるNMR分光の予測:炭水化物の2次元NMR
AI-enabled prediction of NMR spectroscopy: Deducing 2-D NMR of carbohydrate ( http://arxiv.org/abs/2403.11353v3 ) ライセンス: Link先を確認 | Yunrui Li, Hao Xu, Pengyu Hong, | (参考訳) 核磁気共鳴分光法(NMR)のダイナミックな分野において、人工知能(AI)は分子研究の転換期へと発展してきた。
高度な機械学習と予測アルゴリズムを駆使したAI駆動NMR予測は、NMRスペクトルの解釈を根本的に変えた。
このイノベーションは、幅広い分子構造のスペクトルパターンを迅速かつ正確に予測することを可能にする。
さらに、生成的モデリングの出現は画期的なアプローチを提供し、化学言語(SMILES、IUPAC Nameなど)から2次元NMRを情報的に予測することを可能にする。
本手法は、NMRイメージング実験の多面体特性を反映し、溶媒や温度などの異なる条件に基づいて、同じ分子に対して2次元NMRを生成する。
本手法は, 単糖由来の小分子, オリゴ糖, および多糖類の両方に有効である。
これらの予測における相違点のより深い探索は、機能群、繰り返し単位、モノマーの修飾といった要素の影響についての洞察を与えることができる。
2次元NMRの生成に関わる複雑な性質を考えると、我々の目標は、NMRスペクトル分析の精度、効率、理解性を高めるためにAIの可能性を完全に活用することであり、最終的にはNMR分光の分野と分子研究の広い領域の両方を前進させることである。
In the dynamic field of nuclear magnetic resonance (NMR) spectroscopy, artificial intelligence (AI) has ushered in a transformative era for molecular studies. AI-driven NMR prediction, powered by advanced machine learning and predictive algorithms, has fundamentally reshaped the interpretation of NMR spectra. This innovation empowers us to forecast spectral patterns swiftly and accurately across a broad spectrum of molecular structures. Furthermore, the advent of generative modeling offers a groundbreaking approach, making it feasible to make informed prediction of 2D NMR from chemical language (such as SMILES, IUPAC Name). Our method mirrors the multifaceted nature of NMR imaging experiments, producing 2D NMRs for the same molecule based on different conditions, such as solvents and temperatures. Our methodology is versatile, catering to both monosaccharide-derived small molecules, oligosaccharides and large polysaccharides. A deeper exploration of the discrepancies in these predictions can provide insights into the influence of elements such as functional groups, repeating units, and the modification of the monomers on the outcomes. Given the complex nature involved in the generation of 2D NMRs, our objective is to fully leverage the potential of AI to enhance the precision, efficiency, and comprehensibility of NMR spectral analysis, ultimately advancing both the field of NMR spectroscopy and the broader realm of molecular research. | 翻訳日:2024-06-03 19:33:06 公開日:2024-05-30 |
# 弱さの力:Coreset Selectionによるデータリヘアリングの高速化と強化
The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection ( http://arxiv.org/abs/2403.12166v3 ) ライセンス: Link先を確認 | Mohammad Jafari, Yimeng Zhang, Yihua Zhang, Sijia Liu, | (参考訳) 機械学習のタスクが進化し続けるにつれて、傾向はより大きなデータセットを集め、ますます大きなモデルを訓練する。
これは精度の向上につながったが、計算コストを持続不可能なレベルへとエスカレートした。
そこで本研究は,計算効率とモデル精度の微妙なバランスをとることを目的としている。
計算時間とモデル性能の両方を効果的に最適化し、コアサブセットの選択を重み付けに利用する新しい手法を提案する。
戦略的に選択されたコアセットに焦点をあてることで、アウトリーチの影響を効率よく最小化するため、我々のアプローチは堅牢な表現を提供する。
再校正された重みは、データセット全体に対してマッピングされ、伝播される。
実験により,本手法の有効性を実証し,モデルトレーニングのスケーラブルで高精度な解法としての可能性を明らかにした。
As machine learning tasks continue to evolve, the trend has been to gather larger datasets and train increasingly larger models. While this has led to advancements in accuracy, it has also escalated computational costs to unsustainable levels. Addressing this, our work aims to strike a delicate balance between computational efficiency and model accuracy, a persisting challenge in the field. We introduce a novel method that employs core subset selection for reweighting, effectively optimizing both computational time and model performance. By focusing on a strategically selected coreset, our approach offers a robust representation, as it efficiently minimizes the influence of outliers. The re-calibrated weights are then mapped back to and propagated across the entire dataset. Our experimental results substantiate the effectiveness of this approach, underscoring its potential as a scalable and precise solution for model training. | 翻訳日:2024-06-03 19:33:06 公開日:2024-05-30 |
# 点集合としてのグラフ
Graph as Point Set ( http://arxiv.org/abs/2405.02795v2 ) ライセンス: Link先を確認 | Xiyuan Wang, Pan Li, Muhan Zhang, | (参考訳) グラフはエンティティ間の相互接続をモデル化するための基本的なデータ構造である。
反対に、独立した要素を格納する。
グラフ表現を学習するために、現在のグラフニューラルネットワーク(GNN)は、主にメッセージパッシングを使用して相互接続を符号化している。
一方,本研究では,相互接続したノードを独立点の集合に単射的に変換し,グラフ表現の学習にセットエンコーダを用いる新しいグラフ対セット変換手法を提案する。
この変換法は二重の意義を持つ。
まず、セットエンコーダを使ってグラフから学習し、GNNの設計空間を大幅に拡張する。
第二に、特定の集合エンコーダであるTransformerに対して、従来のグラフトランスフォーマーで採用されているすべてのヒューリスティックな構造/位置符号化法とは異なる、グラフ情報を損失なく注入するための、新しく原則化されたアプローチを提供する。
提案手法の有効性を示すために,グラフから変換された点集合を入力として受け入れる変換器アーキテクチャであるPoint Set Transformer (PST)を導入する。
理論的には、PSTは、既存のGNNと比較して、短距離部分構造カウントと短距離経路距離タスクの両方に優れた表現性を示す。
大規模な実験により、PSTの卓越した実世界の性能が検証された。
Transformer以外にも,グラフ・ツー・セット方式の汎用性を確認することで,代表的GNNに匹敵するパフォーマンスを実現する,Deepsetベースのセット・エンコーダも考案した。
Graph is a fundamental data structure to model interconnections between entities. Set, on the contrary, stores independent elements. To learn graph representations, current Graph Neural Networks (GNNs) primarily use message passing to encode the interconnections. In contrast, this paper introduces a novel graph-to-set conversion method that bijectively transforms interconnected nodes into a set of independent points and then uses a set encoder to learn the graph representation. This conversion method holds dual significance. Firstly, it enables using set encoders to learn from graphs, thereby significantly expanding the design space of GNNs. Secondly, for Transformer, a specific set encoder, we provide a novel and principled approach to inject graph information losslessly, different from all the heuristic structural/positional encoding methods adopted in previous graph transformers. To demonstrate the effectiveness of our approach, we introduce Point Set Transformer (PST), a transformer architecture that accepts a point set converted from a graph as input. Theoretically, PST exhibits superior expressivity for both short-range substructure counting and long-range shortest path distance tasks compared to existing GNNs. Extensive experiments further validate PST's outstanding real-world performance. Besides Transformer, we also devise a Deepset-based set encoder, which achieves performance comparable to representative GNNs, affirming the versatility of our graph-to-set method. | 翻訳日:2024-06-03 19:23:22 公開日:2024-05-30 |
# AgentClinic: シミュレーションされた臨床環境でAIを評価するマルチモーダルエージェントベンチマーク
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments ( http://arxiv.org/abs/2405.07960v3 ) ライセンス: Link先を確認 | Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, Michael Moor, | (参考訳) 患者の診断と管理は複雑でシーケンシャルな意思決定プロセスであり、医師は情報を得る必要がある。
人工知能(AI)と大規模言語モデル(LLM)の最近の進歩は、臨床医療に大きな影響を与えることを約束している。
しかし、現在の評価スキームは静的な医学的質問答えベンチマークに過度に頼っており、実際の臨床研究に必要な対話的な意思決定には不足している。
本稿では, LLMs をシミュレートされた臨床環境において, エージェントとして操作する能力を評価するマルチモーダルベンチマークである AgentClinic を提案する。
本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。
本稿では,マルチモーダル画像と対話環境であるAgentClinic-NEJMと,対話専用環境であるAgentClinic-MedQAの2つのオープンメディカルエージェントベンチマークを提案する。
患者エージェントと医師エージェントの両方に認知バイアスと暗黙バイアスを組み込んで、偏見のあるエージェント間の現実的な相互作用をエミュレートする。
偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ相談意欲を低下させる。
MedQAのようなベンチマークで優れているいくつかのモデルが、AgentClinic-MedQAでは不十分であることが判明した。
我々は,患者エージェントで使用するLSMが,AgentClinicベンチマークにおけるパフォーマンスの重要な要因であることが判明した。
本研究は, 医師エージェントの診断精度を低下させるとともに, 相互作用が限定的であり, 相互作用が多すぎることも示している。
この作業のコードとデータはhttps://AgentClinic.github.io.comで公開されている。
Diagnosing and managing a patient is a complex, sequential decision making process that requires physicians to obtain information -- such as which tests to perform -- and to act upon it. Recent advances in artificial intelligence (AI) and large language models (LLMs) promise to profoundly impact clinical care. However, current evaluation schemes overrely on static medical question-answering benchmarks, falling short on interactive decision-making that is required in real-life clinical work. Here, we present AgentClinic: a multimodal benchmark to evaluate LLMs in their ability to operate as agents in simulated clinical environments. In our benchmark, the doctor agent must uncover the patient's diagnosis through dialogue and active data collection. We present two open medical agent benchmarks: a multimodal image and dialogue environment, AgentClinic-NEJM, and a dialogue-only environment, AgentClinic-MedQA. We embed cognitive and implicit biases both in patient and doctor agents to emulate realistic interactions between biased agents. We find that introducing bias leads to large reductions in diagnostic accuracy of the doctor agents, as well as reduced compliance, confidence, and follow-up consultation willingness in patient agents. Evaluating a suite of state-of-the-art LLMs, we find that several models that excel in benchmarks like MedQA are performing poorly in AgentClinic-MedQA. We find that the LLM used in the patient agent is an important factor for performance in the AgentClinic benchmark. We show that both having limited interactions as well as too many interaction reduces diagnostic accuracy in doctor agents. The code and data for this work is publicly available at https://AgentClinic.github.io. | 翻訳日:2024-06-03 19:23:22 公開日:2024-05-30 |
# ロバストネス評価を再考する:学習型四足歩行制御器の逆攻撃
Rethinking Robustness Assessment: Adversarial Attacks on Learning-based Quadrupedal Locomotion Controllers ( http://arxiv.org/abs/2405.12424v2 ) ライセンス: Link先を確認 | Fan Shi, Chong Zhang, Takahiro Miki, Joonho Lee, Marco Hutter, Stelian Coros, | (参考訳) 脚の移動は、機械学習技術の進歩、特に深層強化学習(RL)により、近年顕著に成功している。
ニューラルネットワークを利用するコントローラは、センサーノイズや外部摂動を含む実世界の不確実性に対して、経験的かつ質的な堅牢性を示している。
しかし、これらのロコモーションコントローラの脆弱性を公式に調査することは依然として困難である。
この困難は、高次元、時間的に連続した空間内の長い尾の分布に脆弱性をピンポイントする必要性から生じる。
定量的検証に向けた第一歩として,学習された移動制御器の弱点を特定するために,逐次的敵攻撃を利用する計算手法を提案する。
我々の研究は、最先端のロバストコントローラーでさえ、十分に設計された低マグニチュード逆数列の下では著しく失敗することを示した。
シミュレーション実験や実際のロボット実験を通じて、我々のアプローチの有効性を検証するとともに、生成した結果が、元のポリシーを堅牢化し、これらのブラックボックスポリシーの安全性に関する貴重な洞察を提供するためにどのように使用できるかを説明する。
プロジェクトページ: https://fanshi14.github.io/me/rss24.html
Legged locomotion has recently achieved remarkable success with the progress of machine learning techniques, especially deep reinforcement learning (RL). Controllers employing neural networks have demonstrated empirical and qualitative robustness against real-world uncertainties, including sensor noise and external perturbations. However, formally investigating the vulnerabilities of these locomotion controllers remains a challenge. This difficulty arises from the requirement to pinpoint vulnerabilities across a long-tailed distribution within a high-dimensional, temporally sequential space. As a first step towards quantitative verification, we propose a computational method that leverages sequential adversarial attacks to identify weaknesses in learned locomotion controllers. Our research demonstrates that, even state-of-the-art robust controllers can fail significantly under well-designed, low-magnitude adversarial sequence. Through experiments in simulation and on the real robot, we validate our approach's effectiveness, and we illustrate how the results it generates can be used to robustify the original policy and offer valuable insights into the safety of these black-box policies. Project page: https://fanshi14.github.io/me/rss24.html | 翻訳日:2024-06-03 19:13:28 公開日:2024-05-30 |
# 弱表現言語における聖書テキストの多言語翻訳における ByT5 の有効性
Efficacy of ByT5 in Multilingual Translation of Biblical Texts for Underrepresented Languages ( http://arxiv.org/abs/2405.13350v2 ) ライセンス: Link先を確認 | Corinne Aars, Lauren Adams, Xiaokan Tian, Zhaoyu Wang, Colton Wismer, Jason Wu, Pablo Rivas, Korn Sooksatra, Matthew Fendt, | (参考訳) 本研究では,ByT5をベースとした多言語翻訳モデルの開発と評価を行った。
包括的Johns Hopkins University Bible Corpusを利用して、私たちはこのモデルを訓練し、文字ベースおよび形態学的にリッチな言語の複雑なニュアンスを捉えました。
BLEUスコアで測定し,サンプル翻訳を補足した結果,本モデルが神文へのアクセシビリティを向上させることが示唆された。
独特な聖書の語彙と構造を効果的に扱い、言語的な分割をブリッジする。
この研究はまた、このモデルの限界についても論じ、言語境界を越えて神聖な文献へのアクセスを拡大することに焦点を当て、将来の拡張の道筋を提案する。
This study presents the development and evaluation of a ByT5-based multilingual translation model tailored for translating the Bible into underrepresented languages. Utilizing the comprehensive Johns Hopkins University Bible Corpus, we trained the model to capture the intricate nuances of character-based and morphologically rich languages. Our results, measured by the BLEU score and supplemented with sample translations, suggest the model can improve accessibility to sacred texts. It effectively handles the distinctive biblical lexicon and structure, thus bridging the linguistic divide. The study also discusses the model's limitations and suggests pathways for future enhancements, focusing on expanding access to sacred literature across linguistic boundaries. | 翻訳日:2024-06-03 19:13:28 公開日:2024-05-30 |
# 道路のスケジュールが下がった
The Road Less Scheduled ( http://arxiv.org/abs/2405.15682v2 ) ライセンス: Link先を確認 | Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky, | (参考訳) 既存の学習速度スケジュールは、最適化停止ステップTの仕様を必要とせず、Tに依存する学習速度スケジュールにより大幅に性能が向上する。我々は、凸問題から大規模深層学習問題まで幅広い問題にまたがるスケジュールと比較して、最先端の性能を示しながら、スケジュールを全面的に活用することで、この停止時間の必要性を回避するアプローチを提案する。
我々のスケジュールフリーアプローチでは、運動量を持つ標準オプティマイザよりもハイパーパラメータが追加されることはない。
提案手法はスケジューリングと反復平均化を統一する新しい理論の直接的な結果である。
私たちのメソッドのオープンソース実装が利用可能です(https://github.com/facebookresearch/schedule_free)。
Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free). | 翻訳日:2024-06-03 19:03:44 公開日:2024-05-30 |
# SWE-agent: エージェント・コンピュータ・インタフェースによるソフトウェア・エンジニアリングの自動化
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering ( http://arxiv.org/abs/2405.15793v2 ) ライセンス: Link先を確認 | John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press, | (参考訳) 言語モデル(LM)エージェントは、デジタル環境における複雑なタスクの自動化にますます利用されている。
人間がソフトウェアエンジニアリングのような複雑なタスクのために統合開発環境のような強力なソフトウェアアプリケーションから恩恵を受けるのと同じように、LMエージェントはエンドユーザの新たなカテゴリを自身のニーズと能力で表現し、使用するソフトウェアに特別に構築されたインターフェースの恩恵を受けると仮定する。
インタフェース設計が言語モデルエージェントの性能に与える影響について検討する。
この調査の結果,ソフトウェア工学の課題を解決するために,LMエージェントが自律的にコンピュータを利用できるようにするシステムであるSWE-agentを紹介した。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパスで最先端性能を実現した。
最後に,ACIの設計がエージェントの行動やパフォーマンスに与える影響について考察する。
Language model (LM) agents are increasingly being used to automate complicated tasks in digital environments. Just as humans benefit from powerful software applications, such as integrated development environments, for complex tasks like software engineering, we posit that LM agents represent a new category of end users with their own needs and abilities, and would benefit from specially-built interfaces to the software they use. We investigate how interface design affects the performance of language model agents. As a result of this exploration, we introduce SWE-agent: a system that facilitates LM agents to autonomously use computers to solve software engineering tasks. SWE-agent's custom agent-computer interface (ACI) significantly enhances an agent's ability to create and edit code files, navigate entire repositories, and execute tests and other programs. We evaluate SWE-agent on SWE-bench and HumanEvalFix, achieving state-of-the-art performance on both with a pass@1 rate of 12.5% and 87.7%, respectively, far exceeding the previous state-of-the-art achieved with non-interactive LMs. Finally, we provide insight on how the design of the ACI can impact agents' behavior and performance. | 翻訳日:2024-06-03 19:03:44 公開日:2024-05-30 |
# 有害微調整に対する大規模言語モデルの遅延安全アライメント
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2405.18641v2 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, | (参考訳) 近年の研究では、有害データと混合したデータセットを微調整することで、安全アライメントを伴うLarge Language Models (LLM) を脱獄することができることが示されている。
文献ではじめて、調整段階の状態を分離し、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。
残念なことに、その後の研究では、この単純な双状態最適化(BSO)ソリューションは、アライメント状態に投資するステップが小さすぎると収束不安定になり、アライメント性能が低下することを示した。
統計的解析により, コンセンサスに対するtextit{excess drift} が不安定性の原因となる可能性が示唆された。
この問題を治療するために、各状態のドリフトを制限するための近項を導入する、 \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa})を提案する。
理論的には、近位項の利点は収束解析によって支えられ、リサの収束を保証するのに十分な大きな近位因子が必要であることを示す。
その結果,LLMの精度をユーザタスクに保ちながら,近似項を持つLisaはアライメント性能を著しく向上させることができることがわかった。
コードは \url{https://github.com/git-disl/Lisa} で入手できる。
Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}. | 翻訳日:2024-06-03 19:03:44 公開日:2024-05-30 |
# 変圧器を用いたシステムレビューのための文体フィルタリング
Literature Filtering for Systematic Reviews with Transformers ( http://arxiv.org/abs/2405.20354v1 ) ライセンス: Link先を確認 | John Hawkins, David Tivey, | (参考訳) 学術研究が成長する中で重要な研究を特定することは、品質研究の重要な要素である。
証拠に基づく医学で使用される体系的なレビュープロセスは、これを研究プログラムで従わなければならない手順として定式化する。
しかし、特定のトピックに関する重要な研究項目を特定するのに必要な時間に関して、負担が増大している。
本研究では,研究課題に適合する汎用フィルタリングシステムの構築手法を開発し,必要な内容を自然言語で記述する手法を提案する。
以上の結果から, バイオメディカル文献に基づいて事前学習したトランスフォーマーモデルにおいて, 特定のタスクを微調整したトランスフォーマーモデルにより, この問題に対する有望な解決策が得られた。
このモデルは、ほとんどの研究課題に対して、大量の無関係な記事を削除することができる。
Identifying critical research within the growing body of academic work is an essential element of quality research. Systematic review processes, used in evidence-based medicine, formalise this as a procedure that must be followed in a research program. However, it comes with an increasing burden in terms of the time required to identify the important articles of research for a given topic. In this work, we develop a method for building a general-purpose filtering system that matches a research question, posed as a natural language description of the required content, against a candidate set of articles obtained via the application of broad search terms. Our results demonstrate that transformer models, pre-trained on biomedical literature then fine tuned for the specific task, offer a promising solution to this problem. The model can remove large volumes of irrelevant articles for most research questions. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# スパース勾配を持つSNNにおける対向ロバスト性向上
Enhancing Adversarial Robustness in SNNs with Sparse Gradients ( http://arxiv.org/abs/2405.20355v1 ) ライセンス: Link先を確認 | Yujia Liu, Tong Bu, Jianhao Ding, Zecheng Hao, Tiejun Huang, Zhaofei Yu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率と生物学的にインスパイアされた構造に対して大きな注目を集めており、エネルギー効率と解釈可能性の観点から、人工知能ニューラルネットワーク(ANN)よりも潜在的に有利である。
それでも、ANNと同様、SNNの堅牢性は、特に敵の攻撃に直面している場合、依然として課題である。
既存の技術は、ANNから適応したものであれ、SNNのために特別に設計されたものであれ、SNNの訓練や強力な攻撃に対する防御に制限がある。
本稿では,SNNの頑健性を高めるための新しい手法を提案する。
SNNは, 大規模であっても, 逆方向の摂動に比べて, ランダムな摂動に対して強い抵抗性を示す。
本研究の目的は, 対向的およびランダムな摂動下でのSNN間のギャップを狭めることであり, 全体としての堅牢性を向上させることである。
これを実現するために、この性能ギャップは、入力画像に関する真のラベルに関連する確率の勾配間隔によって上界にあることを理論的に証明し、勾配間隔を正規化して堅牢なSNNを訓練する実践的戦略の基礎となる。
我々は、画像ベースとイベントベースの両方のデータセットに対する広範な実験を通じて、アプローチの有効性を検証する。
その結果,SNNの堅牢性は顕著に向上した。
我々の研究は、SNNにおける勾配間隔の重要性と、堅牢性向上におけるその役割を強調している。
Spiking Neural Networks (SNNs) have attracted great attention for their energy-efficient operations and biologically inspired structures, offering potential advantages over Artificial Neural Networks (ANNs) in terms of energy efficiency and interpretability. Nonetheless, similar to ANNs, the robustness of SNNs remains a challenge, especially when facing adversarial attacks. Existing techniques, whether adapted from ANNs or specifically designed for SNNs, exhibit limitations in training SNNs or defending against strong attacks. In this paper, we propose a novel approach to enhance the robustness of SNNs through gradient sparsity regularization. We observe that SNNs exhibit greater resilience to random perturbations compared to adversarial perturbations, even at larger scales. Motivated by this, we aim to narrow the gap between SNNs under adversarial and random perturbations, thereby improving their overall robustness. To achieve this, we theoretically prove that this performance gap is upper bounded by the gradient sparsity of the probability associated with the true label concerning the input image, laying the groundwork for a practical strategy to train robust SNNs by regularizing the gradient sparsity. We validate the effectiveness of our approach through extensive experiments on both image-based and event-based datasets. The results demonstrate notable improvements in the robustness of SNNs. Our work highlights the importance of gradient sparsity in SNNs and its role in enhancing robustness. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# 二重分子モダリティとマルチサブストラクチャー蒸留による医薬勧告
Medication Recommendation via Dual Molecular Modalities and Multi-Substructure Distillation ( http://arxiv.org/abs/2405.20358v1 ) ライセンス: Link先を確認 | Shi Mu, Shunpan Liang, Xiang Li, | (参考訳) 医薬推奨は、患者の医療履歴とバイオメディカル知識を組み合わせることで、医師が薬の組合せをより正確かつ安全に決定するのを手助けする。
分子知識に基づく既存のアプローチは、分子の原子的幾何学的構造を見落とし、薬品の高次元的特徴と本質的な物理的特性を捉えることができず、構造的混乱と患者個々の訪問から有用なサブ構造を抽出することができない。
これらの制約に対処するために,3次元分子構造と原子の性質を組み込むことにより,2次元分子構造における分子の本質的な情報の欠如を克服するBiMoRecを提案する。
BiMoRecは、レコメンデーションシステムに必要な迅速な応答を維持するために、2次元および3次元の分子グラフの統合を達成し、2つの分子モード間の相互情報を最大化し、最終的には単一の患者訪問と相互作用してサブ構造を蒸留する。
具体的には、深層学習ネットワークを用いて2次元および3次元分子構造とサブ構造の表現を得るための事前学習手法を構築し、コントラスト学習を用いて相互情報を導出する。
その後,訓練したGNNモジュールを通じて融合した分子表現を生成し,患者の臨床履歴情報とともにサブ構造表現の関連性を再決定する。
最後に,抽出したサブ構造配列に基づいて最終薬品の組み合わせを生成する。
MIMIC-IIIおよびMIMIC-IVデータセットの実装により,本手法が最先端の性能を実現することを示す。
次の最良ベースラインと比較して、ベースラインと同じDDIを維持しながら精度を1.8\%向上させる。
Medication recommendation combines patient medical history with biomedical knowledge to assist doctors in determining medication combinations more accurately and safely. Existing approaches based on molecular knowledge overlook the atomic geometric structure of molecules, failing to capture the high-dimensional characteristics and intrinsic physical properties of medications, leading to structural confusion and the inability to extract useful substructures from individual patient visits. To address these limitations, we propose BiMoRec, which overcomes the inherent lack of molecular essential information in 2D molecular structures by incorporating 3D molecular structures and atomic properties. To retain the fast response required of recommendation systems, BiMoRec maximizes the mutual information between the two molecular modalities through bimodal graph contrastive learning, achieving the integration of 2D and 3D molecular graphs, and finally distills substructures through interaction with single patient visits. Specifically, we use deep learning networks to construct a pre-training method to obtain representations of 2D and 3D molecular structures and substructures, and we use contrastive learning to derive mutual information. Subsequently, we generate fused molecular representations through a trained GNN module, re-determining the relevance of substructure representations in conjunction with the patient's clinical history information. Finally, we generate the final medication combination based on the extracted substructure sequences. Our implementation on the MIMIC-III and MIMIC-IV datasets demonstrates that our method achieves state-of-the-art performance. Compared to the next best baseline, our model improves accuracy by 1.8\% while maintaining the same level of DDI as the baseline. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# 幻覚のない? 先進的なAI法研究ツールの信頼性の評価
Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools ( http://arxiv.org/abs/2405.20362v1 ) ライセンス: Link先を確認 | Varun Magesh, Faiz Surani, Matthew Dahl, Mirac Suzgun, Christopher D. Manning, Daniel E. Ho, | (参考訳) 法律実務は、人工知能(AI)を取り入れた製品の急激な増加を目撃している。
このようなツールは、ケースローの検索や要約から文書起草まで、幅広い法的タスクを支援するように設計されている。
しかし、これらのツールで使われる大きな言語モデルは、"幻覚"したり、偽情報を作ったりしがちで、高いリスクを持つドメインでの使用を危険にさらす。
近年、一部の法律研究プロバイダは、検索強化世代(RAG)を「消去」(Casetext, 2023)や「avoid[ing]」幻覚(Thomson Reuters, 2023)、あるいは「幻覚のない」法的な引用を保証する方法(LexisNexis, 2023)などと宣伝している。
これらのシステムのクローズドな性質のため、これらの主張を体系的に評価することは困難である。
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について,その設計と報告を行う。
プロバイダの主張が過大評価されていることを実証します。
幻覚は汎用チャットボット(GPT-4)と比較して減少するが、LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化されている。
また、応答性と精度におけるシステム間の大きな違いも文書化しています。
私たちの記事は4つの重要な貢献をしている。
RAGベースのプロプライエタリな法的AIツールのパフォーマンスを評価し、報告するのは、これが初めてである。
第二に、システム内の脆弱性を特定し、理解するための、包括的で事前登録されたデータセットを導入している。
第三に、幻覚と正確な法的反応を区別するための明確な型付けを提案する。
最後に、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
Legal practice has witnessed a sharp rise in products incorporating artificial intelligence (AI). Such tools are designed to assist with a wide range of core legal tasks, from search and summarization of caselaw to document drafting. But the large language models used in these tools are prone to "hallucinate," or make up false information, making their use risky in high-stakes domains. Recently, certain legal research providers have touted methods such as retrieval-augmented generation (RAG) as "eliminating" (Casetext, 2023) or "avoid[ing]" hallucinations (Thomson Reuters, 2023), or guaranteeing "hallucination-free" legal citations (LexisNexis, 2023). Because of the closed nature of these systems, systematically assessing these claims is challenging. In this article, we design and report on the first preregistered empirical evaluation of AI-driven legal research tools. We demonstrate that the providers' claims are overstated. While hallucinations are reduced relative to general-purpose chatbots (GPT-4), we find that the AI research tools made by LexisNexis (Lexis+ AI) and Thomson Reuters (Westlaw AI-Assisted Research and Ask Practical Law AI) each hallucinate between 17% and 33% of the time. We also document substantial differences between systems in responsiveness and accuracy. Our article makes four key contributions. It is the first to assess and report the performance of RAG-based proprietary legal AI tools. Second, it introduces a comprehensive, preregistered dataset for identifying and understanding vulnerabilities in these systems. Third, it proposes a clear typology for differentiating between hallucinations and accurate legal responses. Last, it provides evidence to inform the responsibilities of legal professionals in supervising and verifying AI outputs, which remains a central open question for the responsible integration of AI into law. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# LLMGeo: 画像ジオロケーションにおける大規模言語モデルのベンチマーク
LLMGeo: Benchmarking Large Language Models on Image Geolocation In-the-wild ( http://arxiv.org/abs/2405.20363v1 ) ライセンス: Link先を確認 | Zhiqiang Wang, Dejia Xu, Rana Muhammad Shahroz Khan, Yanbin Lin, Zhiwen Fan, Xingquan Zhu, | (参考訳) 画像位置情報は、様々な画像理解アプリケーションにおいて重要な課題である。
しかし、既存の手法は、難易度の高い画像を分析する際に失敗することが多い。
マルチモーダル言語モデルの特別な背景知識にヒントを得て,新しい画像データセットと包括的評価フレームワークを用いて,その位置情報機能を体系的に評価する。
まずは、Googleストリートビューを通じて、さまざまな国から画像を収集します。
そこで我々は,クローズドソースおよびオープンソースマルチモーダル言語モデルのトレーニングフリーおよびトレーニングベース評価を行った。
我々は、クローズドソースおよびオープンソースマルチモーダル言語モデル上で、トレーニングフリーとトレーニングベースの両方の評価を行います。
その結果,クローズド・ソース・モデルは位置決め能力に優れており,オープンソース・モデルは微調整により同等の性能が得られることがわかった。
Image geolocation is a critical task in various image-understanding applications. However, existing methods often fail when analyzing challenging, in-the-wild images. Inspired by the exceptional background knowledge of multimodal language models, we systematically evaluate their geolocation capabilities using a novel image dataset and a comprehensive evaluation framework. We first collect images from various countries via Google Street View. Then, we conduct training-free and training-based evaluations on closed-source and open-source multi-modal language models. we conduct both training-free and training-based evaluations on closed-source and open-source multimodal language models. Our findings indicate that closed-source models demonstrate superior geolocation abilities, while open-source models can achieve comparable performance through fine-tuning. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# インダクティブプライオリティを用いた3次元ロボット認識の学習
Learning 3D Robotics Perception using Inductive Priors ( http://arxiv.org/abs/2405.20364v1 ) ライセンス: Link先を確認 | Muhammad Zubair Irshad, | (参考訳) 近年のディープラーニングの進歩は、データ中心のインテリジェンス、すなわち、大量のデータを取り込む可能性を解き明かし、テキスト・ツー・イメージ生成、機械学習、画像認識といったデジタルタスクを非常に得意とする人工知能モデルを生み出している。
この論文では、構造化帰納的バイアスと設計アプローチやアルゴリズムに先立って、原則中心の知能の可能性を解き放つことによる学習のトピックを取り上げている。
以前の知識(略して)は、過去の経験や世界がどのように機能するかの仮定でしばしば利用でき、自律的なエージェントがより一般化し、過去の経験に基づいて行動を適用するのに役立つ。
本論では,3つのロボット認識問題において,先行知識の活用を実証する。
オブジェクト中心の3D再構成
2.意思決定のためのビジョンと言語、及び
3次元映像理解
これらの課題を解決するために、私は様々な事前知識の源泉を提案する。
1. 合成データから得られる幾何学的・外見的先行
2.モジュール性とセマンティックマップ
3. 意味的、構造的、文脈的先行
ロボット工学の3D知覚タスクを解くためのこれらの先行研究を行い、それらをディープラーニングモデルに効率的にエンコードする方法を提案する。
移動学習のためのネットワークのウォームスタートに先立って使われるものもあれば、ロボットエージェントの動作空間を制限するための制約として使われるものもある。
古典的な手法は不安定であり、データ中心のアプローチでは大量のラベル付きデータを必要とするが、この論文は、新しいシミュレーション(sim2sim)や実世界の見えない環境(sim2real)において、シミュレーションから取得した、非常に無数の現実世界のデータやデータを必要とするインテリジェントなエージェントを構築することを目的としている。
Recent advances in deep learning have led to a data-centric intelligence i.e. artificially intelligent models unlocking the potential to ingest a large amount of data and be really good at performing digital tasks such as text-to-image generation, machine-human conversation, and image recognition. This thesis covers the topic of learning with structured inductive bias and priors to design approaches and algorithms unlocking the potential of principle-centric intelligence. Prior knowledge (priors for short), often available in terms of past experience as well as assumptions of how the world works, helps the autonomous agent generalize better and adapt their behavior based on past experience. In this thesis, I demonstrate the use of prior knowledge in three different robotics perception problems. 1. object-centric 3D reconstruction, 2. vision and language for decision-making, and 3. 3D scene understanding. To solve these challenging problems, I propose various sources of prior knowledge including 1. geometry and appearance priors from synthetic data, 2. modularity and semantic map priors and 3. semantic, structural, and contextual priors. I study these priors for solving robotics 3D perception tasks and propose ways to efficiently encode them in deep learning models. Some priors are used to warm-start the network for transfer learning, others are used as hard constraints to restrict the action space of robotics agents. While classical techniques are brittle and fail to generalize to unseen scenarios and data-centric approaches require a large amount of labeled data, this thesis aims to build intelligent agents which require very-less real-world data or data acquired only from simulation to generalize to highly dynamic and cluttered environments in novel simulations (i.e. sim2sim) or real-world unseen environments (i.e. sim2real) for a holistic scene understanding of the 3D world. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# 超低温1Dガスを用いた非破壊水素化ダイナマイゼーション
Unraveling hydrodynamization using ultracold 1D gases ( http://arxiv.org/abs/2405.20376v1 ) ライセンス: Link先を確認 | Yicheng Zhang, Yuan Le, David S. Weiss, Marcos Rigol, | (参考訳) 数種類の高エネルギークエンチの変種の後, 実験および理論的に1次元ボース気体の量子進化について検討した。
ほぼ可積分な多体系の相対的単純さによってもたらされる利点を利用して、2つの異なる、しばしば時間的に重なるプロセス、ハイドロダイナミゼーション、局所的前熱化の挙動を区別することができる。
我々の発見には普遍的な性格があり、これは突然の高エネルギークエンチの後、相互作用する多体量子系の短時間の挙動に適用できる。
具体的には、重イオン衝突との関連性について論じる。
We study the quantum evolution of 1D Bose gases immediately after several variants of high-energy quenches, both experimentally and theoretically. Using the advantages conveyed by the relative simplicity of these nearly integrable many-body systems, we are able to differentiate the behavior of two distinct but often temporally overlapping processes, hydrodynamization and local prethermalization. There is a universal character to our findings, which can be applied to the short-time behavior of any interacting many-body quantum system after a sudden high-energy quench. We specifically discuss its potential relevance to heavy-ion collisions. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# アーベル格子ゲージ理論における多体局在の研究
Fate of many-body localization in an Abelian lattice gauge theory ( http://arxiv.org/abs/2405.20379v1 ) ライセンス: Link先を確認 | Indrajit Sau, Debasish Banerjee, Arnab Sen, | (参考訳) 物質自由な$U(1)$量子リンクゲージ理論の中間スペクトル固有状態における多体局在(MBL)の運命を、はしご幾何学上のランダムなカップリングを伴うハミルトニアンで解決する。
具体的には、集中的な推定器である$\mathcal{D} \in [0,1/4]$を、フラックス基底におけるFock状態の最大値である$\mathcal{D}$がFock状態の最大値であるFock空間におけるこれらの固有状態の濃度と同様に、活動的または不活性な格子上の初等ラケットの測度として作用する。
分布を$p(\mathcal{D})$, for $L_x \times L_y$ lattices, with $L_y=2$ and $4$, as a function of (a dimensionless) disorder strength $\alpha$$\alpha$$\\alpha=0$ implies zero disorder) using exactly diagonalization on many disorder realizations。
p(\mathcal{D})$ の歪さを解析すると、MBL が $L_y=2$ の薄いはしごに対して設定する臨界障害強度の有限サイズ推定は、$L_x$ で線形に増加する一方、$L_x$ が固定された$\alpha$ で増加する完全分布の挙動は、$L_x \leq 12$ のデータに基づいて、$\alpha_c (L_y=2) > 40$ が有限であることを示す。
$p(\mathcal{D})$ より広いはしごに対して$L_y=4$ はローカライズする傾向が低く、2次元での MBL の欠如を示唆している。
顕著な観察は、典型的な高エネルギーフォック状態における単一プラケット対角作用素の(単調な)無限温度自己相関関数の分解であり、MBLが出現する前に障害が増加するにつれて時空間の不均一性が増大する創発的な時間スケールの多量化である。
中間および大きな$\alpha$だが、$\alpha_c (L_y)$以下では、あるランダムに選択された初期フォック状態は、量子多体傷によって引き起こされる発振を反映して、少数の周波数で支配されるようなプラケット作用素の発振時間的挙動を示す。
We address the fate of many-body localization (MBL) of mid-spectrum eigenstates of a matter-free $U(1)$ quantum-link gauge theory Hamiltonian with random couplings on ladder geometries. We specifically consider an intensive estimator, $\mathcal{D} \in [0,1/4]$, that acts as a measure of elementary plaquettes on the lattice being active or inert in mid-spectrum eigenstates as well as the concentration of these eigenstates in Fock space, with $\mathcal{D}$ being equal to its maximum value of $1/4$ for Fock states in the electric flux basis. We calculate its distribution, $p(\mathcal{D})$, for $L_x \times L_y$ lattices, with $L_y=2$ and $4$, as a function of (a dimensionless) disorder strength $\alpha$ ($\alpha=0$ implies zero disorder) using exact diagonalization on many disorder realizations. Analyzing the skewness of $p(\mathcal{D})$ shows that the finite-size estimate of the critical disorder strength, beyond which MBL sets in for thin ladders with $L_y=2$, increases linearly with $L_x$ while the behavior of the full distribution with increasing $L_x$ at fixed $\alpha$ shows that $\alpha_c (L_y=2) >40$, if at all finite, based on data for $L_x \leq 12$. $p(\mathcal{D})$ for wider ladders with $L_y=4$ show their lower tendency to localize, suggesting a lack of MBL in two dimensions. A remarkable observation is the resolution of the (monotonic) infinite temperature autocorrelation function of single plaquette diagonal operators in typical high-energy Fock states into a plethora of emergent timescales of increasing spatio-temporal heterogeneity as the disorder is increased even before MBL sets in. At intermediate and large $\alpha$, but below $\alpha_c (L_y)$, certain randomly selected initial Fock states display striking oscillatory temporal behavior of such plaquette operators dominated by only a few frequencies, reminiscent of oscillations induced by quantum many-body scars. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# フェデレート拡散モデルの勾配インバージョン
Gradient Inversion of Federated Diffusion Models ( http://arxiv.org/abs/2405.20380v1 ) ライセンス: Link先を確認 | Jiyue Huang, Chi Hong, Lydia Y. Chen, Stefanie Roos, | (参考訳) 拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
効果的な拡散モデルの訓練には、分散パーティによってプライベートに所有される大量の実データが必要である。
各データパーティは、生データの代わりに勾配を共有することで、連合学習方式で拡散モデルを協調的に訓練することができる。
本稿では,勾配反転攻撃のプライバシー漏洩リスクについて検討する。
まず,2相融合最適化(GIDM)を設計し,よく訓練された生成モデル自体を事前知識として活用し,逆探索(ラテント)空間を制約し,次いでピクセルワイズ微調整を行う。
GIDMはオリジナルの画像とほぼ同一の画像を再構成できることが示されている。
よりプライバシー保護のトレーニングシナリオを考えると、ローカルに初期化されたプライベートトレーニングノイズ$\epsilon$とサンプリングステップtが、逆攻撃のさらなる課題を引き起こす可能性がある、と私たちは主張する。
これを解決するために、未知データの最適化を調整する三重最適化GIDM+, $\epsilon$, $t$を提案する。
広範に評価した結果,高解像度画像であっても高品質に再構成できる拡散モデルのデータ保護のための共有勾配の脆弱性が示された。
Diffusion models are becoming defector generative models, which generate exceptionally high-resolution image data. Training effective diffusion models require massive real data, which is privately owned by distributed parties. Each data party can collaboratively train diffusion models in a federated learning manner by sharing gradients instead of the raw data. In this paper, we study the privacy leakage risk of gradient inversion attacks. First, we design a two-phase fusion optimization, GIDM, to leverage the well-trained generative model itself as prior knowledge to constrain the inversion search (latent) space, followed by pixel-wise fine-tuning. GIDM is shown to be able to reconstruct images almost identical to the original ones. Considering a more privacy-preserving training scenario, we then argue that locally initialized private training noise $\epsilon$ and sampling step t may raise additional challenges for the inversion attack. To solve this, we propose a triple-optimization GIDM+ that coordinates the optimization of the unknown data, $\epsilon$ and $t$. Our extensive evaluation results demonstrate the vulnerability of sharing gradient for data protection of diffusion models, even high-resolution images can be reconstructed with high quality. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-30 |
# スピンボソンディックモデルの古典的および量子的性質:カオス、局在、スキャリング
Classical and Quantum Properties of the Spin-Boson Dicke Model: Chaos, Localization, and Scarring ( http://arxiv.org/abs/2405.20381v1 ) ライセンス: Link先を確認 | David Villaseñor, Saúl Pilatowsky-Cameo, Jorge Chávez-Carlos, Miguel A. Bastarrachea-Magnani, Sergio Lerma-Hernández, Lea F. Santos, Jorge G. Hirsch, | (参考訳) 本稿ではDickeモデルにまつわる大きな進歩について述べるが、これは1950年代に標準から超ラディアント相への遷移を説明するために導入されたものである。
それ以来、このスピンボソン相互作用モデルは様々な文脈において理論的、実験的に重要な関心を集めている。
本論では, 古典的, 量子的両面, 特にカオス, 局所化, スカーリングの開始点から見れば, より理解しやすい特性や現象について論じる。
This review article describes major advances associated with the Dicke model, starting in the 1950s when it was introduced to explain the transition from a normal to a superradiant phase. Since then, this spin-boson interacting model has raised significant theoretical and experimental interest in various contexts. The present review focuses on the isolated version of the model and covers properties and phenomena that are better understood when seen from both the classical and quantum perspectives, in particular, the onset of chaos, localization, and scarring. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# フォトニックフラットバンドによる双極子-双極子相互作用
Dipole-dipole interactions mediated by a photonic flat band ( http://arxiv.org/abs/2405.20382v1 ) ライセンス: Link先を確認 | Enrico Di Benedetto, Alejandro Gonzalez-Tudela, Francesco Ciccarello, | (参考訳) フラットバンド (FBs) は群速度ゼロのエネルギーバンドであり、電子系では強い相関現象が認められた。
実際、FBは厳密な局所化状態、いわゆる「コンパクト局所化状態」(CLS)の基底を持つことができ、これは一般には非直交状態である。
本稿では,FBのフォトニックアナログに分散結合したエミッタ間における双極子-双極子相互作用について検討する。
このような光子を媒介とする相互作用の強度は、標準バンドの典型的な挙動とは異なり、励起子のエネルギーがFBに近づくにつれて有限値に飽和する特性的な局在長で指数関数的に減衰することを示す。
1Dと2Dの両方の大規模なFBに対して解析的に導かれる普遍的スケーリング法則に従って、局所化長はCLS間の重なりによって増加する。
巨大原子(非局所的な原子場結合)を使用することで、CLSと同じ形状の相互作用ポテンシャルやこれらのいくつかを重畳することができる。
Flat bands (FBs) are energy bands with zero group velocity, which in electronic systems were shown to favor strongly correlated phenomena. Indeed, a FB can be spanned with a basis of strictly localized states, the so called "compact localized states" (CLSs), which are yet generally non-orthogonal. Here, we study emergent dipole-dipole interactions between emitters dispersively coupled to the photonic analogue of a FB, a setup within reach in state-of the-art experimental platforms. We show that the strength of such photon-mediated interactions decays exponentially with distance with a characteristic localization length which, unlike typical behaviours with standard bands, saturates to a finite value as the emitter's energy approaches the FB. Remarkably, we find that the localization length grows with the overlap between CLSs according to an analytically-derived universal scaling law valid for a large class of FBs both in 1D and 2D. Using giant atoms (non-local atom-field coupling) allows to tailor interaction potentials having the same shape of a CLS or a superposition of a few of these. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# カゴメ格子上のレイドバーグ原子配列に対する繰り返しニューラルネットワーク波動関数
Recurrent neural network wave functions for Rydberg atom arrays on kagome lattice ( http://arxiv.org/abs/2405.20384v1 ) ライセンス: Link先を確認 | Mohamed Hibat-Allah, Ejaaz Merali, Giacomo Torlai, Roger G Melko, Juan Carrasquilla, | (参考訳) ライドバーグ原子配列実験は強力な量子シミュレータとして機能する能力を示し、従来の計算機シミュレーションでは研究が難しい物質の強相関相を準備している。
主要な方向は、スピン液体やガラスのようなエキゾチックな多体状態を作るために、フラストレーションされた幾何学上の相互作用を実装することである。
本稿では,2次元リカレントニューラルネットワーク(RNN)を用いて,カゴメ格子上のRydberg原子配列の基底状態について検討する。
本研究では,大まかな最適化ランドスケープに対応して,エキゾチックな位相が生じる可能性のある位相図の領域において,RNNの変動パラメータを求めるアニール方式を実装した。
以前カゴメ格子上で研究されたRydberg原子配列ハミルトニアンについて、我々のRNN基底状態は、エキゾチックなスピン液体や創発的なガラスの挙動の証拠を示さない。
後者の場合、非ゼロのエドワーズ・アンダーソン次数パラメータの存在は、量子モンテカルロシミュレーションで経験された長い自己相関時間のアーティファクトであると主張する。
この結果は、RNNのような自己回帰モデルの有用性を強調し、フラストレーションのある格子上のライドバーグ原子配列物理学を探索する。
Rydberg atom array experiments have demonstrated the ability to act as powerful quantum simulators, preparing strongly-correlated phases of matter which are challenging to study for conventional computer simulations. A key direction has been the implementation of interactions on frustrated geometries, in an effort to prepare exotic many-body states such as spin liquids and glasses. In this paper, we apply two-dimensional recurrent neural network (RNN) wave functions to study the ground states of Rydberg atom arrays on the kagome lattice. We implement an annealing scheme to find the RNN variational parameters in regions of the phase diagram where exotic phases may occur, corresponding to rough optimization landscapes. For Rydberg atom array Hamiltonians studied previously on the kagome lattice, our RNN ground states show no evidence of exotic spin liquid or emergent glassy behavior. In the latter case, we argue that the presence of a non-zero Edwards-Anderson order parameter is an artifact of the long autocorrelations times experienced with quantum Monte Carlo simulations. This result emphasizes the utility of autoregressive models, such as RNNs, to explore Rydberg atom array physics on frustrated lattices and beyond. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 天文学研究における大規模言語モデル評価フレームワークの設計
Designing an Evaluation Framework for Large Language Models in Astronomy Research ( http://arxiv.org/abs/2405.20389v1 ) ライセンス: Link先を確認 | John F. Wu, Alina Hyk, Kiera McCormick, Christine Ye, Simone Astarita, Elina Baral, Jo Ciuca, Jesse Cranney, Anjalie Field, Kartheik Iyer, Philipp Koehn, Jenn Kotler, Sandor Kruk, Michelle Ntampaka, Charles O'Neill, Joshua E. G. Peek, Sanjib Sharma, Mikaeel Yunus, | (参考訳) 大規模言語モデル(LLM)は科学的研究の仕方を変えつつある。
研究者はこれらのモデルとどのように相互作用し、天文学のような科学的なサブコミュニティがこれらのモデルからどのような恩恵を受けるかを理解することが不可欠である。
しかしながら、天文学におけるLLMの使用を評価する基準は今のところ存在しない。
そこで本研究では,天文学研究者がLLMとどのように相互作用するかを評価するための実験設計について述べる。
われわれは、Retrieval-Augmented Generation (RAG)を介してユーザーからの問い合わせに答えられるSlackチャットボットをデプロイした。
我々は,ユーザ質問やチャットボットの回答,LDM応答に対するユーザアップボイトとダウンボイト,LDM応答に対するユーザフィードバック,クエリによるドキュメントと類似度スコアの検索と匿名化を行う。
我々のデータ収集手法は将来の天文学のためのLLMツールの動的評価を可能にする。
Large Language Models (LLMs) are shifting how scientific research is done. It is imperative to understand how researchers interact with these models and how scientific sub-communities like astronomy might benefit from them. However, there is currently no standard for evaluating the use of LLMs in astronomy. Therefore, we present the experimental design for an evaluation study on how astronomy researchers interact with LLMs. We deploy a Slack chatbot that can answer queries from users via Retrieval-Augmented Generation (RAG); these responses are grounded in astronomy papers from arXiv. We record and anonymize user questions and chatbot answers, user upvotes and downvotes to LLM responses, user feedback to the LLM, and retrieved documents and similarity scores with the query. Our data collection method will enable future dynamic evaluations of LLM tools for astronomy. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# Lie Group Momentum Optimizersの定量的収束性
Quantitative Convergences of Lie Group Momentum Optimizers ( http://arxiv.org/abs/2405.20390v1 ) ライセンス: Link先を確認 | Lingkai Kong, Molei Tao, | (参考訳) リー群上で定義される関数を最適化する明示的で運動量に基づく力学は、変分最適化と運動量自明化によって構築することができる。
構造保存時間離散化は、このダイナミクスを最適化アルゴリズムに変換する。
本稿では,分割方式として知られたLie Heavy-Ballと,新たに提案されたLie NAG-SCの2種類の離散化について検討する。
それらの収束速度は、$L$-smoothness と局所強い凸性仮定の下で明示的に定量化される。
リー NAG-SC は運動量を持たない場合、すなわちリーマン勾配降下を加速するが、リー重ボールは加速しない。
一般多様体に対する既存の加速オプティマイザと比較して、リー・ヘビーボールとリー・NAG-SCは、群構造の利用により、計算的に安価で実装が容易である。
勾配オラクルと指数写像のみを必要とするが、計算コストのかかる対数写像や平行輸送は必要ではない。
Explicit, momentum-based dynamics that optimize functions defined on Lie groups can be constructed via variational optimization and momentum trivialization. Structure preserving time discretizations can then turn this dynamics into optimization algorithms. This article investigates two types of discretization, Lie Heavy-Ball, which is a known splitting scheme, and Lie NAG-SC, which is newly proposed. Their convergence rates are explicitly quantified under $L$-smoothness and local strong convexity assumptions. Lie NAG-SC provides acceleration over the momentumless case, i.e. Riemannian gradient descent, but Lie Heavy-Ball does not. When compared to existing accelerated optimizers for general manifolds, both Lie Heavy-Ball and Lie NAG-SC are computationally cheaper and easier to implement, thanks to their utilization of group structure. Only gradient oracle and exponential map are required, but not logarithm map or parallel transport which are computational costly. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 超解像の知覚的損失として非参照品質評価法は有効か?
Can No-Reference Quality-Assessment Methods Serve as Perceptual Losses for Super-Resolution? ( http://arxiv.org/abs/2405.20392v1 ) ライセンス: Link先を確認 | Egor Kashkarov, Egor Chistov, Ivan Molodetskikh, Dmitriy Vatolin, | (参考訳) 知覚的損失は、処理された画像やビデオの自然性や現実性を高めることによって、ディープ・ニューラル・ネットワークベースの手法を構築する上で重要な役割を果たす。
知覚的損失の使用は、フル参照方式であるLPIPSに制限されることが多い。
深い非参照画像品質評価法は人間の判断を予測するのに優れているが、損失関数の組み入れについてはほとんど研究されていない。
本稿では,非参照画像品質評価法を知覚的損失として用いたビデオ超解像モデルの直接最適化について検討する。
実験結果から,これらの手法の簡易な最適化はアーティファクトを創出するが,特別な訓練手法により軽減できることが示された。
Perceptual losses play an important role in constructing deep-neural-network-based methods by increasing the naturalness and realism of processed images and videos. Use of perceptual losses is often limited to LPIPS, a fullreference method. Even though deep no-reference image-qualityassessment methods are excellent at predicting human judgment, little research has examined their incorporation in loss functions. This paper investigates direct optimization of several video-superresolution models using no-reference image-quality-assessment methods as perceptual losses. Our experimental results show that straightforward optimization of these methods produce artifacts, but a special training procedure can mitigate them. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 不均一触媒における吸着エネルギーの説明可能なデータ駆動モデル
Explainable Data-driven Modeling of Adsorption Energy in Heterogeneous Catalysis ( http://arxiv.org/abs/2405.20397v1 ) ライセンス: Link先を確認 | Tirtha Vinchurkar, Janghoon Ock, Amir Barati Farimani, | (参考訳) 触媒工学における機械学習(ML)の普及は、触媒設計を強化するためにこれらの技術を活用することへの関心を喚起している。
本研究の目的は、機械学習技術とeXplainable AI(XAI)を統合することにより、物理に基づく研究とデータ駆動手法のギャップを埋めることである。
具体的には、ポストホックXAI分析とシンボリック回帰という2つのXAI技術を用いる。
これらの手法は吸着エネルギーと吸着剤触媒系の性質の相関を解明するのに役立つ。
Open Catalyst Dataset (OC20)のような大規模なデータセットを活用して、浅いML技術とXAI方法論を組み合わせています。
本研究は,複数の浅層機械学習技術を用いて吸着エネルギーの予測を行い,その後,特徴量の重要性,機能間相関,および吸着エネルギーの予測に対する種々の特徴値の影響について検討した。
ポストホック解析により, 吸着特性は我々のデータセットの触媒特性よりも大きな影響を及ぼすことが明らかとなった。
より高いシャプリー値に基づく上位5つの特徴は、吸着電子陰性度、吸着原子数、触媒電子陰性度、効果的な配位数、吸着分子の原子数の和である。
触媒と吸着電子陰性度の間には吸着エネルギーの予測と正の相関がある。
さらに、シンボリック回帰はSHAP分析と一致した結果をもたらす。
これは、触媒の電気陰性度の正方形が吸着エネルギーに直接比例していることを示す数学的関係を導出する。
これらの一貫した相関関係は、以前の研究で物理学に基づく方程式から導かれたものに似ている。
我々の研究は、XAIとML技術を統合する堅牢なフレームワークを確立し、OC20のような大規模なデータセットを活用して、モデル説明可能性を通じて触媒設計を強化する。
The increasing popularity of machine learning (ML) in catalysis has spurred interest in leveraging these techniques to enhance catalyst design. Our study aims to bridge the gap between physics-based studies and data-driven methodologies by integrating ML techniques with eXplainable AI (XAI). Specifically, we employ two XAI techniques: Post-hoc XAI analysis and Symbolic Regression. These techniques help us unravel the correlation between adsorption energy and the properties of the adsorbate-catalyst system. Leveraging a large dataset such as the Open Catalyst Dataset (OC20), we employ a combination of shallow ML techniques and XAI methodologies. Our investigation involves utilizing multiple shallow machine learning techniques to predict adsorption energy, followed by post-hoc analysis for feature importance, inter-feature correlations, and the influence of various feature values on the prediction of adsorption energy. The post-hoc analysis reveals that adsorbate properties exert a greater influence than catalyst properties in our dataset. The top five features based on higher Shapley values are adsorbate electronegativity, the number of adsorbate atoms, catalyst electronegativity, effective coordination number, and the sum of atomic numbers of the adsorbate molecule. There is a positive correlation between catalyst and adsorbate electronegativity with the prediction of adsorption energy. Additionally, symbolic regression yields results consistent with SHAP analysis. It deduces a mathematical relationship indicating that the square of the catalyst electronegativity is directly proportional to the adsorption energy. These consistent correlations resemble those derived from physics-based equations in previous research. Our work establishes a robust framework that integrates ML techniques with XAI, leveraging large datasets like OC20 to enhance catalyst design through model explainability. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# クラスタ化されたネットワーク情報量規準(NICc)による高速1クラスタアウトクロスバリデーション
Fast leave-one-cluster-out cross-validation by clustered Network Information Criteria (NICc) ( http://arxiv.org/abs/2405.20400v1 ) ライセンス: Link先を確認 | Jiaxing Qiu, Douglas E. Lake, Teague R. Henry, | (参考訳) 本稿では,ネットワーク情報基準(NICc)のクラスタ化推定器を導入し,クラスタ化データのモデリングにおいて,クラスタベースのクロスバリデーションの代替として利用することができる。
ストーンは、Akaike Information Criterion (AIC) がパラメトリックモデルが真であれば、観測値から外すための漸近的等価性であることを証明した。
Ripley氏は、Stoneの証明から導かれたネットワーク情報基準(NIC)は、モデルが真実でない場合には、一対一で観測するクロスバリデーションを保留するよりよい近似であると指摘した。
クラスタ化データに対しては、NIC内のFisher情報行列をクラスタ化の調整を行う推定器に置換することにより、NICのクラスタ化推定器(NICc)を導出した。
この調整は、クラスタ化されたデータのモデリングにおいて、NICの非クラスタ化推定器よりもNICcのペナルティが大きいため、オーバーフィッティングを効果的に防止する。
シミュレーション実験と実験例では, それぞれガウス応答と二項応答のクラスタ化データをモデル化するために, 線形回帰とロジスティック回帰を用いた。
AICやベイズ情報基準 (BIC) よりも, NICc は, クラスタアウトのずれを解消し, オーバーフィッティングを効果的に防ぐことができることを示した。
NICcは、AICやBICと比較してクラスタベースのクロスバリデーションによって決定されるように、より正確なモデル選択をもたらす。
This paper introduced a clustered estimator of the Network Information Criterion (NICc) to approximate leave-one-cluster-out cross-validated deviance, which can be used as an alternative to cluster-based cross-validation when modeling clustered data. Stone proved that Akaike Information Criterion (AIC) is an asymptotic equivalence to leave-one-observation-out cross-validation if the parametric model is true. Ripley pointed out that the Network Information Criterion (NIC) derived in Stone's proof, is a better approximation to leave-one-observation-out cross-validation when the model is not true. For clustered data, we derived a clustered estimator of NIC, referred to as NICc, by substituting the Fisher information matrix in NIC with its estimator that adjusts for clustering. This adjustment imposes a larger penalty in NICc than the unclustered estimator of NIC when modeling clustered data, thereby preventing overfitting more effectively. In a simulation study and an empirical example, we used linear and logistic regression to model clustered data with Gaussian or binomial response, respectively. We showed that NICc is a better approximation to leave-one-cluster-out deviance and prevents overfitting more effectively than AIC and Bayesian Information Criterion (BIC). NICc leads to more accurate model selection, as determined by cluster-based cross-validation, compared to AIC and BIC. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# XPrompt: 共同プロンプト属性による大規模言語モデル生成の解説
XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution ( http://arxiv.org/abs/2405.20404v1 ) ライセンス: Link先を確認 | Yurui Chang, Bochuan Cao, Yujia Wang, Jinghui Chen, Lu Lin, | (参考訳) LLM(Large Language Models)は複雑なテキスト生成タスクにおいて顕著なパフォーマンスを示す。
しかしながら、生成した内容に対する入力プロンプトの寄与は、入力と出力のペア間の因果関係の解明と説明の必要性を強調し、まだ人間には明らかでない。
プロンプト固有の説明を提供するための既存の作業は、しばしばモデルの出力を分類または次の単語の予測として限定する。
言語生成全体を説明しようとする最初の試みは、インプットプロンプトテキストを独立して扱うことが少なく、後続生成に対する組合せ効果を無視している。
そこで本研究では,LLMの完全生成に対して,いくつかのプロンプトテキストが協調的にどのように影響を与えるかを説明することを目的とした,共同プロンプトXPromptに基づく対実的説明フレームワークを提案する。
特に、組合せ最適化問題として、生成の帰属を帰属させるタスクを定式化し、離散空間におけるカジュアルな入力の組み合わせを探索する確率的アルゴリズムを導入する。
複数のメトリクスを定義して、生成した説明を評価し、フレームワークの忠実さと効率性を実証する。
Large Language Models (LLMs) have demonstrated impressive performances in complex text generation tasks. However, the contribution of the input prompt to the generated content still remains obscure to humans, underscoring the necessity of elucidating and explaining the causality between input and output pairs. Existing works for providing prompt-specific explanation often confine model output to be classification or next-word prediction. Few initial attempts aiming to explain the entire language generation often treat input prompt texts independently, ignoring their combinatorial effects on the follow-up generation. In this study, we introduce a counterfactual explanation framework based on joint prompt attribution, XPrompt, which aims to explain how a few prompt texts collaboratively influences the LLM's complete generation. Particularly, we formulate the task of prompt attribution for generation interpretation as a combinatorial optimization problem, and introduce a probabilistic algorithm to search for the casual input combination in the discrete space. We define and utilize multiple metrics to evaluate the produced explanations, demonstrating both faithfulness and efficiency of our framework. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 個人レベル差分プライバシを用いた個人平均推定
Private Mean Estimation with Person-Level Differential Privacy ( http://arxiv.org/abs/2405.20405v1 ) ライセンス: Link先を確認 | Sushant Agarwal, Gautam Kamath, Mahbod Majid, Argyris Mouzakis, Rose Silver, Jonathan Ullman, | (参考訳) 個人が複数のサンプルを持つ場合のDP平均推定について検討した。
一般に "user-level" という設定で呼ばれる DP では、ある人のすべてのデータポイントを修正できる場合、分散安定性という通常の概念が要求される。
インフォーマルに、$n$の人々が、有界な$k$-次モーメントを持つ未知の$d$-次元分布から$m$のサンプルを持つなら、 \[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d }{ \alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\] 国民は、$\ell_2$-norm で$\ell_2$-norm までの距離を推定するのに十分である。
多変量設定では、近似DPの下で計算効率の良いアルゴリズム(わずかに劣化したサンプル複雑性を持つ)と純粋DP下で計算効率の悪いアルゴリズムを与える。
我々の計算効率の高い推定器は、よく知られたノイズクラッピング平均法に基づいているが、我々の設定では、独立、ベクトル値、有界モードのランダム変数の和のテールの新たな境界と、クリップによって導入されたバイアスを束縛するための新しい議論が必要である。
We study differentially private (DP) mean estimation in the case where each person holds multiple samples. Commonly referred to as the "user-level" setting, DP here requires the usual notion of distributional stability when all of a person's datapoints can be modified. Informally, if $n$ people each have $m$ samples from an unknown $d$-dimensional distribution with bounded $k$-th moments, we show that \[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d }{ \alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\] people are necessary and sufficient to estimate the mean up to distance $\alpha$ in $\ell_2$-norm under $\varepsilon$-differential privacy (and its common relaxations). In the multivariate setting, we give computationally efficient algorithms under approximate DP (with slightly degraded sample complexity) and computationally inefficient algorithms under pure DP, and our nearly matching lower bounds hold for the most permissive case of approximate DP. Our computationally efficient estimators are based on the well known noisy-clipped-mean approach, but the analysis for our setting requires new bounds on the tails of sums of independent, vector-valued, bounded-moments random variables, and a new argument for bounding the bias introduced by clipping. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 畳み込みL2L流:畳み込み正規化流を用いた高粒度キャロリメータにおける高精度ショーアの生成
Convolutional L2LFlows: Generating Accurate Showers in Highly Granular Calorimeters Using Convolutional Normalizing Flows ( http://arxiv.org/abs/2405.20407v1 ) ライセンス: Link先を確認 | Thorsten Buss, Frank Gaede, Gregor Kasieczka, Claudius Krause, David Shih, | (参考訳) 規則に基づくシミュレーションの計算効率の良い代替品として生成代理モデルを構築しようとする中で、生成されたサンプルの品質は依然として重要なフロンティアである。
これまでのところ、最も忠実なモデルには正規化フローがある。
しかし、そのようなモデルにおける潜在空間はデータ空間と同じ次元を持つ必要があるため、正規化フローを高次元データセットにスケールアップすることは容易ではない。
以前のL2LFlowsアプローチでは、この問題を回避するために、一連の別個の正規化フローと条件付ステップのシーケンスをうまく利用していた。
本研究では、L2L Flowsを拡張して、横方向の9倍のプロファイルを持つシャワーをシミュレートする。
これを実現するために、畳み込み層とU-Net型接続を導入し、マスク付き自己回帰流から結合層へ移動し、IDD電磁カルロメータおよび公共カルロチャレンジデータセットのデータセット3でシャワーのモデリングに成功したことを実証する。
In the quest to build generative surrogate models as computationally efficient alternatives to rule-based simulations, the quality of the generated samples remains a crucial frontier. So far, normalizing flows have been among the models with the best fidelity. However, as the latent space in such models is required to have the same dimensionality as the data space, scaling up normalizing flows to high dimensional datasets is not straightforward. The prior L2LFlows approach successfully used a series of separate normalizing flows and sequence of conditioning steps to circumvent this problem. In this work, we extend L2LFlows to simulate showers with a 9-times larger profile in the lateral direction. To achieve this, we introduce convolutional layers and U-Net-type connections, move from masked autoregressive flows to coupling layers, and demonstrate the successful modelling of showers in the ILD Electromagnetic Calorimeter as well as Dataset 3 from the public CaloChallenge dataset. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 固定ハミング重部分空間に対する量子エンコーダ
Quantum encoder for fixed Hamming-weight subspaces ( http://arxiv.org/abs/2405.20408v1 ) ライセンス: Link先を確認 | Renato M. S. Farias, Thiago O. Maciel, Giancarlo Camilo, Ruge Lin, Sergi Ramos-Calderer, Leandro Aolita, | (参考訳) 実数または複素値のデータベクトルである$d=\binom{n}{k}$の正確な$n$-qubit計算基底振幅エンコーダを、固定ハミング重み$k$の部分空間に提示する。
これは多項式空間の圧縮を表す。
この回路は、$d-1$(制御) Reconfigurable Beam Splitter (RBS) ゲートのみを使用して任意のデータベクトルを表現し、全てのビットストリングを$k$で逐次生成し、全てのゲートパラメータを識別する効率的な古典的アルゴリズムによって構成される。
CNOT とシングルキュービットゲートへの明示的なコンパイルが提示され、総 CNOT ゲート数は $\mathcal{O}(k\, d)$ となる。
さらに、異なるハミング重みのエンコーダを$\mathcal{O}(d\,\log(d))$ CNOT ゲートで順次積み重ねることで、バイナリベースでデータをロードする方法を示す。
さらに、ハミング重みの異なる状態を混合する一般化されたRBSゲートを用いて、任意のスパースベクトルを効率的にエンコードするように構成を拡張した。
最後に,市販のトラップイオン量子コンピュータ上で,本手法の実証実験を行った。
我々は、$n = 6$と$k = 2$で非log-concave方式で$q$-Gaussian確率分布をアップロードした。
また、ハードウェアノイズの影響を量子誤差緩和によって緩和する方法について述べる。
本研究は,量子化学,量子機械学習,制約付き組合せ最適化などの分野に応用可能な量子データ圧縮のための汎用的なフレームワークを構成する。
We present an exact $n$-qubit computational-basis amplitude encoder of real- or complex-valued data vectors of $d=\binom{n}{k}$ components into a subspace of fixed Hamming weight $k$. This represents a polynomial space compression. The circuit is optimal in that it expresses an arbitrary data vector using only $d-1$ (controlled) Reconfigurable Beam Splitter (RBS) gates and is constructed by an efficient classical algorithm that sequentially generates all bitstrings of weight $k$ and identifies all gate parameters. An explicit compilation into CNOTs and single-qubit gates is presented, with the total CNOT-gate count of $\mathcal{O}(k\, d)$ provided in analytical form. In addition, we show how to load data in the binary basis by sequentially stacking encoders of different Hamming weights using $\mathcal{O}(d\,\log(d))$ CNOT gates. Moreover, using generalized RBS gates that mix states of different Hamming weights, we extend the construction to efficiently encode arbitrary sparse vectors. Finally, we perform an experimental proof-of-principle demonstration of our scheme on a commercial trapped-ion quantum computer. We successfully upload a $q$-Gaussian probability distribution in the non-log-concave regime with $n = 6$ and $k = 2$. We also showcase how the effect of hardware noise can be alleviated by quantum error mitigation. Our results constitute a versatile framework for quantum data compression with various potential applications in fields such as quantum chemistry, quantum machine learning, and constrained combinatorial optimizations. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# Seamless ExpressiveLM:Chain-of-Thoughtを用いた表現型音声音声合成のための音声モデル
SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought ( http://arxiv.org/abs/2405.20410v1 ) ライセンス: Link先を確認 | Hongyu Gong, Bandhav Veluri, | (参考訳) 表現型音声音声翻訳(S2ST)は,翻訳音声のセマンティクスと発声スタイルの保存に焦点を当てた,シームレスなコミュニケーションにおける重要な研究課題である。
初期の研究は、音声からターゲット音声へのマッピングを直接学習するために、話者スタイルのアライメント音声を合成した。
近年の研究では、スタイル整合データに頼らず、言語モデリング(LM)の進歩を活用し、意味的および音響的トークンにカスケードされたLMを構築する。
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
SeamlessExpressiveLMは、スペイン語から英語、ハンガリー語への翻訳で評価され、セマンティック・クオリティとスタイル・トランスファーの両方でLMを上回り、パラメータ効率は向上した。
Expressive speech-to-speech translation (S2ST) is a key research topic in seamless communication, which focuses on the preservation of semantics and speaker vocal style in translated speech. Early works synthesized speaker style aligned speech in order to directly learn the mapping from speech to target speech spectrogram. Without reliance on style aligned data, recent studies leverage the advances of language modeling (LM) and build cascaded LMs on semantic and acoustic tokens. This work proposes SeamlessExpressiveLM, a single speech language model for expressive S2ST. We decompose the complex source-to-target speech mapping into intermediate generation steps with chain-of-thought prompting. The model is first guided to translate target semantic content and then transfer the speaker style to multi-stream acoustic units. Evaluated on Spanish-to-English and Hungarian-to-English translations, SeamlessExpressiveLM outperforms cascaded LMs in both semantic quality and style transfer, meanwhile achieving better parameter efficiency. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# Audio2Rig: 顔のアニメーションのためのアーティスト指向のディープラーニングツール
Audio2Rig: Artist-oriented deep learning tool for facial animation ( http://arxiv.org/abs/2405.20412v1 ) ライセンス: Link先を確認 | Bastien Arcelin, Nicolas Chaverou, | (参考訳) リアルでスタイリッシュな顔と唇のシンクアニメーションを作るのは面倒な作業だ。
唇をオーディオと同期させ、正しい感情をキャラクターの顔に伝えるには、多くの時間とスキルが必要です。
アニメーションの芸術的かつ創造的な部分にアニメーターがより多くの時間を費やすことを可能にするために、我々はAudio2Rigという新しいディープラーニングベースのツールを紹介した。
マヤに拠点を置き、調整なしにあらゆるプロダクション・リグから学び、ショーのスタイルを模倣した高品質でスタイル化されたアニメーションを生成する。
Audio2Rigはアニメーターのワークフローに適合する: rigコントローラのキーを生成するので、アニメーションを簡単に取り込むことができる。
この手法は、3つのニューラルネットワークモジュールに基づいており、任意の数のコントローラを学習することができる。
したがって、顔の特定の部分(舌、唇、目など)に対して異なる構成をすることができる。
Audio2Rigを使用すると、アニメーターは異なる感情を選択し、出力を実験したりカスタマイズしたりするためにその強度を調整することができ、キーフレームの設定に対して高いレベルのコントロールを持つことができる。
提案手法は優れた結果を示し,番組スタイルを尊重しながら細かなアニメーションの細部を生成する。
最後に、トレーニングはスタジオのデータに依存し、内部で行われるため、データのプライバシが保証され、著作権侵害が防止される。
Creating realistic or stylized facial and lip sync animation is a tedious task. It requires lot of time and skills to sync the lips with audio and convey the right emotion to the character's face. To allow animators to spend more time on the artistic and creative part of the animation, we present Audio2Rig: a new deep learning based tool leveraging previously animated sequences of a show, to generate facial and lip sync rig animation from an audio file. Based in Maya, it learns from any production rig without any adjustment and generates high quality and stylized animations which mimic the style of the show. Audio2Rig fits in the animator workflow: since it generates keys on the rig controllers, the animation can be easily retaken. The method is based on 3 neural network modules which can learn an arbitrary number of controllers. Hence, different configurations can be created for specific parts of the face (such as the tongue, lips or eyes). With Audio2Rig, animators can also pick different emotions and adjust their intensities to experiment or customize the output, and have high level controls on the keyframes setting. Our method shows excellent results, generating fine animation details while respecting the show style. Finally, as the training relies on the studio data and is done internally, it ensures data privacy and prevents from copyright infringement. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# 暗号文字によるモデレーションガードレールに対する大規模言語モデルの脱獄
Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters ( http://arxiv.org/abs/2405.20413v1 ) ライセンス: Link先を確認 | Haibo Jin, Andy Zhou, Joe D. Menke, Haohan Wang, | (参考訳) 大規模言語モデル(LLM)は、通常無害であるが、保護措置を回避し有害な振る舞いを誘発する'jailbreaks'と呼ばれる、慎重に構築されたプロンプトに弱いままである。
LLMの最近の進歩には、特定の悪意のある質問に対する処理エラーを引き起こす出力をフィルタリングできるモデレーションガードレールが組み込まれている。
既存のレッドチームベンチマークでは、モデレーションガードレールをトリガーする質問を含めることを無視することが多く、ジェイルブレイクの有効性を評価するのが困難である。
JAMBenchは、モデレーションガードレールをトリガーし、評価するために設計された有害な行動ベンチマークである。
JAMBenchは、複数の重度レベルで4つの主要なリスクカテゴリをカバーする、160の手作業による指示を含んでいる。
さらに,入力レベルフィルタをバイパスするためにjailbreakプレフィックスを用いてモデレーションガードレールを攻撃するために設計されたJAM(Jailbreak Against Moderation)手法と,出力レベルフィルタをバイパスするために暗号文字を生成するガードレールモデルと機能的に等価な微調整シャドウモデルを提案する。
4つのLCMに関する大規模な実験は、JAMがベースラインよりも高いジェイルブレイク($\sim$$\times$ 19.88)と低いフィルタアウト($\sim$$\times$ 1/6)を達成することを示した。
Large Language Models (LLMs) are typically harmless but remain vulnerable to carefully crafted prompts known as ``jailbreaks'', which can bypass protective measures and induce harmful behavior. Recent advancements in LLMs have incorporated moderation guardrails that can filter outputs, which trigger processing errors for certain malicious questions. Existing red-teaming benchmarks often neglect to include questions that trigger moderation guardrails, making it difficult to evaluate jailbreak effectiveness. To address this issue, we introduce JAMBench, a harmful behavior benchmark designed to trigger and evaluate moderation guardrails. JAMBench involves 160 manually crafted instructions covering four major risk categories at multiple severity levels. Furthermore, we propose a jailbreak method, JAM (Jailbreak Against Moderation), designed to attack moderation guardrails using jailbreak prefixes to bypass input-level filters and a fine-tuned shadow model functionally equivalent to the guardrail model to generate cipher characters to bypass output-level filters. Our extensive experiments on four LLMs demonstrate that JAM achieves higher jailbreak success ($\sim$ $\times$ 19.88) and lower filtered-out rates ($\sim$ $\times$ 1/6) than baselines. | 翻訳日:2024-06-03 18:34:31 公開日:2024-05-30 |
# オントロジーが心血管疾患の予測に及ぼす影響 : 機械学習アルゴリズムとの比較
The Impact of Ontology on the Prediction of Cardiovascular Disease Compared to Machine Learning Algorithms ( http://arxiv.org/abs/2405.20414v1 ) ライセンス: Link先を確認 | Hakim El Massari, Noreddine Gherabi, Sajida Mhammedi, Hamza Ghandi, Mohamed Bahaj, Muhammad Raza Naqvi, | (参考訳) 心血管疾患は慢性疾患の1つである。
合併症は、心血管疾患が早期に発見されず、適切なタイミングで正しく診断されない場合に発生する。
オントロジーに基づく機械学習技術を含む、さまざまな機械学習アプローチが、心臓病を識別する自動化システムを構築することで、医学において重要な役割を担っている。
本稿では、オントロジーに基づく機械学習分類と同様に、最も顕著な機械学習アルゴリズムを比較し、レビューする。
ランダムフォレスト,ロジスティック回帰,決定木,ナイーブベイズ,k-Nearest Neighbours,人工ニューラルネットワーク,サポートベクトルマシンなどが探索された。
使用されるデータセットは70000のインスタンスで構成され、KaggleのWebサイトからダウンロードできる。
これらの結果は, F-Measure, Accuracy, Recall, Precision などの混乱行列から生成された評価値を用いて評価した。
その結果、オントロジーはすべての機械学習アルゴリズムより優れていた。
Cardiovascular disease is one of the chronic diseases that is on the rise. The complications occur when cardiovascular disease is not discovered early and correctly diagnosed at the right time. Various machine learning approaches, including ontology-based Machine Learning techniques, have lately played an essential role in medical science by building an automated system that can identify heart illness. This paper compares and reviews the most prominent machine learning algorithms, as well as ontology-based Machine Learning classification. Random Forest, Logistic regression, Decision Tree, Naive Bayes, k-Nearest Neighbours, Artificial Neural Network, and Support Vector Machine were among the classification methods explored. The dataset used consists of 70000 instances and can be downloaded from the Kaggle website. The findings are assessed using performance measures generated from the confusion matrix, such as F-Measure, Accuracy, Recall, and Precision. The results showed that the ontology outperformed all the machine learning algorithms. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# 優れた特徴表現のための自然言語アプローチによる抗生物質処理の強化
Enhancing Antibiotic Stewardship using a Natural Language Approach for Better Feature Representation ( http://arxiv.org/abs/2405.20419v1 ) ライセンス: Link先を確認 | Simon A. Lee, Trevor Brokowski, Jeffrey N. Chiang, | (参考訳) 抗生物質耐性菌の急速な出現は、世界的な医療危機として認識され、生命維持抗生物質の有効性を損なう。
この危機は、細菌の抵抗をエスカレートする抗生物質の不適切な使用と過剰使用によって引き起こされる。
本研究は,EHR(Electronic Health Records)の統合により強化された臨床意思決定支援システムを用いて,抗生物質のスチュワードシップを改善することを目的とした。
しかし、EHRシステムはデータの効率的な合成と利用を複雑にし、多くのデータレベルの課題を提示している。
本研究では,ERHデータをシリアライズされたテキスト表現に変換し,この拡張された特徴表現が抗生物質感受性予測にどのように役立つかを実証するために,事前訓練された基礎モデルを用いる。
以上の結果から,本テキスト表現と基礎モデルが組み合わさって,解釈可能性を高め,抗生物質のスチュワードシップ活動を支援する貴重なツールであることが示唆された。
The rapid emergence of antibiotic-resistant bacteria is recognized as a global healthcare crisis, undermining the efficacy of life-saving antibiotics. This crisis is driven by the improper and overuse of antibiotics, which escalates bacterial resistance. In response, this study explores the use of clinical decision support systems, enhanced through the integration of electronic health records (EHRs), to improve antibiotic stewardship. However, EHR systems present numerous data-level challenges, complicating the effective synthesis and utilization of data. In this work, we transform EHR data into a serialized textual representation and employ pretrained foundation models to demonstrate how this enhanced feature representation can aid in antibiotic susceptibility predictions. Our results suggest that this text representation, combined with foundation models, provides a valuable tool to increase interpretability and support antibiotic stewardship efforts. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# 伝達性能予測の基礎
Back to the Basics on Predicting Transfer Performance ( http://arxiv.org/abs/2405.20420v1 ) ライセンス: Link先を確認 | Levy Chaves, Eduardo Valle, Alceu Bissoto, Sandra Avila, | (参考訳) ディープラーニングの進化する状況では、多くの選択肢から最高の事前学習モデルを選択することが難しい。
トランスファービリティスコアラーは、このシナリオを緩和することを提案するが、彼らの最近の増殖は皮肉にも、彼ら自身の評価の難しさを招いている。
本研究では、転送可能性スコアリングのための頑健なベンチマークガイドラインと、複数のスコアリングを組み合わせるためのしっかりとした手法の両方を提案し、その結果を一貫して改善することを示す。
総括的,微粒化,医用画像的データセットを含む11データセットの文献から13スコアを広範囲に評価した。
ImageNetの単純な生測値の予測性能にマッチするスコアがほとんどなく、全ての予測器が医療データセットに苦しむことを示す。
この結果から,異なる情報ソースを組み合わせることで,様々な領域間での転送可能性の確実な予測が可能となる可能性が示唆された。
In the evolving landscape of deep learning, selecting the best pre-trained models from a growing number of choices is a challenge. Transferability scorers propose alleviating this scenario, but their recent proliferation, ironically, poses the challenge of their own assessment. In this work, we propose both robust benchmark guidelines for transferability scorers, and a well-founded technique to combine multiple scorers, which we show consistently improves their results. We extensively evaluate 13 scorers from literature across 11 datasets, comprising generalist, fine-grained, and medical imaging datasets. We show that few scorers match the predictive performance of the simple raw metric of models on ImageNet, and that all predictors suffer on medical datasets. Our results highlight the potential of combining different information sources for reliably predicting transferability across varied domains. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# ランダムよりも悪いか? 医療用VQAにおける大規模マルチモーダルモデルの恥ずかしいほど単純な検証
Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA ( http://arxiv.org/abs/2405.20421v1 ) ライセンス: Link先を確認 | Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang, | (参考訳) 大規模マルチモーダルモデル(LMM)は医用視覚質問応答(Med-VQA)の分野で顕著な進歩を示し、既存のベンチマークで高い精度を実現している。
しかし、頑健な評価下での信頼性は疑わしい。
本研究は, 医学的診断問題に対するランダムな推測よりも, 簡易な探索評価を前提とした最先端モデルの方が, 精度が低いことを明らかにした。
この批判的評価問題に対処するため,医用画像のLMM性能を探索的評価と手続き的診断により厳格に評価するProbMed(ProbMed)データセットを導入した。
特に、プロシージャ診断には、モダリティ認識、臓器の同定、臨床所見、異常、位置的接地など、各画像の様々な診断次元の推論が必要である。
評価の結果,GPT-4VやGemini Proのようなトップパフォーマンスモデルでは,専門的な診断質問に対するランダムな推測よりもパフォーマンスが悪く,細粒度医療問合せの処理に重大な制限があることが示唆された。
さらに、LLaVA-Medのようなモデルは、より一般的な疑問に苦しむとともに、CheXagentの結果は、同じ臓器の異なるモダリティをまたいだ専門知識の伝達可能性を示している。
本研究は, 医療診断などの重要な分野におけるLMMの信頼性を確保するために, より堅牢な評価の必要性を浮き彫りにするものである。
Large Multimodal Models (LMMs) have shown remarkable progress in the field of medical Visual Question Answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust evaluation is questionable. This study reveals that state-of-the-art models, when subjected to simple probing evaluation, perform worse than random guessing on medical diagnosis questions. To address this critical evaluation problem, we introduce the Probing Evaluation for Medical Diagnosis (ProbMed) dataset to rigorously assess LMM performance in medical imaging through probing evaluation and procedural diagnosis. Particularly, probing evaluation features pairing original questions with negation questions with hallucinated attributes, while procedural diagnosis requires reasoning across various diagnostic dimensions for each image, including modality recognition, organ identification, clinical findings, abnormalities, and positional grounding. Our evaluation reveals that top-performing models like GPT-4V and Gemini Pro perform worse than random guessing on specialized diagnostic questions, indicating significant limitations in handling fine-grained medical inquiries. Besides, models like LLaVA-Med struggle even with more general questions, and results from CheXagent demonstrate the transferability of expertise across different modalities of the same organ, showing that specialized domain knowledge is still crucial for improving performance. This study underscores the urgent need for more robust evaluation to ensure the reliability of LMMs in critical fields like medical diagnosis, and current LMMs are still far from applicable to those fields. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# フェデレート・ラーニング・セッティングにおけるデータ正規化による高不均衡医療データの性能向上
Enhancing Performance for Highly Imbalanced Medical Data via Data Regularization in a Federated Learning Setting ( http://arxiv.org/abs/2405.20430v1 ) ライセンス: Link先を確認 | Georgios Tsoumplekas, Ilias Siniosoglou, Vasileios Argyriou, Ioannis D. Moscholios, Panagiotis Sarigiannidis, | (参考訳) 医療データの可用性の向上は、さまざまなインスタンスで機械学習/ディープラーニングアプローチの適用を可能にすることで、医療に大きな影響を与えている。
しかし、医療データセットは通常小さく、複数のプロバイダに分散しており、高いクラス不均衡に悩まされており、データプライバシの制約が厳しい。
本稿では,高クラス不均衡下での学習に適したデータ正規化アルゴリズムをフェデレート学習環境に適用することを提案する。
具体的には、この目的のために使用されるデータセットを特徴付けるクラス不均衡に対処し、プライバシを損なうことなく、フェデレートされた生態系の異なるノードで利用可能な患者データを活用し、よりリソースに敏感なアロケーションを可能にすることで、心血管疾患予測のためのモデルパフォーマンスを向上させることを目的とする。
本手法は, 心血管疾患予測のための4つのデータセットにまたがって評価され, 異なるクライアントに分散し, 性能が向上した。
一方、様々なハイパーパラメータ設定下での堅牢性と、異なるリソース割り当てシナリオに適応する能力が検証されている。
The increased availability of medical data has significantly impacted healthcare by enabling the application of machine / deep learning approaches in various instances. However, medical datasets are usually small and scattered across multiple providers, suffer from high class-imbalance, and are subject to stringent data privacy constraints. In this paper, the application of a data regularization algorithm, suitable for learning under high class-imbalance, in a federated learning setting is proposed. Specifically, the goal of the proposed method is to enhance model performance for cardiovascular disease prediction by tackling the class-imbalance that typically characterizes datasets used for this purpose, as well as by leveraging patient data available in different nodes of a federated ecosystem without compromising their privacy and enabling more resource sensitive allocation. The method is evaluated across four datasets for cardiovascular disease prediction, which are scattered across different clients, achieving improved performance. Meanwhile, its robustness under various hyperparameter settings, as well as its ability to adapt to different resource allocation scenarios, is verified. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# フェデレートラーニングの実践性を探る:コミュニケーションの視点をめざして
Exploring the Practicality of Federated Learning: A Survey Towards the Communication Perspective ( http://arxiv.org/abs/2405.20431v1 ) ライセンス: Link先を確認 | Khiem Le, Nhan Luong-Ha, Manh Nguyen-Duc, Danh Le-Phuoc, Cuong Do, Kok-Seng Wong, | (参考訳) フェデレートラーニング(FL)は、データを集中化せずに分散デバイス間でモデルの協調トレーニングを可能にすることにより、プライバシ保護、分散機械学習の大幅な進歩を提供する、有望なパラダイムである。
しかし、FLシステムの実践的な展開は、多数のデバイスと中央サーバの間で大規模なモデル更新を頻繁に交換することによる通信オーバーヘッドという、重大なボトルネックに直面している。
この通信非効率は、トレーニング速度、モデル性能、および現実世界のFLアプリケーションの全体的な実現可能性を妨げる可能性がある。
本研究では,通信効率の高いFLにおける様々な戦略と進歩について検討し,FLシステムに固有の通信課題に対するその影響と可能性を明らかにする。
具体的には、通信効率の指標を定義し、FLシステムにおける通信効率の源泉を解析し、最先端の通信効率のFL手法の分類学的および包括的レビューを行う。
さらに,FLシステムの通信効率向上に向けた今後の研究の方向性についても論じる。
通信ボトルネックに対処することにより、FLを効果的に適用し、IoTやヘルスケア、ファイナンスといった、プライバシ保護、分散機械学習を必要とするさまざまなアプリケーションにまたがる、スケーラブルで実用的なデプロイメントを可能にする。
Federated Learning (FL) is a promising paradigm that offers significant advancements in privacy-preserving, decentralized machine learning by enabling collaborative training of models across distributed devices without centralizing data. However, the practical deployment of FL systems faces a significant bottleneck: the communication overhead caused by frequently exchanging large model updates between numerous devices and a central server. This communication inefficiency can hinder training speed, model performance, and the overall feasibility of real-world FL applications. In this survey, we investigate various strategies and advancements made in communication-efficient FL, highlighting their impact and potential to overcome the communication challenges inherent in FL systems. Specifically, we define measures for communication efficiency, analyze sources of communication inefficiency in FL systems, and provide a taxonomy and comprehensive review of state-of-the-art communication-efficient FL methods. Additionally, we discuss promising future research directions for enhancing the communication efficiency of FL systems. By addressing the communication bottleneck, FL can be effectively applied and enable scalable and practical deployment across diverse applications that require privacy-preserving, decentralized machine learning, such as IoT, healthcare, or finance. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# ファクチュアリティスコアとソース属性による人間-LLMコラボレーションのファシリテート
Facilitating Human-LLM Collaboration through Factuality Scores and Source Attributions ( http://arxiv.org/abs/2405.20434v1 ) ライセンス: Link先を確認 | Hyo Jin Do, Rachel Ostrand, Justin D. Weisz, Casey Dugan, Prasanna Sattigeri, Dennis Wei, Keerthiram Murugesan, Werner Geyer, | (参考訳) 人間は大規模言語モデル(LLM)にますます依存するが、不正確な情報や偽の情報("hallucinations"としても知られる)を発生させる可能性がある。
モデル応答の事実性を評価し、それらの応答のセクションを特定のソース文書に関連付けることによって、幻覚コンテンツを検出するアルゴリズムで技術的進歩がなされている。
しかし, LLMに対する信頼度を適切に調整する上で, 利用者に効果的に情報を伝える方法については, 限定的な研究がなされている。
この課題に対処するため,我々は,事実性や情報源の属性を伝達する様々なデザイン戦略が参加者の信頼度,嗜好,応答精度の検証に与える影響を体系的に比較するシナリオベース研究(N=104)を行った。
実験の結果,回答に含まれるフレーズを実感スコアに基づいて色分けしたデザインが好まれていた。
さらに,資料の関連部分が強調表示された場合や,それらの資料に対応する基準番号が付加された場合の信頼度は,資料に注釈が記載されていない場合と比較して上昇した。
本研究は、人間とLLMのコラボレーションを促進するための実用的な設計ガイドラインを提供し、LLM出力の使用を慎重に評価し、責任を負う新しい人間の役割を促進する。
While humans increasingly rely on large language models (LLMs), they are susceptible to generating inaccurate or false information, also known as "hallucinations". Technical advancements have been made in algorithms that detect hallucinated content by assessing the factuality of the model's responses and attributing sections of those responses to specific source documents. However, there is limited research on how to effectively communicate this information to users in ways that will help them appropriately calibrate their trust toward LLMs. To address this issue, we conducted a scenario-based study (N=104) to systematically compare the impact of various design strategies for communicating factuality and source attribution on participants' ratings of trust, preferences, and ease in validating response accuracy. Our findings reveal that participants preferred a design in which phrases within a response were color-coded based on the computed factuality scores. Additionally, participants increased their trust ratings when relevant sections of the source material were highlighted or responses were annotated with reference numbers corresponding to those sources, compared to when they received no annotation in the source material. Our study offers practical design guidelines to facilitate human-LLM collaboration and it promotes a new human role to carefully evaluate and take responsibility for their use of LLM outputs. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# マルコフ連鎖の収束率の深層学習
Deep Learning for Computing Convergence Rates of Markov Chains ( http://arxiv.org/abs/2405.20435v1 ) ライセンス: Link先を確認 | Yanlin Qu, Jose Blanchet, Peter Glynn, | (参考訳) 一般状態空間のマルコフ連鎖に対する収束速度解析は、マルコフ連鎖モンテカルロやアルゴリズム解析(明示的な収束境界の計算)のような領域において本質的に重要である。
しかし、従来の解析手法では、現実的なマルコフ連鎖に対して実用的に有用な収束境界を生成できないことが知られている。
We propose the Deep Contractive Drift Calculator (DCDC) was proposed the first general-purpose sample-based algorithm for boundnce of Markov chains to stationarity in Wasserstein distance。
DCDCには2つのコンポーネントがある。
まず、(Qu et.al, 2023) の新たな収束解析フレームワークに着想を得て、契約ドリフト方程式(CDE: Contractive Drift Equation)を導入する。
第2に、ニューラルネットワークに基づく効率的なCDEソルバを開発する。
これら2つの成分を組み込んだ DCDC は CDE を解き、解を収束境界に変換する。
確率的処理ネットワークから生じる現実的マルコフ連鎖の収束境界と,一定のステップサイズの確率的最適化を生成することで,アルゴリズムのサンプル複雑性を分析し,さらにDCDCの有効性を実証する。
Convergence rate analysis for general state-space Markov chains is fundamentally important in areas such as Markov chain Monte Carlo and algorithmic analysis (for computing explicit convergence bounds). This problem, however, is notoriously difficult because traditional analytical methods often do not generate practically useful convergence bounds for realistic Markov chains. We propose the Deep Contractive Drift Calculator (DCDC), the first general-purpose sample-based algorithm for bounding the convergence of Markov chains to stationarity in Wasserstein distance. The DCDC has two components. First, inspired by the new convergence analysis framework in (Qu et.al, 2023), we introduce the Contractive Drift Equation (CDE), the solution of which leads to an explicit convergence bound. Second, we develop an efficient neural-network-based CDE solver. Equipped with these two components, DCDC solves the CDE and converts the solution into a convergence bound. We analyze the sample complexity of the algorithm and further demonstrate the effectiveness of the DCDC by generating convergence bounds for realistic Markov chains arising from stochastic processing networks as well as constant step-size stochastic optimization. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# D-Wave's {\tt Advantage} 量子アニールの3成分系ニュートリノ振動
Three-flavor Collective Neutrino Oscillations on D-Wave's {\tt Advantage} Quantum Annealer ( http://arxiv.org/abs/2405.20436v1 ) ライセンス: Link先を確認 | Ivan A. Chernyshev, | (参考訳) 核崩壊型超新星、中性子星の融合、初期の宇宙のような極端な環境では、ニュートリノは密度が高く、自己相互作用が支配的でないとしても、そのフレーバーのダイナミクスに大きな影響を及ぼす。
得られた量子エンタングルメントを特徴づける技術を開発するために,D-Wave Inc. の 5000+ qubit 量子アニーラー上で行った,3つの物理ニュートリノフレーバーを含むディラックニュートリノ-ニュートリノ相互作用のシミュレーション結果を示す。
これらの結果は、ディラックニュートリノ-ニュートリノ相互作用とニュートリノ-ニュートリノ相互作用とマヨラナニュートリノ-ニュートリノ相互作用を比較するためにも用いられる、正確な古典的なシミュレーションによるものである。
D-Wave {\tt Advantage} アナネラは、少数のニュートリノに対して古典機械の精度で時間進化を再現でき、トロッター誤差を伴わない。
しかし、クォービット数ではニュートリノの数が不足している。
キュービットスケーリングを改善するための2つのアプローチについて論じるが、そのうちの1つだけが有望であることを示している。
In extreme environments such as core-collapse supernovae, neutron-star mergers, and the early Universe, neutrinos are dense enough that their self-interactions significantly affect, if not dominate, their flavor dynamics. In order to develop techniques for characterizing the resulting quantum entanglement, I present the results of simulations of Dirac neutrino-neutrino interactions that include all three physical neutrino flavors and were performed on D-Wave Inc.'s {\tt Advantage} 5000+ qubit quantum annealer. These results are checked against those from exact classical simulations, which are also used to compare the Dirac neutrino-neutrino interactions to neutrino-antineutrino and Majorana neutrino-neutrino interactions. The D-Wave {\tt Advantage} annealer is shown to be able to reproduce time evolution with the precision of a classical machine for small number of neutrinos and to do so without Trotter errors. However, it suffers from poor scaling in qubit-count with the number of neutrinos. Two approaches to improving the qubit-scaling are discussed, but only one of the two shows promise. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# シャープネスを意識した最小化はバランス学習による特徴品質を高める
Sharpness-Aware Minimization Enhances Feature Quality via Balanced Learning ( http://arxiv.org/abs/2405.20439v1 ) ライセンス: Link先を確認 | Jacob Mitchell Springer, Vaishnavh Nagarajan, Aditi Raghunathan, | (参考訳) シャープネス・アウェアの最小化 (SAM) は確率勾配降下 (SGD) に対して有望な代替手段として登場した。
SAMの背後にある元々の動機は、ニューラルネットワークをより一般化すると考えられるより平坦なミニマに偏見を向けることであった。
しかし、最近の研究では平坦性と一般化の関係について矛盾する証拠が示されており、平坦性はSAMの成功を完全に説明していることを示している。
この議論の傍ら、SAMの直交効果が配布外利益をもたらすことを特定し、SAMは多様な特徴の質を暗黙的にバランスさせていると論じる。
SAMは、十分に学習された特徴を適応的に抑制することで、この効果を達成する。
このメカニズムは、SGDが単純さのバイアスに陥り、他のすべての利用可能な機能を学習しない冗長な、あるいは刺激的な特徴を含むデータセットで有用であることを示す。
SAMは、CelebA、Waterbirds、CIFAR-MNIST、DomainBedなど、冗長またはスパイラルな特徴を含むデータセットの機能の品質を改善することを実証しています。
Sharpness-Aware Minimization (SAM) has emerged as a promising alternative optimizer to stochastic gradient descent (SGD). The originally-proposed motivation behind SAM was to bias neural networks towards flatter minima that are believed to generalize better. However, recent studies have shown conflicting evidence on the relationship between flatness and generalization, suggesting that flatness does fully explain SAM's success. Sidestepping this debate, we identify an orthogonal effect of SAM that is beneficial out-of-distribution: we argue that SAM implicitly balances the quality of diverse features. SAM achieves this effect by adaptively suppressing well-learned features which gives remaining features opportunity to be learned. We show that this mechanism is beneficial in datasets that contain redundant or spurious features where SGD falls for the simplicity bias and would not otherwise learn all available features. Our insights are supported by experiments on real data: we demonstrate that SAM improves the quality of features in datasets containing redundant or spurious features, including CelebA, Waterbirds, CIFAR-MNIST, and DomainBed. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# SECURE: サイバーセキュリティアドバイザリのための生成可能な大規模言語モデルのベンチマーク
SECURE: Benchmarking Generative Large Language Models for Cybersecurity Advisory ( http://arxiv.org/abs/2405.20441v1 ) ライセンス: Link先を確認 | Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Nidhi Rastogi, | (参考訳) 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
既存のベンチマークは、一般的な評価を提供するが、サイバーセキュリティ固有のタスクにおけるLLMのパフォーマンスの実践的および応用的な側面に十分対応していない。
このギャップに対処するために、現実的なサイバーセキュリティシナリオにおいてLLMのパフォーマンスを評価するために設計されたSECURE(Security extract, Understanding \& Reasoning Evaluation)を導入する。
SECUREには、業界標準ソースに基づいた知識抽出、理解、推論を評価するために、産業制御システム分野に焦点を当てた6つのデータセットが含まれている。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈における長所と短所についての洞察を提供し、サイバーアドバイザリーツールとしてLCMの信頼性を向上させるための推奨事項を提供する。
Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# P-MSDiff:リモートセンシング画像分割のための並列多スケール拡散
P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation ( http://arxiv.org/abs/2405.20443v1 ) ライセンス: Link先を確認 | Qi Zhang, Guohua Geng, Longquan Yan, Pengbo Zhou, Zhaodi Li, Kang Li, Qinglin Liu, | (参考訳) 拡散モデルとマルチスケール機能は、リモートセンシング画像を扱うセマンティックセグメンテーションタスクにおいて必須のコンポーネントである。
セグメンテーション境界の改善に寄与し、重要なコンテキスト情報を提供する。
U-netのようなアーキテクチャは、分割タスクの拡散モデルによく使用される。
これらのアーキテクチャ設計には、中間的特徴の解釈に困難をもたらす可能性のある、密集したスキップ接続が含まれる。
したがって、エンコーダ・デコーダアーキテクチャの様々な層で意味情報を効率的に伝達することはできない。
これらの課題に対処するために、並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
このモデルは並列多スケール拡散モジュール(P-MSDiff)とクロスブリッジ線形注意機構(CBLA)から構成される。
P-MSDiffは、複数のレベルの粒度にわたる意味情報の理解を強化し、再帰的分枝の統合を通じて反復的な分布データを検出する。
さらに、関連するブランチをプライマリフレームワークに接続することで、データのアマルガミエーションを促進し、コンカレントな denoising を可能にする。
さらに、相互接続型トランスアーキテクチャでは、LAモジュールはCBLAモジュールに置き換えられている。
このモジュールは、クエリにリンクされた半定値行列を、キーと値のドット積計算に統合する。
この統合により、LAフレームワーク内のクエリの適応が可能になる。
この調整により、マルチヘッドアテンション計算の構造が強化され、ネットワーク性能が向上し、CBLAはプラグアンドプレイモジュールである。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいてJ1測定値に基づいて、優れたパフォーマンスを示し、それぞれ強力なベースラインモデルよりも1.60%と1.40%の改善を示している。
Diffusion models and multi-scale features are essential components in semantic segmentation tasks that deal with remote-sensing images. They contribute to improved segmentation boundaries and offer significant contextual information. U-net-like architectures are frequently employed in diffusion models for segmentation tasks. These architectural designs include dense skip connections that may pose challenges for interpreting intermediate features. Consequently, they might not efficiently convey semantic information throughout various layers of the encoder-decoder architecture. To address these challenges, we propose a new model for semantic segmentation known as the diffusion model with parallel multi-scale branches. This model consists of Parallel Multiscale Diffusion modules (P-MSDiff) and a Cross-Bridge Linear Attention mechanism (CBLA). P-MSDiff enhances the understanding of semantic information across multiple levels of granularity and detects repetitive distribution data through the integration of recursive denoising branches. It further facilitates the amalgamation of data by connecting relevant branches to the primary framework to enable concurrent denoising. Furthermore, within the interconnected transformer architecture, the LA module has been substituted with the CBLA module. This module integrates a semidefinite matrix linked to the query into the dot product computation of keys and values. This integration enables the adaptation of queries within the LA framework. This adjustment enhances the structure for multi-head attention computation, leading to enhanced network performance and CBLA is a plug-and-play module. Our model demonstrates superior performance based on the J1 metric on both the UAVid and Vaihingen Building datasets, showing improvements of 1.60% and 1.40% over strong baseline models, respectively. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# GraphAny:任意のグラフ上のノード分類のための基礎モデル
GraphAny: A Foundation Model for Node Classification on Any Graph ( http://arxiv.org/abs/2405.20445v1 ) ライセンス: Link先を確認 | Jianan Zhao, Hesham Mostafa, Michael Galkin, Michael Bronstein, Zhaocheng Zhu, Jian Tang, | (参考訳) 特定のトレーニングを必要とせずに新しいタスクで推論を実行できるファンデーションモデルは、視覚と言語アプリケーションにおける機械学習に革命をもたらした。
しかし、グラフ構造データを含むアプリケーションは、各グラフに関連付けられたユニークな特徴空間とラベル空間の難しさのため、基礎モデルにとって依然として困難である。
グラフでトレーニングされたグラフニューラルネットワーク(GNN)のような従来のグラフMLモデルは、トレーニングしたものとは異なる特徴とラベル空間を持つ新しいグラフで推論を行うことはできない。
さらに、既存のモデルはトレーニンググラフに固有の関数を学習し、新しいグラフに一般化することができない。
本研究では,この2つの課題に,GraphAnyと呼ばれる帰納的ノード分類のための新しい基礎的アーキテクチャで対処する。
GraphAnyは、LinearGNNの分析ソリューションとして、新しいグラフ上での推論をモデル化することで、最初の課題を解決する。
第2の課題を解決するために、各ノードの注意スコアを学習し、複数のLinearGNNの予測を融合する。
具体的には、注目モジュールを複数のLinearGNN間のエントロピー正規化距離関数として注意深くパラメータ化し、新しいグラフへの一般化を保証する。
実証的に、わずか120のラベル付きノードを持つウィスコンシンデータセットでトレーニングされたGraphAnyは、インダクティブな平均精度67.26\%の30の新しいグラフを効果的に一般化することができ、監督体制でトレーニングされたGCNやGAT、その他のインダクティブベースラインを上回る。
Foundation models that can perform inference on any new task without requiring specific training have revolutionized machine learning in vision and language applications. However, applications involving graph-structured data remain a tough nut for foundation models, due to challenges in the unique feature- and label spaces associated with each graph. Traditional graph ML models such as graph neural networks (GNNs) trained on graphs cannot perform inference on a new graph with feature and label spaces different from the training ones. Furthermore, existing models learn functions specific to the training graph and cannot generalize to new graphs. In this work, we tackle these two challenges with a new foundational architecture for inductive node classification named GraphAny. GraphAny models inference on a new graph as an analytical solution to a LinearGNN, thereby solving the first challenge. To solve the second challenge, we learn attention scores for each node to fuse the predictions of multiple LinearGNNs. Specifically, the attention module is carefully parameterized as a function of the entropy-normalized distance-features between multiple LinearGNNs predictions to ensure generalization to new graphs. Empirically, GraphAny trained on the Wisconsin dataset with only 120 labeled nodes can effectively generalize to 30 new graphs with an average accuracy of 67.26\% in an inductive manner, surpassing GCN and GAT trained in the supervised regime, as well as other inductive baselines. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# 私のデータは検索データベースにあるか? : 検索世代に対する会員推測攻撃
Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation ( http://arxiv.org/abs/2405.20446v1 ) ライセンス: Link先を確認 | Maya Anderson, Guy Amit, Abigail Goldsteen, | (参考訳) Retrieval Augmented Generation (RAG) システムは自然言語処理において大きな可能性を秘めている。
しかし、プロプライエタリまたはセンシティブな情報を含む検索データベースに格納されたデータへの依存は、新たなプライバシー上の懸念をもたらす。
具体的には、攻撃者は、RAGシステムの出力を観察して、あるテキストパスが検索データベースに現れるかどうかを推測することができる。
この脅威の重要性にもかかわらず、RAGシステムに対するMIAはまだ未調査のままである。
本研究では、RAGシステムに対してMIAを実行するための効率的で使いやすい手法を導入することにより、このギャップを解消する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を実証し、ブラックボックスとグレーボックスの両方の設定において適切なプロンプトを作成することによって、検索データベース内の文書のメンバシップを効率的に決定できることを示した。
本研究は, データベースのプライバシとセキュリティを保護するために, デプロイされたRAGシステムにセキュリティ対策を実装することの重要性を強調した。
Retrieval Augmented Generation (RAG) systems have shown great promise in natural language processing. However, their reliance on data stored in a retrieval database, which may contain proprietary or sensitive information, introduces new privacy concerns. Specifically, an attacker may be able to infer whether a certain text passage appears in the retrieval database by observing the outputs of the RAG system, an attack known as a Membership Inference Attack (MIA). Despite the significance of this threat, MIAs against RAG systems have yet remained under-explored. This study addresses this gap by introducing an efficient and easy-to-use method for conducting MIA against RAG systems. We demonstrate the effectiveness of our attack using two benchmark datasets and multiple generative models, showing that the membership of a document in the retrieval database can be efficiently determined through the creation of an appropriate prompt in both black-box and gray-box settings. Our findings highlight the importance of implementing security countermeasures in deployed RAG systems to protect the privacy and security of retrieval databases. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# 表現的政策学習におけるアルゴリズム的フェアネス--グループフェアネスの欠如を回避して
Algorithmic Fairness in Performative Policy Learning: Escaping the Impossibility of Group Fairness ( http://arxiv.org/abs/2405.20447v1 ) ライセンス: Link先を確認 | Seamus Somerstep, Ya'acov Ritov, Yuekai Sun, | (参考訳) 多くの予測問題において、予測モデルは予測対象の分布に影響を与える。
この現象は演奏性として知られ、しばしば予測モデルの結果に適した関心を持つ個人の行動によって引き起こされる。
適応性は分布シフトとして現れるため、一般的に問題となるが、社会分類問題において(非表現的条件下で達成可能なものと比較して)より強力なグループフェアネスを保証するために、実行性を活用するアルゴリズムフェアネスプラクティスを開発する。
特に,政策立案者の長期的不平等対策能力を活用している。
このアプローチの重要な利点は、矛盾するグループフェアネス定義の不整合を解決することができることである。
In many prediction problems, the predictive model affects the distribution of the prediction target. This phenomenon is known as performativity and is often caused by the behavior of individuals with vested interests in the outcome of the predictive model. Although performativity is generally problematic because it manifests as distribution shifts, we develop algorithmic fairness practices that leverage performativity to achieve stronger group fairness guarantees in social classification problems (compared to what is achievable in non-performative settings). In particular, we leverage the policymaker's ability to steer the population to remedy inequities in the long term. A crucial benefit of this approach is that it is possible to resolve the incompatibilities between conflicting group fairness definitions. | 翻訳日:2024-06-03 18:24:43 公開日:2024-05-30 |
# Knockout: 入力不足を処理する簡単な方法
Knockout: A simple way to handle missing inputs ( http://arxiv.org/abs/2405.20448v1 ) ライセンス: Link先を確認 | Minh Nguyen, Batuhan K. Karaman, Heejong Kim, Alan Q. Wang, Fengbei Liu, Mert R. Sabuncu, | (参考訳) ディープラーニングモデルは、複雑な入力から情報をティーズアウトすることができる。
よりリッチな入力は、これらのモデルが通常よりよく機能する。
しかし、リッチなインプット(例えば、マルチセンサー、マルチモダリティ、マルチビュー)を利用するモデルは、デプロイ中にいくつかのインプットが欠落している可能性があるため、広くデプロイすることは困難である。
この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングが含まれる。
行列化は校正された予測が得られるが、計算コストがかかるため、低次元の入力に対してのみ実現可能である。
インパテーションは、点推定を用いて予測を近似し、高次元入力(例えば、画像)では機能しないため、誤校正予測をもたらす可能性がある。
各モデルが異なる入力サブセットを取る複数のモデルをトレーニングすることはうまく機能するが、事前に入力パターンの欠如を知る必要がある。
さらに、基礎モデルの上にモデルを構築する場合、複数のモデルのトレーニングはコストがかかる。
完全入力を用いた条件分布と部分入力を用いた限界分布の両方を単一モデルと入力マスクアウトで同時に学習する効率的な方法を提案する。
入力マスクアウトは、限界分布の学習が条件分布の学習に干渉しないことを保証する。
我々のアプローチは一般的であり、低次元および高次元の入力にも適用できる。
いくつかのシミュレーションでマスクアウトを評価し、単一のモデルが条件分布と限界分布の両方を効率的に学習できることを示す。
実験の結果、分類とセグメンテーションの両方において複数の実世界のデータセットがマスクアウトの有用性を示している。
Deep learning models can tease out information from complex inputs. The richer inputs the better these models usually perform. However, models that leverage rich inputs (e.g. multi-sensor, multi-modality, multi-view) can be difficult to deployed widely because some inputs may be missing during deployment. Current popular solutions to this problem includes marginalization, imputation, and training multiple models. Marginalization can obtain calibrated predictions but it is computationally costly and therefore is only feasible for low dimensional inputs. Imputation may result in mis-calibrated predictions because it approximates predictions using point estimates and does not work for high dimensional inputs (e.g. images). Training multiple models whereby each models take different subsets of inputs can work well but requires knowing missing input patterns in advance. Furthermore, training multiple models is costly when models are built on top of foundational models. We propose an efficient way to learn both the conditional distribution using full inputs and the marginal distributions using partial inputs simultaneously using a single model and input mask-out. Input mask-out ensures that learning the marginal distributions does not interfere with learning the conditional distribution. Our approach is general and can be applied to both low- and high-dimensional inputs. We evaluate mask-out in several simulations to show that it can help a single model efficiently learns both conditional and marginal distributions. Experiment results multiple real-world datasets in both classification and segmentation demonstrates the utility of mask-out. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 分散AI: POKT ネットワーク上の無許可 LLM 推論
Decentralized AI: Permissionless LLM Inference on POKT Network ( http://arxiv.org/abs/2405.20450v1 ) ライセンス: Link先を確認 | Daniel Olshansky, Ramiro Rodriguez Colmeiro, Bowen Li, | (参考訳) POKT Networkの分散リモートプロシージャコール(RPC)インフラストラクチャは、2020年にMainNetでローンチして以来、7400億のリクエストを突破している。
この図は、モデル研究者、ハードウェアオペレータ、APIプロバイダ、およびモデルソース、サプライヤ、ゲートウェイ、アプリケーションと呼ぶユーザ間のインセンティブを、このネットワークのオープンソースおよびパーミッションレス設計がどのように整合させるかを説明している。
Relay Miningアルゴリズムを通じて、POKTは透明性のあるマーケットプレースを作成し、コストと収益は暗号的に検証された利用を直接反映する。
この分散化フレームワークは、大規模なモデルAI研究者に、インフラストラクチャの維持やエンドユーザ製品の構築といった複雑さを伴わずに、自分たちの仕事を分散し、収益を生み出すための新たな道を提供する。
近年で証明されているように、供給は需要とともに自然に拡大し、プロトコルのフリーマーケットのダイナミクスも変化している。
POKT Gatewayは、アプリケーション対応ロードバランサとして機能し、LLMノードを直接管理せずに付加価値機能を提供することで、ネットワークの成長、進化、採用、品質を促進する。
この垂直に分離されたネットワークは、数年前にテストされ、オープンソースモデルの採用、運用、革新、財務化を加速するために設定されている。
サービスの品質がアプリケーショングレードの推論を提供するために設定された集中型エンティティと競合する、最初の成熟したパーミッションレスネットワークである。
POKT Network's decentralized Remote Procedure Call (RPC) infrastructure, surpassing 740 billion requests since launching on MainNet in 2020, is well-positioned to extend into providing AI inference services with minimal design or implementation modifications. This litepaper illustrates how the network's open-source and permissionless design aligns incentives among model researchers, hardware operators, API providers and users whom we term model Sources, Suppliers, Gateways and Applications respectively. Through its Relay Mining algorithm, POKT creates a transparent marketplace where costs and earnings directly reflect cryptographically verified usage. This decentralized framework offers large model AI researchers a new avenue to disseminate their work and generate revenue without the complexities of maintaining infrastructure or building end-user products. Supply scales naturally with demand, as evidenced in recent years and the protocol's free market dynamics. POKT Gateways facilitate network growth, evolution, adoption, and quality by acting as application-facing load balancers, providing value-added features without managing LLM nodes directly. This vertically decoupled network, battle tested over several years, is set up to accelerate the adoption, operation, innovation and financialization of open-source models. It is the first mature permissionless network whose quality of service competes with centralized entities set up to provide application grade inference. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# ロバスト満足度に関する統計的特性
Statistical Properties of Robust Satisficing ( http://arxiv.org/abs/2405.20451v1 ) ライセンス: Link先を確認 | Zhiyi Li, Yunbei Xu, Ruohan Zhan, | (参考訳) Robust Satisficing(RS)モデルは、堅牢な最適化への新たなアプローチであり、様々なアプリケーションにまたがる合理化された手順と堅牢な一般化を提供する。
しかし、RSの統計理論は文献では未解明のままである。
本稿では,RSモデルの理論的特性を包括的に解析することによって,そのギャップを埋める。
特に、RS構造は、半正規分布ロバスト最適化(DRO)と比較して統計的保証を導出するより簡単な経路を提供し、結果としてよりリッチな結果が得られる。
特に、極小最適化問題を明示的に解くことなく、最適損失に対して両面信頼区間を確立する。
さらに、RSオプティマイザに対して有限サンプル一般化誤差境界を提供する。
重要な点として,本研究の結果は,サンプリング分布とターゲット分布との間に相違点が存在する分布シフトを含むシナリオにまで拡張されている。
我々の数値実験により、RSモデルは小サンプル状態および分布シフト下でのベースライン経験的リスク最小化を一貫して上回ることを示した。
さらに、DROモデルと比較して、RSモデルはハイパーパラメータチューニングに対する感度が低く、ロバストネスを考慮した実践性を強調している。
The Robust Satisficing (RS) model is an emerging approach to robust optimization, offering streamlined procedures and robust generalization across various applications. However, the statistical theory of RS remains unexplored in the literature. This paper fills in the gap by comprehensively analyzing the theoretical properties of the RS model. Notably, the RS structure offers a more straightforward path to deriving statistical guarantees compared to the seminal Distributionally Robust Optimization (DRO), resulting in a richer set of results. In particular, we establish two-sided confidence intervals for the optimal loss without the need to solve a minimax optimization problem explicitly. We further provide finite-sample generalization error bounds for the RS optimizer. Importantly, our results extend to scenarios involving distribution shifts, where discrepancies exist between the sampling and target distributions. Our numerical experiments show that the RS model consistently outperforms the baseline empirical risk minimization in small-sample regimes and under distribution shifts. Furthermore, compared to the DRO model, the RS model exhibits lower sensitivity to hyperparameter tuning, highlighting its practicability for robustness considerations. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 情報量を用いた機械学習におけるエンコーダ・デコーダ構造理解
Understanding Encoder-Decoder Structures in Machine Learning Using Information Measures ( http://arxiv.org/abs/2405.20452v1 ) ライセンス: Link先を確認 | Jorge F. Silva, Victor Faraggi, Camilo Ramirez, Alvaro Egana, Eduardo Pavez, | (参考訳) 情報理論の角度から機械学習(ML)におけるエンコーダデコーダ設計の役割をモデル化し理解するための新しい結果を提案する。
我々は、機械学習における予測構造を表現するために、情報満足度(IS)と相互情報損失(MIL)という2つの主要な情報概念を用いる。
最初の結果から,ISエンコーダ・デコーダの潜在予測構造と整合した確率モデルのクラスを特徴付ける関数式が得られた。
この結果は、エンコーダ-デコーダの前方ステージを正式に正当化し、多くのモダンMLアーキテクチャが、分類のための潜在(圧縮)表現を学ぶために採用している。
ISを現実的で関連するモデル仮定として説明するために、既知のMLの概念を再考し、不変、堅牢、スパース、デジタルモデルといった興味深い新しい例を示します。
さらに,所与のエンコーダ・デコーダアーキテクチャを学習環境に導入した場合に,クロスエントロピーリスクを用いて,性能(予測表現性)がどの程度失われるかという根本的な問題に取り組むことができる。
ここでは,2つ目の主要な結果から,(バイアス付き)エンコーダデコーダML設計の選択による表現性の欠如を定量的に示す。
最後に、この要件を満たすために必要かつ十分条件が確立されたエンコーダ・デコーダ設計を用いて、普遍的クロスエントロピー学習の課題に対処する。
これらすべての結果において、シャノンの情報測度は表現学習のための新しい解釈と説明を提供する。
We present new results to model and understand the role of encoder-decoder design in machine learning (ML) from an information-theoretic angle. We use two main information concepts, information sufficiency (IS) and mutual information loss (MIL), to represent predictive structures in machine learning. Our first main result provides a functional expression that characterizes the class of probabilistic models consistent with an IS encoder-decoder latent predictive structure. This result formally justifies the encoder-decoder forward stages many modern ML architectures adopt to learn latent (compressed) representations for classification. To illustrate IS as a realistic and relevant model assumption, we revisit some known ML concepts and present some interesting new examples: invariant, robust, sparse, and digital models. Furthermore, our IS characterization allows us to tackle the fundamental question of how much performance (predictive expressiveness) could be lost, using the cross entropy risk, when a given encoder-decoder architecture is adopted in a learning setting. Here, our second main result shows that a mutual information loss quantifies the lack of expressiveness attributed to the choice of a (biased) encoder-decoder ML design. Finally, we address the problem of universal cross-entropy learning with an encoder-decoder design where necessary and sufficiency conditions are established to meet this requirement. In all these results, Shannon's information measures offer new interpretations and explanations for representation learning. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# DepesRAG: 大規模言語モデルによるソフトウェア依存の管理
DepesRAG: Towards Managing Software Dependencies using Large Language Models ( http://arxiv.org/abs/2405.20455v1 ) ライセンス: Link先を確認 | Mohannad Alhanahnah, Yazan Boshmaf, Benoit Baudry, | (参考訳) ソフトウェア依存関係の管理は、ソフトウェア開発において重要なメンテナンスタスクであり、特にソフトウェアサプライチェーン攻撃の著しい増加を背景に、急速に成長する研究分野となっている。
依存関係を完全に理解し、依存関係に関する隠れたプロパティ(例えば、依存関係の数、依存関係チェーン、依存関係の深さ)を明らかにするためには、専門的な専門知識と実質的な開発者の努力が必要だ。
近年のLarge Language Models (LLM) の進歩により、様々なデータソースから情報を検索して応答生成が可能となり、ソフトウェア依存をユニークに管理する新たな機会が提供される。
この技術の可能性を強調するために,4つの人気ソフトウェアエコシステムにおいて,ソフトウェアパッケージの直接的かつ推移的な依存関係を知識グラフ(KG)として構築する,概念検索拡張生成(RAG)の実証手法である–\toolを提案する。
DepsRAGは、KGから情報を取得するために必要なクエリを自動的に生成し、取得した情報でLLMの入力を増強することで、ソフトウェアの依存関係に関するユーザの質問に答えることができる。
DepsRAGはまた、LLMがKGを介して直接答えられないような質問に答えるためにWebサーチを実行することもできる。
DepsRAGが提供できる具体的なメリットを特定し、その制限について議論する。
Managing software dependencies is a crucial maintenance task in software development and is becoming a rapidly growing research field, especially in light of the significant increase in software supply chain attacks. Specialized expertise and substantial developer effort are required to fully comprehend dependencies and reveal hidden properties about the dependencies (e.g., number of dependencies, dependency chains, depth of dependencies). Recent advancements in Large Language Models (LLMs) allow the retrieval of information from various data sources for response generation, thus providing a new opportunity to uniquely manage software dependencies. To highlight the potential of this technology, we present~\tool, a proof-of-concept Retrieval Augmented Generation (RAG) approach that constructs direct and transitive dependencies of software packages as a Knowledge Graph (KG) in four popular software ecosystems. DepsRAG can answer user questions about software dependencies by automatically generating necessary queries to retrieve information from the KG, and then augmenting the input of LLMs with the retrieved information. DepsRAG can also perform Web search to answer questions that the LLM cannot directly answer via the KG. We identify tangible benefits that DepsRAG can offer and discuss its limitations. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 機械学習における個々のデータポイントの価値のスケーリング法則
Scaling Laws for the Value of Individual Data Points in Machine Learning ( http://arxiv.org/abs/2405.20456v1 ) ライセンス: Link先を確認 | Ian Covert, Wenlong Ji, Tatsunori Hashimoto, James Zou, | (参考訳) 最近の研究によると、機械学習モデルはトレーニングデータの総量で予測可能な速度で改善され、エラーとデータセットサイズの関係を記述したスケーリング法則が導かれる。
これらのスケーリング法則は、モデルのトレーニングデータセットを設計するのに役立ちますが、通常、データセットのサイズだけを考慮して、データの集合ビューを取ります。
我々は、個々のデータポイントの値に対するスケーリングの振る舞いを調査することによって、新しい視点を導入する: モデルの性能に対するデータポイントの貢献は、ログ線形の方法でデータセットのサイズとともに予測可能に減少する。
興味深いことに、異なるデータポイント間のスケーリング指数には大きなばらつきがあり、あるポイントが小さなデータセットでより有用であるのに対して、他のポイントは大きなデータセットの一部として比較的有用であることを示している。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
さらに,データ点当たりのノイズの少ない観測から,個人化スケーリングの挙動を効率よく学習する最大可能性推定器と補正推定器を提案する。
推定器を用いて、異なるデータポイントのスケーリング行動に影響を与える要因に関する洞察を提供する。
最後に、データアセスメントとデータサブセット選択に対する個別化スケーリング法則の適用例を示す。
全体として、我々の研究は個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
Recent works have shown that machine learning models improve at a predictable rate with the total amount of training data, leading to scaling laws that describe the relationship between error and dataset size. These scaling laws can help design a model's training dataset, but they typically take an aggregate view of the data by only considering the dataset's size. We introduce a new perspective by investigating scaling behavior for the value of individual data points: we find that a data point's contribution to model's performance shrinks predictably with the size of the dataset in a log-linear manner. Interestingly, there is significant variability in the scaling exponent among different data points, indicating that certain points are more valuable in small datasets while others are relatively more useful as a part of large datasets. We provide learning theory to support our scaling law, and we observe empirically that it holds across diverse model classes. We further propose a maximum likelihood estimator and an amortized estimator to efficiently learn the individualized scaling behaviors from a small number of noisy observations per data point. Using our estimators, we provide insights into factors that influence the scaling behavior of different data points. Finally, we demonstrate applications of the individualized scaling laws to data valuation and data subset selection. Overall, our work represents a first step towards understanding and utilizing scaling properties for the value of individual data points. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# オンラインネットワークトポロジーが個人物語とハッシュタグ生成を形作る
Online network topology shapes personal narratives and hashtag generation ( http://arxiv.org/abs/2405.20457v1 ) ライセンス: Link先を確認 | J. Hunter Priniski, Bryce Linford, Sai Krishna, Fred Morstatter, Jeff Brantingham, Hongjing Lu, | (参考訳) 物語は数世紀にわたって認知と文化を形成してきたが、デジタルメディアとオンラインソーシャルネットワークは新しい物語現象を導入した。
物語代理店の増加により、個人のネットワーク化されたグループが直接貢献し、政治、科学、道徳に関する総合的な議論の中心となる物語を運営できる。
本研究では,災害イベントのテキストベースの物語を参加者のネットワークで解釈し,近隣のネットワークと一致するハッシュタグを生成するためのインセンティブを得た,物語とハッシュタグ生成に関するオンラインネットワーク実験の結果を報告する。
ネットワーク構造は,ネットワーク隣人との連携を通じて支配的信念の出現に影響を与えるだけでなく,参加者の個人的物語における因果語の使用にも影響を及ぼすことがわかった。
While narratives have shaped cognition and cultures for centuries, digital media and online social networks have introduced new narrative phenomena. With increased narrative agency, networked groups of individuals can directly contribute and steer narratives that center our collective discussions of politics, science, and morality. We report the results of an online network experiment on narrative and hashtag generation, in which networked groups of participants interpreted a text-based narrative of a disaster event, and were incentivized to produce matching hashtags with their network neighbors. We found that network structure not only influences the emergence of dominant beliefs through coordination with network neighbors, but also impacts participants' use of causal language in their personal narratives. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 物体検出器の校正について:落とし穴, 評価, ベースライン
On Calibration of Object Detectors: Pitfalls, Evaluation and Baselines ( http://arxiv.org/abs/2405.20459v1 ) ライセンス: Link先を確認 | Selim Kuzucu, Kemal Oksuz, Jonathan Sadeghi, Puneet K. Dokania, | (参考訳) 物検知器の信頼性の高い使用には校正が必要で、注意を要する重要な問題だ。
これに対する最近のアプローチは、(1)スクラッチから測定器を訓練して測定器を得るための新しい損失関数を設計すること、(2)訓練された検出器のキャリブレーション予測を出力する可能性のスケールを学習する熱後温度スケーリング(TS)を設計することである。
これらの手法は,検出期待校正誤差(D-ECE)と平均精度(Average Precision)の組み合わせに基づいて評価される。
本研究では,最近の評価フレームワーク,評価指標,TSの使用が,誤った結論につながる顕著な欠点があることを強調した。
これらの問題を解決するためのステップとして,物体検出器の校正と精度を共同で測定する基本的評価フレームワークを提案する。
また,Platt Scaling や Isotonic Regression などのポストホックキャリブレーション手法を,特にオブジェクト検出タスクに適応させる。
一般的な考え方とは対照的に, ポストホックキャリブレータを設計, 評価すると, 最近の列車時キャリブレーション法よりもはるかに安価で, 有効であることがわかった。
筆者らによるポストホックなイソトニック回帰キャリブレータを用いたD-DETRは,COCOデータセット上の7以上のD-ECEにより,最近の列車時状態キャリブレーション法であるCal-DETRより優れていた。
さらに,最近提案したローカライゼーション対応ECEの改良版も提案し,これらの指標に対する手法の有効性を示した。
コードは、https://github.com/fiveai/detection_calibration.comで入手できる。
Reliable usage of object detectors require them to be calibrated -- a crucial problem that requires careful attention. Recent approaches towards this involve (1) designing new loss functions to obtain calibrated detectors by training them from scratch, and (2) post-hoc Temperature Scaling (TS) that learns to scale the likelihood of a trained detector to output calibrated predictions. These approaches are then evaluated based on a combination of Detection Expected Calibration Error (D-ECE) and Average Precision. In this work, via extensive analysis and insights, we highlight that these recent evaluation frameworks, evaluation metrics, and the use of TS have notable drawbacks leading to incorrect conclusions. As a step towards fixing these issues, we propose a principled evaluation framework to jointly measure calibration and accuracy of object detectors. We also tailor efficient and easy-to-use post-hoc calibration approaches such as Platt Scaling and Isotonic Regression specifically for object detection task. Contrary to the common notion, our experiments show that once designed and evaluated properly, post-hoc calibrators, which are extremely cheap to build and use, are much more powerful and effective than the recent train-time calibration methods. To illustrate, D-DETR with our post-hoc Isotonic Regression calibrator outperforms the recent train-time state-of-the-art calibration method Cal-DETR by more than 7 D-ECE on the COCO dataset. Additionally, we propose improved versions of the recently proposed Localization-aware ECE and show the efficacy of our method on these metrics as well. Code is available at: https://github.com/fiveai/detection_calibration. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# ニュース記事における有能なエンティティのスケーラブルな検出
Scalable Detection of Salient Entities in News Articles ( http://arxiv.org/abs/2405.20461v1 ) ライセンス: Link先を確認 | Eliyar Asgarieh, Kapil Thadani, Neil O'Hare, | (参考訳) ニュース記事は典型的に多数の実体について言及するが、その大部分は物語に忠実である。
記事中のエンティティのサリエンスを検出することは、ニュース検索、分析、要約などのアプリケーションにとって重要である。
本研究では,エンティティタグや文脈化エンティティ表現を直接使用した分類ヘッドを用いた微調整事前学習型トランスフォーマモデルにより,効率的かつ効果的な健全なエンティティ検出のための新しいアプローチについて検討する。
実験によると、これらの単純なテクニックは、さまざまなサイズとサリエンス定義を持つデータセット間で、事前処理を劇的に上回っている。
また,それらの精度に影響を与えることなく,これらのモデルの計算コストを効果的に削減するための知識蒸留技術についても検討する。
最後に,提案したモデルの挙動を特徴付けるため,広範囲な解析およびアブレーション実験を行った。
News articles typically mention numerous entities, a large fraction of which are tangential to the story. Detecting the salience of entities in articles is thus important to applications such as news search, analysis and summarization. In this work, we explore new approaches for efficient and effective salient entity detection by fine-tuning pretrained transformer models with classification heads that use entity tags or contextualized entity representations directly. Experiments show that these straightforward techniques dramatically outperform prior work across datasets with varying sizes and salience definitions. We also study knowledge distillation techniques to effectively reduce the computational cost of these models without affecting their accuracy. Finally, we conduct extensive analyses and ablation experiments to characterize the behavior of the proposed models. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 効率的な地球観測事前学習のためのマルチラベル指導ソフトコントラスト学習
Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining ( http://arxiv.org/abs/2405.20462v1 ) ライセンス: Link先を確認 | Yi Wang, Conrad M Albrecht, Xiao Xiang Zhu, | (参考訳) 大規模衛星データによる自己監督型事前訓練は、地球観測(EO)基礎モデルの構築に大きな関心を寄せている。
しかし、自由なグローバルな意味情報を提供する土地被覆土地利用製品や、自然界の強い知識を持つビジョン基盤モデルなど、純粋な衛星画像以上の重要な資源は見過ごされがちである。
本研究では、これらの自由な追加資源が、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
具体的には,ランドカバー生成した複数ラベルの監督に基づいて,複合シーンにおける複数の正のサンプルと厳密な正のマッチングの問題を自然に解決し,クロスシーンのソフトな類似性を最適化するソフトコントラスト学習を提案する。
次に、DINOv2のような最強ビジョンモデルから効率的なEO基盤モデルを構築するため、マルチスペクトル画像とSAR画像の両方に対するドメイン間連続事前トレーニングについて検討する。
簡単な重み初期化とシームズマスキング戦略をソフトコントラスト学習フレームワークに統合し、入力チャネルとモダリティが一致していない場合でも、印象的な継続事前学習性能を示す。
禁止トレーニングなしでは、既存のSOTAモデルよりも10の下流タスクのうち9つのタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成します。
例えば、我々のResNet50/ViT-Sは、既存のほとんどのViT-Lモデルよりも優れたBigEarthNet-10\%で84.8/85.0の線形プローブmAPスコアを達成しています。
データセットとモデルはhttps://github.com/zhu-xlab/softcon.comで入手できる。
Self-supervised pretraining on large-scale satellite data has raised great interest in building Earth observation (EO) foundation models. However, many important resources beyond pure satellite imagery, such as land-cover-land-use products that provide free global semantic information, as well as vision foundation models that hold strong knowledge of the natural world, tend to be overlooked. In this work, we show these free additional resources not only help resolve common contrastive learning bottlenecks, but also significantly boost the efficiency and effectiveness of EO pretraining. Specifically, we first propose soft contrastive learning that optimizes cross-scene soft similarity based on land-cover-generated multi-label supervision, naturally solving the issue of multiple positive samples and too strict positive matching in complex scenes. Second, we explore cross-domain continual pretraining for both multispectral and SAR imagery, building efficient EO foundation models from strongest vision models such as DINOv2. Integrating simple weight-initialization and Siamese masking strategies into our soft contrastive learning framework, we demonstrate impressive continual pretraining performance even when the input channels and modalities are not aligned. Without prohibitive training, we produce multispectral and SAR foundation models that achieve significantly better results in 9 out of 10 downstream tasks than most existing SOTA models. For example, our ResNet50/ViT-S achieve 84.8/85.0 linear probing mAP scores on BigEarthNet-10\% which are better than most existing ViT-L models; under the same setting, our ViT-B sets a new record of 86.8 in multispectral, and 82.5 in SAR, the latter even better than many multispectral models. Dataset and models are available at https://github.com/zhu-xlab/softcon. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# ENTIRe-ID: 人物再同定のための拡張的および多元的データセット
ENTIRe-ID: An Extensive and Diverse Dataset for Person Re-Identification ( http://arxiv.org/abs/2405.20465v1 ) ライセンス: Link先を確認 | Serdar Yildiz, Ahmet Nezih Kasim, | (参考訳) コンピュータビジョンにおける人物の再識別の重要性の高まりは、より広範囲で多様なデータセットの必要性を強調している。
そこで本研究では,37種類のカメラから445万枚以上の画像を収集したENIRe-IDデータセットについて紹介する。
このデータセットは、個人を再識別するための既存のデータセットが不足している領域である、ドメインの可変性とモデル一般化の課題に取り組むように設計されている。
ENTIRe-IDデータセットは、様々な照明条件、視角、多様な人間の活動を含む、さまざまな現実世界シナリオをカバーしている。
この設計により、ReIDモデルの現実的で堅牢なトレーニングプラットフォームが保証される。
ENTIRe-IDデータセットはhttps://serdaryildiz.github.io/ENTIRe-IDで公開されている。
The growing importance of person reidentification in computer vision has highlighted the need for more extensive and diverse datasets. In response, we introduce the ENTIRe-ID dataset, an extensive collection comprising over 4.45 million images from 37 different cameras in varied environments. This dataset is uniquely designed to tackle the challenges of domain variability and model generalization, areas where existing datasets for person re-identification have fallen short. The ENTIRe-ID dataset stands out for its coverage of a wide array of real-world scenarios, encompassing various lighting conditions, angles of view, and diverse human activities. This design ensures a realistic and robust training platform for ReID models. The ENTIRe-ID dataset is publicly available at https://serdaryildiz.github.io/ENTIRe-ID | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# カウント可能な状態空間平均コストRLにおけるNPGの性能
Performance of NPG in Countable State-Space Average-Cost RL ( http://arxiv.org/abs/2405.20467v1 ) ライセンス: Link先を確認 | Yashaswini Murthy, Isaac Grosof, Siva Theja Maguluri, R. Srikant, | (参考訳) 状態空間が任意に大きい、あるいは数え切れないほど無限である強化学習環境におけるポリシー最適化手法を検討する。
モチベーションは、通信ネットワーク、マッチングマーケット、その他のキューシステムにおける制御問題から生じる。
有限状態空間に対する一般的なアルゴリズムであるNatural Policy Gradient (NPG) を考える。
妥当な仮定の下では、政策評価における誤差が真値関数の係数の範囲内であれば、状態空間のサイズに依存しないNPGのパフォーマンス境界を導出する。
この結果は、ポアソン方程式、すなわち相対値関数の解に対する新たなポリシーに依存しない境界を確立し、これらの境界をMDPと専門家からの学習の間の既知の接続と組み合わせることで得られる。
We consider policy optimization methods in reinforcement learning settings where the state space is arbitrarily large, or even countably infinite. The motivation arises from control problems in communication networks, matching markets, and other queueing systems. We consider Natural Policy Gradient (NPG), which is a popular algorithm for finite state spaces. Under reasonable assumptions, we derive a performance bound for NPG that is independent of the size of the state space, provided the error in policy evaluation is within a factor of the true value function. We obtain this result by establishing new policy-independent bounds on the solution to Poisson's equation, i.e., the relative value function, and by combining these bounds with previously known connections between MDPs and learning from experts. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# ベンチマークをフランス語に組み込む大規模テキストの拡張
Extending the Massive Text Embedding Benchmark to French ( http://arxiv.org/abs/2405.20468v1 ) ライセンス: Link先を確認 | Mathieu Ciancone, Imene Kerboua, Marion Schaeffer, Wissam Siblini, | (参考訳) 近年、様々なNLPタスクに多くの埋め込みモデルが利用可能となり、広く使われている。
MTEB(Massive Text Embedding Benchmark)によって、英語のタスクでうまく機能するモデルを選択することは大幅に単純化されているが、他の言語への拡張は依然として困難である。
そこで、MTEBを拡張して、フランス語の文埋め込みに関する最初の大規模なベンチマークを提案する。
22の既存のデータセットを使いやすいインターフェースで収集するだけでなく、8つのタスクに対するグローバルな評価のために、3つの新しいフランス語データセットも作成します。
本研究では,46個の埋め込みモデルと大規模比較を行い,包括的統計テストを行い,モデル性能と多くの特性の相関関係を解析した。
全てのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは特によく機能することがわかった。
私たちの作業には、オープンソースコード、新しいデータセット、公開リーダボードが含まれています。
In recent years, numerous embedding models have been made available and widely used for various NLP tasks. Choosing a model that performs well for several tasks in English has been largely simplified by the Massive Text Embedding Benchmark (MTEB), but extensions to other languages remain challenging. This is why we expand MTEB to propose the first massive benchmark of sentence embeddings for French. Not only we gather 22 existing datasets in an easy-to-use interface, but we also create three new French datasets for a global evaluation over 8 different tasks. We perform a large scale comparison with 46 carefully selected embedding models, conduct comprehensive statistical tests, and analyze the correlation between model performance and many of their characteristics. We find out that even if no model is the best on all tasks, large multilingual models pre-trained on sentence similarity perform particularly well. Our work comes with open-source code, new datasets and a public leaderboard. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 合成データがすべて必要か? : 合成画像を用いたモデルのロバスト性の評価
Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images ( http://arxiv.org/abs/2405.20469v1 ) ライセンス: Link先を確認 | Krishnakant Singh, Thanush Navaratnam, Jannik Holmer, Simone Schaub-Meyer, Stefan Roth, | (参考訳) 機械学習アプローチの開発における長年の課題は、高品質なラベル付きデータがないことである。
近年、大規模な事前学習拡散モデルを用いて生成された合成クローンと呼ばれる純粋合成データを用いて訓練されたモデルは、このアノテーションボトルネックを克服する有望な結果を示している。
これらの合成クローンモデルが進行するにつれて、それらは現実世界の挑戦的な設定にデプロイされる可能性が高いが、その適合性はまだ検討されていない。
我々の研究は、様々なロバストネス尺度を用いて、3種類の合成クローンモデル、すなわち、教師付き、自己監督型、マルチモーダルモデルの最初のベンチマークを提供することによって、このギャップに対処する。
既存の合成自己監督クローンとマルチモーダルクローンは、形状バイアス、背景バイアス、キャリブレーションなど、さまざまなロバストネス指標に対して、最先端のリアルタイムベースラインに匹敵する、あるいは優れた性能を発揮することを示す。
しかし、合成クローンは、実際のデータで訓練されたモデルよりも、敵対的および現実的なノイズの影響を受けやすいことも判明した。
これを解決するために, 実データと合成データを組み合わせることで, より堅牢性が向上し, 合成画像の生成に使用するプロンプトの選択が, 合成クローンの堅牢性において重要な役割を担っていることがわかった。
A long-standing challenge in developing machine learning approaches has been the lack of high-quality labeled data. Recently, models trained with purely synthetic data, here termed synthetic clones, generated using large-scale pre-trained diffusion models have shown promising results in overcoming this annotation bottleneck. As these synthetic clone models progress, they are likely to be deployed in challenging real-world settings, yet their suitability remains understudied. Our work addresses this gap by providing the first benchmark for three classes of synthetic clone models, namely supervised, self-supervised, and multi-modal ones, across a range of robustness measures. We show that existing synthetic self-supervised and multi-modal clones are comparable to or outperform state-of-the-art real-image baselines for a range of robustness metrics - shape bias, background bias, calibration, etc. However, we also find that synthetic clones are much more susceptible to adversarial and real-world noise than models trained with real data. To address this, we find that combining both real and synthetic data further increases the robustness, and that the choice of prompt used for generating synthetic images plays an important part in the robustness of synthetic clones. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# STHN:衛星画像を用いたUAV熱測地のための深部ホログラフィー推定
STHN: Deep Homography Estimation for UAV Thermal Geo-localization with Satellite Imagery ( http://arxiv.org/abs/2405.20470v1 ) ライセンス: Link先を確認 | Jiuhong Xiao, Ning Zhang, Daniel Tortei, Giuseppe Loianno, | (参考訳) 無人航空機(UAV)の正確な位置特定は、捜索・救助活動、電力線検査、環境監視など様々な屋外用途に不可欠である。
グローバル・ナビゲーション・サテライト・システム(GNSS)の脆弱性は、自律航法のためのさらなるロバストなローカライゼーション手法の開発を必要とする。
搭載カメラと参照衛星マップを活用するビジュアルジオローカライゼーション(VG)は、絶対的なローカライゼーションのための有望なソリューションを提供する。
特に、サーマルジオローカライゼーション(TG)は、サーマルイメージと衛星データベースのマッチングに頼って、夜間の効果的なローカライゼーションに赤外線カメラを活用することで際立っている。
しかし、現在のTG手法の効率と有効性は、衛星地図の高密度サンプリングとサーマルクエリ画像の幾何ノイズによって妨げられている。
これらの課題を克服するために、我々は、粗大な深部ホログラフィー推定手法を用いる新しいUAV熱測地化手法であるSTHNを紹介する。
この方法では、衛星画像と熱画像の間に11%の重なりがあるにもかかわらず、UAVの最後の位置の半径512メートル以内の信頼性の高い熱的位置決めが可能であり、どちらも熱画像に不明瞭なテクスチャがあり、自己相似パターンがある。
我々の研究は、野生の低視認性条件下での幾何ノイズの影響に対して、UAV熱測地性能とロバスト性を大幅に向上させる。
コードは公開されます。
Accurate geo-localization of Unmanned Aerial Vehicles (UAVs) is crucial for a variety of outdoor applications including search and rescue operations, power line inspections, and environmental monitoring. The vulnerability of Global Navigation Satellite Systems (GNSS) signals to interference and spoofing necessitates the development of additional robust localization methods for autonomous navigation. Visual Geo-localization (VG), leveraging onboard cameras and reference satellite maps, offers a promising solution for absolute localization. Specifically, Thermal Geo-localization (TG), which relies on image-based matching between thermal imagery with satellite databases, stands out by utilizing infrared cameras for effective night-time localization. However, the efficiency and effectiveness of current TG approaches, are hindered by dense sampling on satellite maps and geometric noises in thermal query images. To overcome these challenges, in this paper, we introduce STHN, a novel UAV thermal geo-localization approach that employs a coarse-to-fine deep homography estimation method. This method attains reliable thermal geo-localization within a 512-meter radius of the UAV's last known location even with a challenging 11% overlap between satellite and thermal images, despite the presence of indistinct textures in thermal imagery and self-similar patterns in both spectra. Our research significantly enhances UAV thermal geo-localization performance and robustness against the impacts of geometric noises under low-visibility conditions in the wild. The code will be made publicly available. | 翻訳日:2024-06-03 18:14:59 公開日:2024-05-30 |
# 内殻励起に対する円Rydberg量子ビットのコヒーレントカップリング
Coherent coupling of circular Rydberg qubits to inner shell excitations ( http://arxiv.org/abs/2405.20476v1 ) ライセンス: Link先を確認 | Moritz Wirth, Christian Hölzl, Aaron Götzelmann, Einius Pultinevicius, Florian Meinert, | (参考訳) 2価原子は、2番目の光学活性価電子が利用可能なため、リドバーグ原子に基づく量子シミュレーションと計算の制御を前進させる優れた手段を提供する。
この文脈で特に有望なのは、長寿命のイオンコア励起を有害な自己イオン化に苦しむことなく利用することができる円形のリドバーグ原子である。
ここでは準安定な4D$_{3/2}$レベルと非常に高いn$$$n=79$の円状Rydberg量子ビットの間の電気四重極結合の測定を報告し、二重励起の$^{88}$Sr原子で実現した。
我々は、スピンエコーを含むビートノードラムゼー干渉計を用いて、円Rydberg量子ビット上のkHzスケールの差分レベルシフトを測定する。
この結合を観測するには、数百マイクロ秒以上のリドベルク状態のコヒーレントな尋問が必要である。
本研究は、Rydberg原子における弱い電子-電子相互作用へのアクセスを示し、イオンコア操作による高励起円状量子ビットの光制御のための量子シミュレーションツールボックスを拡張した。
Divalent atoms provide excellent means for advancing control in Rydberg atom-based quantum simulation and computing, due to the second optically active valence electron available. Particularly promising in this context are circular Rydberg atoms, for which long-lived ionic core excitations can be exploited without suffering from detrimental autoionization. Here, we report measurements of the electric quadrupole coupling between the metastable 4D$_{3/2}$ level and a very high-$n$ ($n=79$) circular Rydberg qubit, realized in doubly excited $^{88}$Sr atoms. We measure the kHz-scale differential level shift on the circular Rydberg qubit via beat-node Ramsey interferometry comprising spin echo. Observing this coupling requires coherent interrogation of the Rydberg states for more than one hundred microseconds, which is assisted by tweezer trapping and circular state lifetime enhancement in a black-body radiation suppressing capacitor. Our results demonstrate access to weak electron-electron interactions in Rydberg atoms and expand the quantum simulation toolbox for optical control of highly excited circular state qubits via ionic core manipulation. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 科学書記支援のための集中フィードバック自動生成
Automated Focused Feedback Generation for Scientific Writing Assistance ( http://arxiv.org/abs/2405.20477v1 ) ライセンス: Link先を確認 | Eric Chamoun, Michael Schlichktrull, Andreas Vlachos, | (参考訳) 科学的な文章を書くことは、特に経験豊富な仲間からのフィードバックに頼っている初心者研究者にとって難しい課題だ。
最近の研究は主に、原稿の内容よりも表面の形状やスタイルの改善に重点を置いている。
本稿では,科学的執筆支援のための自動集中型フィードバック生成という,新しい課題を提案する。
SWIF$^{2}$T: A Scientific WrIting Focused Feedback Toolを提案する。
特定の、実行可能な、一貫性のあるコメントを生成し、科学論文の弱点を特定したり、修正案を提案するように設計されている。
我々のアプローチは、プランナー、調査員、レビュアー、コントローラの4つのコンポーネントで構成され、それらを実装するために複数のLarge Language Models (LLM)を活用する。
科学的論文の弱点を引用し,300件の査読データセットを収集し,人的評価を行う。
その結果,SWIF$^{2}$Tのフィードバックは,他のアプローチと比較して,特異性,読みやすさ,総合的な有用性を示した。
分析では、自動生成されたレビューが人間のレビューより優れていると判断された事例も同定し、科学的な文章にAIによるフィードバックを統合する機会を示唆した。
Scientific writing is a challenging task, particularly for novice researchers who often rely on feedback from experienced peers. Recent work has primarily focused on improving surface form and style rather than manuscript content. In this paper, we propose a novel task: automated focused feedback generation for scientific writing assistance. We present SWIF$^{2}$T: a Scientific WrIting Focused Feedback Tool. It is designed to generate specific, actionable and coherent comments, which identify weaknesses in a scientific paper and/or propose revisions to it. Our approach consists of four components - planner, investigator, reviewer and controller - leveraging multiple Large Language Models (LLMs) to implement them. We compile a dataset of 300 peer reviews citing weaknesses in scientific papers and conduct human evaluation. The results demonstrate the superiority in specificity, reading comprehension, and overall helpfulness of SWIF$^{2}$T's feedback compared to other approaches. In our analysis, we also identified cases where automatically generated reviews were judged better than human ones, suggesting opportunities for integration of AI-generated feedback in scientific writing. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 環境間のレバレッジ構造:不整合表現を動機づける系統規則化
Leveraging Structure Between Environments: Phylogenetic Regularization Incentivizes Disentangled Representations ( http://arxiv.org/abs/2405.20482v1 ) ライセンス: Link先を確認 | Elliot Layne, Jason Hartford, Sébastien Lachapelle, Mathieu Blanchette, Dhanya Sridhar, | (参考訳) 細胞内の生物学的プロセスのような多くの因果系は、遺伝子発現のような測定によってのみ間接的に観察できる。
低レベルの観察を潜伏因果変数に正しくマッピングするタスクである因果表現学習は、経路活性化などの潜伏変数の推測を可能にすることによって科学的理解を促進する可能性がある。
本論文では,複数の関連するデータセット(環境)とタスクから潜在変数を推定する手法を開発する。
実行中の例として、遺伝子発現から表現型を予測するタスクを考える。そこでは、既知の方法で関連している複数の細胞タイプや生物からデータを収集する。
重要な洞察は、遺伝子発現によって引き起こされる潜伏変数から興味の表現型へのマッピングは、密接な関係のある環境間でわずかに変化するということである。
スパース変化をモデル化するために,予測誤差を最小化し,関連する環境を規則化し,類似の予測子を学習するTBR(Tree-Based Regularization)を導入する。
スパース変化の度合いに関する仮定の下では、TBRは真の潜在変数をいくつかの単純な変換まで特定する。
この理論をシミュレーションと基底構造遺伝子発現データの両方で実証的に評価する。
TBRは, 理論のいくつかの仮定に反する設定下であっても, 関連手法よりも潜伏した因果変数を回復することがわかった。
Many causal systems such as biological processes in cells can only be observed indirectly via measurements, such as gene expression. Causal representation learning -- the task of correctly mapping low-level observations to latent causal variables -- could advance scientific understanding by enabling inference of latent variables such as pathway activation. In this paper, we develop methods for inferring latent variables from multiple related datasets (environments) and tasks. As a running example, we consider the task of predicting a phenotype from gene expression, where we often collect data from multiple cell types or organisms that are related in known ways. The key insight is that the mapping from latent variables driven by gene expression to the phenotype of interest changes sparsely across closely related environments. To model sparse changes, we introduce Tree-Based Regularization (TBR), an objective that minimizes both prediction error and regularizes closely related environments to learn similar predictors. We prove that under assumptions about the degree of sparse changes, TBR identifies the true latent variables up to some simple transformations. We evaluate the theory empirically with both simulations and ground-truth gene expression data. We find that TBR recovers the latent causal variables better than related methods across these settings, even under settings that violate some assumptions of the theory. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# プライバシーを意識した新しいレコメンデーションシステム「Hiding Your Awful Online Choices」
Hiding Your Awful Online Choices Made More Efficient and Secure: A New Privacy-Aware Recommender System ( http://arxiv.org/abs/2405.20483v1 ) ライセンス: Link先を確認 | Shibam Mukherjee, Roman Walch, Fredrik Meisingseth, Elisabeth Lex, Christian Rechberger, | (参考訳) リコメンダシステムは、同様の関心を持つユーザーに新しいコンテンツを推奨するオンラインプラットフォームにおいて不可欠な部分である。
しかし、データが適切に保護されていない場合、ユーザプライバシにとって重要な脅威となるような、かなりの量のユーザアクティビティデータを要求する。
プライバシを意識したレコメンデータシステムは、従来の非プライベートレコメンデータシステムと同じようなレコメンデーション精度を維持しながら、そのような機密性の高いユーザデータの保護を可能にする。
しかし、現在のプライバシーを意識したレコメンデーターシステムは、プライバシーと計算効率の間の大きなトレードオフに悩まされている。
例えば、純粋に暗号プリミティブに依存しているアーキテクチャは、最も堅牢なプライバシー保証を提供することはよく知られているが、それらは計算とネットワークのオーバーヘッドに悩まされている。
したがって、よりよいパフォーマンスのためにこのトレードオフを改善することが重要です。
本稿では,プライバシを意識した機械学習アルゴリズムを実用的スケーラビリティと効率性のために,信頼されたパーティやセキュアなハードウェアといった仮定を使わずに,ホモモルフィック暗号化やマルチパーティ計算といった暗号プリミティブと組み合わせた,新たなプライバシ対応レコメンデーションシステムを提案する。
標準ベンチマークデータセットの実験では,プライバシを意識したレコメンデータシステムを構築するためにスタンドアロンで暗号プリミティブを使用する場合と比較して,我々のアプローチが3桁の時間とメモリゲインをもたらすことが示された。
さらに,メモリ制約の低消費電力SOC(System on Chip)デバイス上でも,1億エントリを含むデータセットのプライベートレコメンデーションを初めて計算可能にする。
Recommender systems are an integral part of online platforms that recommend new content to users with similar interests. However, they demand a considerable amount of user activity data where, if the data is not adequately protected, constitute a critical threat to the user privacy. Privacy-aware recommender systems enable protection of such sensitive user data while still maintaining a similar recommendation accuracy compared to the traditional non-private recommender systems. However, at present, the current privacy-aware recommender systems suffer from a significant trade-off between privacy and computational efficiency. For instance, it is well known that architectures that rely purely on cryptographic primitives offer the most robust privacy guarantees, however, they suffer from substantial computational and network overhead. Thus, it is crucial to improve this trade-off for better performance. This paper presents a novel privacy-aware recommender system that combines privacy-aware machine learning algorithms for practical scalability and efficiency with cryptographic primitives like Homomorphic Encryption and Multi-Party Computation - without assumptions like trusted-party or secure hardware - for solid privacy guarantees. Experiments on standard benchmark datasets show that our approach results in time and memory gains by three orders of magnitude compared to using cryptographic primitives in a standalone for constructing a privacy-aware recommender system. Furthermore, for the first time our method makes it feasible to compute private recommendations for datasets containing 100 million entries, even on memory-constrained low-power SOC (System on Chip) devices. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# Phantom: 検索言語生成に対する一般的なトリガー攻撃
Phantom: General Trigger Attacks on Retrieval Augmented Language Generation ( http://arxiv.org/abs/2405.20485v1 ) ライセンス: Link先を確認 | Harsh Chaudhari, Giorgio Severi, John Abascal, Matthew Jagielski, Christopher A. Choquette-Choo, Milad Nasr, Cristina Nita-Rotaru, Alina Oprea, | (参考訳) Retrieval Augmented Generation (RAG)は、チャットボットアプリケーションにおける現代の大規模言語モデル(LLM)の機能を拡張し、開発者は高価なトレーニングや微調整なしでLLM出力を適応およびパーソナライズすることができる。
RAGシステムは、外部知識データベースを使用して、あるクエリの最も関連性の高いドキュメントを検索し、LLMジェネレータにこのコンテキストを提供する。
RAGは多くのアプリケーションで素晴らしいユーティリティを実現しているが、パーソナライズされた生成モデルを実現するための採用は、新たなセキュリティリスクをもたらす。
本研究では,被害者のRAGシステムに悪意のある1つの文書をその知識データベースに注入することにより,被害者のRAGシステムを危険にさらすための新たな攻撃面を提案する。
我々は、RAG拡張LDMに対する一般的な2段階攻撃フレームワークであるPhantomを設計する。
最初のステップは、RAGシステムによって検索されるように設計された有毒な文書を、被害者のクエリにバックドアとして機能する特定の単語列である敵のトリガーが存在する場合にのみ、トップk結果内に作成することである。
第2のステップでは、毒文書内の特別に製作された敵文字列が、LLMジェネレータの様々な敵攻撃をトリガーし、サービス拒否、評判のダメージ、プライバシー侵害、有害な行為が引き起こされる。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演する。
Retrieval Augmented Generation (RAG) expands the capabilities of modern large language models (LLMs) in chatbot applications, enabling developers to adapt and personalize the LLM output without expensive training or fine-tuning. RAG systems use an external knowledge database to retrieve the most relevant documents for a given query, providing this context to the LLM generator. While RAG achieves impressive utility in many applications, its adoption to enable personalized generative models introduces new security risks. In this work, we propose new attack surfaces for an adversary to compromise a victim's RAG system, by injecting a single malicious document in its knowledge database. We design Phantom, general two-step attack framework against RAG augmented LLMs. The first step involves crafting a poisoned document designed to be retrieved by the RAG system within the top-k results only when an adversarial trigger, a specific sequence of words acting as backdoor, is present in the victim's queries. In the second step, a specially crafted adversarial string within the poisoned document triggers various adversarial attacks in the LLM generator, including denial of service, reputation damage, privacy violations, and harmful behaviors. We demonstrate our attacks on multiple LLM architectures, including Gemma, Vicuna, and Llama. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 予測のためのポリシーツリー:機械学習のための解釈可能かつ適応的なモデル選択
Policy Trees for Prediction: Interpretable and Adaptive Model Selection for Machine Learning ( http://arxiv.org/abs/2405.20486v1 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Matthew Peroni, | (参考訳) 機械学習(ML)モデルがオープンソースソフトウェアや公開APIといった形で広く普及するにつれて、現実世界のアプリケーション、特に高い意思決定において、その使用に関して中心的な疑問が残る。
使用するべき最高のモデルは常に1つありますか?
モデルはいつエラーを起こしやすいのか?
ブラックボックスや解釈可能なモデルを使うべきか?
本研究では,予測モデルやアンサンブルを適応的に選択するための解釈可能なポリシと,予測を拒否するパラメータ化オプションを提供する,木に基づくアプローチであるOP2T(Optimal Predictive-Policy Trees)を導入することによって,これらの重要な問題に対処する規範的方法論を開発する。
我々はグローバルに最適化された規範木を学習することに基づく。
提案手法は,モデル出力へのアクセスを前提としてのみ,解釈可能かつ適応的なモデル選択と拒否を可能にする。
モデル出力を含むさまざまな機能領域に関するポリシーを学習することにより、我々のアプローチは構造化されたデータセットと非構造化されたデータセットの両方で動作する。
構造化データと非構造化データの両方を用いた回帰および分類タスクを含む実世界のデータセットに対する我々のアプローチを評価する。
このアプローチはベースラインメソッドに対して強力なパフォーマンスを提供すると同時に、どのモデルを使うべきか、いつ使うべきかという重要な疑問に答えるための洞察を与えます。
As a multitude of capable machine learning (ML) models become widely available in forms such as open-source software and public APIs, central questions remain regarding their use in real-world applications, especially in high-stakes decision-making. Is there always one best model that should be used? When are the models likely to be error-prone? Should a black-box or interpretable model be used? In this work, we develop a prescriptive methodology to address these key questions, introducing a tree-based approach, Optimal Predictive-Policy Trees (OP2T), that yields interpretable policies for adaptively selecting a predictive model or ensemble, along with a parameterized option to reject making a prediction. We base our methods on learning globally optimized prescriptive trees. Our approach enables interpretable and adaptive model selection and rejection while only assuming access to model outputs. By learning policies over different feature spaces, including the model outputs, our approach works with both structured and unstructured datasets. We evaluate our approach on real-world datasets, including regression and classification tasks with both structured and unstructured data. We demonstrate that our approach provides both strong performance against baseline methods while yielding insights that help answer critical questions about which models to use, and when. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 連続・ベクトル変数に対する因果関係の確率
Probabilities of Causation for Continuous and Vector Variables ( http://arxiv.org/abs/2405.20487v1 ) ライセンス: Link先を確認 | Yuta Kawakami, Manabu Kuroki, Jin Tian, | (参考訳) 因果関係の確率(PoC)は、説明可能な人工知能と実践的な意思決定のための貴重な概念である。
PoCはもともとスカラーバイナリ変数として定義されている。
本稿では、PoCの概念を連続処理と結果変数に拡張し、さらにPoCを一般化し、複数の処理と複数の結果の間の因果効果を捉える。
さらに,PoCをサブポピュレーションとして,PoCを多義的な用語で表現することで,意思決定に有用なより洗練された偽情報を取得する。
導入するPoCのタイプ毎に非パラメトリック同定定理を提供する。
最後に、実世界の教育に関するデータセットに結果の適用について説明する。
Probabilities of causation (PoC) are valuable concepts for explainable artificial intelligence and practical decision-making. PoC are originally defined for scalar binary variables. In this paper, we extend the concept of PoC to continuous treatment and outcome variables, and further generalize PoC to capture causal effects between multiple treatments and multiple outcomes. In addition, we consider PoC for a sub-population and PoC with multi-hypothetical terms to capture more sophisticated counterfactual information useful for decision-making. We provide a nonparametric identification theorem for each type of PoC we introduce. Finally, we illustrate the application of our results on a real-world dataset about education. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 事前学習データにおける光崩壊による拡散モデルの改善
Slight Corruption in Pre-training Data Makes Better Diffusion Models ( http://arxiv.org/abs/2405.20494v1 ) ライセンス: Link先を確認 | Hao Chen, Yujin Han, Diganta Misra, Xiang Li, Kai Hu, Difan Zou, Masashi Sugiyama, Jindong Wang, Bhiksha Raj, | (参考訳) 拡散モデル(DM)は、現実的な高品質の画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
これは、ペア化されたデータと、画像テキストや画像クラスのペアのような条件を持つWebクロールデータを含む、大規模なデータセットの広範な事前トレーニングの恩恵を受ける。
厳密なフィルタリングにも拘わらず、これらの事前学習データセットは、データを正確に記述していない状態の破損したペアを必然的に含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
画像Net-1KとCC3Mを合成分解し,50以上の条件DMを評価した。
実験により, 事前訓練および下流適応段階において, 画像の品質, 多様性, 忠実度を著しく向上させることができることが明らかとなった。
理論的には,ガウス混合モデルについて考察し,この条件下での微弱な破損が,不正に訓練されたDMが生み出すデータ分布の基底真実に対するエントロピーと2-ワッサーシュタイン距離を減少させることを示す。
そこで本研究では,条件埋め込み摂動(CEP)を付加することにより,実用的なデータセット上でのDMのトレーニングを改善するための簡単な手法を提案する。
CEPは、トレーニング前タスクと下流タスクの両方において、様々なDMの性能を大幅に改善する。
我々は、DMのデータと事前学習プロセスを理解するための新たな洞察を提供することを期待している。
Diffusion models (DMs) have shown remarkable capabilities in generating realistic high-quality images, audios, and videos. They benefit significantly from extensive pre-training on large-scale datasets, including web-crawled data with paired data and conditions, such as image-text and image-class pairs. Despite rigorous filtering, these pre-training datasets often inevitably contain corrupted pairs where conditions do not accurately describe the data. This paper presents the first comprehensive study on the impact of such corruption in pre-training data of DMs. We synthetically corrupt ImageNet-1K and CC3M to pre-train and evaluate over 50 conditional DMs. Our empirical findings reveal that various types of slight corruption in pre-training can significantly enhance the quality, diversity, and fidelity of the generated images across different DMs, both during pre-training and downstream adaptation stages. Theoretically, we consider a Gaussian mixture model and prove that slight corruption in the condition leads to higher entropy and a reduced 2-Wasserstein distance to the ground truth of the data distribution generated by the corruptly trained DMs. Inspired by our analysis, we propose a simple method to improve the training of DMs on practical datasets by adding condition embedding perturbations (CEP). CEP significantly improves the performance of various DMs in both pre-training and downstream tasks. We hope that our study provides new insights into understanding the data and pre-training processes of DMs. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# Transfer Q Star: LLMアライメントのための原則デコーディング
Transfer Q Star: Principled Decoding for LLM Alignment ( http://arxiv.org/abs/2405.20495v1 ) ライセンス: Link先を確認 | Souradip Chakraborty, Soumya Suvra Ghosal, Ming Yin, Dinesh Manocha, Mengdi Wang, Amrit Singh Bedi, Furong Huang, | (参考訳) ファンデーションモデルのアラインメントは、安全で信頼性の高いデプロイメントに不可欠です。
しかし、従来の微調整手法は計算集約的であり、数十億のモデルパラメータを更新する必要がある。
期待できる代替手段は、デコーディングによるアライメントで、モデル更新なしで応答分布を直接調整し、目標の$r$を最大化することで、アライメントのための軽量で適応可能なフレームワークを提供する。
しかし、原理化された復号法は、しばしば実際に利用できない最適なQ関数(Q^*$)へのオラクルアクセスに依存している。
したがって、以前のSoTAメソッドはこの$Q^*$を$Q^{\pi_{\textt{sft}}}$(参照 $\texttt{SFT}$ model に由来する)で近似するか、短期的な報酬に依存して、準最適復号性能をもたらす。
本研究では、ベースラインモデルを通してターゲット報酬$r$の最適値関数を暗黙的に推定するTransfer $Q^*$を提案し、ベースラインモデル$\rho_{\textt{BL}}$とベースライン報酬$\rho_{\textt{BL}}$(ターゲット報酬$r$と異なる場合もある)を一致させる。
Transfer $Q^*$の理論的解析は、その最適性を厳密に評価し、サブ最適性ギャップの上限を導出し、事前訓練された参照$\texttt{SFT}$モデルから逸脱を制御するハイパーパラメータを識別する。
提案手法は,従来のSoTA法で観測された準最適性ギャップを著しく低減し,複数の合成および実データに対する広範囲な試験において,コヒーレンス,多様性,品質といった重要な指標にまたがる優れた経験的性能を示す。
Aligning foundation models is essential for their safe and trustworthy deployment. However, traditional fine-tuning methods are computationally intensive and require updating billions of model parameters. A promising alternative, alignment via decoding, adjusts the response distribution directly without model updates to maximize a target reward $r$, thus providing a lightweight and adaptable framework for alignment. However, principled decoding methods rely on oracle access to an optimal Q-function ($Q^*$), which is often unavailable in practice. Hence, prior SoTA methods either approximate this $Q^*$ using $Q^{\pi_{\texttt{sft}}}$ (derived from the reference $\texttt{SFT}$ model) or rely on short-term rewards, resulting in sub-optimal decoding performance. In this work, we propose Transfer $Q^*$, which implicitly estimates the optimal value function for a target reward $r$ through a baseline model $\rho_{\texttt{BL}}$ aligned with a baseline reward $\rho_{\texttt{BL}}$ (which can be different from the target reward $r$). Theoretical analyses of Transfer $Q^*$ provide a rigorous characterization of its optimality, deriving an upper bound on the sub-optimality gap and identifying a hyperparameter to control the deviation from the pre-trained reference $\texttt{SFT}$ model based on user needs. Our approach significantly reduces the sub-optimality gap observed in prior SoTA methods and demonstrates superior empirical performance across key metrics such as coherence, diversity, and quality in extensive tests on several synthetic and real datasets. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 混合変数問題に対するハイブリッド強化学習フレームワーク
Hybrid Reinforcement Learning Framework for Mixed-Variable Problems ( http://arxiv.org/abs/2405.20500v1 ) ライセンス: Link先を確認 | Haoyan Zhai, Qianli Hu, Jiangning Chen, | (参考訳) 離散変数と連続変数の両方によって特徴づけられる最適化問題は、様々な分野に共通しており、複雑な解のランドスケープと混合変数空間を効果的にナビゲートすることの難しさにより、固有の課題が提示される。
これらの課題に対処するために、離散変数選択のためのRLと連続変数調整のためのベイズ最適化を相乗化するハイブリッド強化学習(RL)フレームワークを導入する。
このフレームワークは、RLと継続的最適化の戦略的統合で際立っている。
離散的な決定空間を探索するためのRLと連続パラメータを洗練するためのベイズ最適化を用いることで、我々のアプローチは柔軟性を示すだけでなく、最適化性能も向上する。
合成関数と実世界の機械学習ハイパーパラメータチューニングタスクに関する実験により,従来のRL,ランダム探索,スタンドアローンベイズ最適化を効率と効率で一貫した性能向上を実現した。
Optimization problems characterized by both discrete and continuous variables are common across various disciplines, presenting unique challenges due to their complex solution landscapes and the difficulty of navigating mixed-variable spaces effectively. To Address these challenges, we introduce a hybrid Reinforcement Learning (RL) framework that synergizes RL for discrete variable selection with Bayesian Optimization for continuous variable adjustment. This framework stands out by its strategic integration of RL and continuous optimization techniques, enabling it to dynamically adapt to the problem's mixed-variable nature. By employing RL for exploring discrete decision spaces and Bayesian Optimization to refine continuous parameters, our approach not only demonstrates flexibility but also enhances optimization performance. Our experiments on synthetic functions and real-world machine learning hyperparameter tuning tasks reveal that our method consistently outperforms traditional RL, random search, and standalone Bayesian optimization in terms of effectiveness and efficiency. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# ShelfHelp:人間に視覚に依存しない操作タスクを社会的に補助的なロボット犬で実行させる
ShelfHelp: Empowering Humans to Perform Vision-Independent Manipulation Tasks with a Socially Assistive Robotic Cane ( http://arxiv.org/abs/2405.20501v1 ) ライセンス: Link先を確認 | Shivendra Agrawal, Suresh Nayak, Ashutosh Naik, Bradley Hayes, | (参考訳) 特に食料品店で独立して買い物をする能力は、高品質な生活を維持する上で重要である。
これは視覚障害者(PVI)にとって特に困難である。
ストアには何千もの製品があり、アメリカでは毎年3万もの新製品が発売されている。
この研究を通じて、私たちはShelfHelpと呼ぶ概念実証型社会支援ロボットシステムを提案し、伝統的に、ショッピング領域内で追加機能を備えたナビゲーションタスクを目的とした、計測された杖の強化のための新しい技術ソリューションを提案する。
ShelfHelpには、食料品店での使用用に設計された新しいビジュアル製品ロケータアルゴリズムと、商品検索中にユーザーを誘導する言語操作指導コマンドを自律的に発行する新しいプランナーが含まれている。
人間の被験者による研究を通じて,初級者を対象に,希望する商品を検索するための効果的な操作指導を行うシステムの成功を示す。
本稿では,人間の援助ベースラインに匹敵するパフォーマンスを達成する2つの自律的言語指導モードを比較し,システムの有効性と有効性を検証すること,そして能力,知性,使いやすさなどのポジティブな主観的指標を通じて,その効果を実証する。
The ability to shop independently, especially in grocery stores, is important for maintaining a high quality of life. This can be particularly challenging for people with visual impairments (PVI). Stores carry thousands of products, with approximately 30,000 new products introduced each year in the US market alone, presenting a challenge even for modern computer vision solutions. Through this work, we present a proof-of-concept socially assistive robotic system we call ShelfHelp, and propose novel technical solutions for enhancing instrumented canes traditionally meant for navigation tasks with additional capability within the domain of shopping. ShelfHelp includes a novel visual product locator algorithm designed for use in grocery stores and a novel planner that autonomously issues verbal manipulation guidance commands to guide the user during product retrieval. Through a human subjects study, we show the system's success in locating and providing effective manipulation guidance to retrieve desired products with novice users. We compare two autonomous verbal guidance modes achieving comparable performance to a human assistance baseline and present encouraging findings that validate our system's efficiency and effectiveness and through positive subjective metrics including competence, intelligence, and ease of use. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# cnn-Bigru性能の最適化:Reluを用いたミッシュアクティベーションと比較分析
Optimizing cnn-Bigru performance: Mish activation and comparative analysis with Relu ( http://arxiv.org/abs/2405.20503v1 ) ライセンス: Link先を確認 | Asmaa Benchama, Khalid Zebbara, | (参考訳) ディープラーニングは現在、さまざまな研究領域で広く利用されている。
ディープラーニング技術の継続的な進歩は、複雑な課題の解決に寄与する。
アクティベーション関数(AF)はニューラルネットワークの基本コンポーネントであり、データ内の複雑なパターンや関係をキャプチャすることができる。
非線型性を導入することで、AFはニューラルネットワークに、現実世界のデータの多様性とニュアンスの性質をモデル化し、適応させ、さまざまなタスクにわたって正確な予測を行う能力を高める。
ASNM-TUN、ASNM-CDX、HOGZILLAの3つのデータセットを使用して、最近のAFであるMishがCNN-BiGRUモデルで実装された。
広く使われているAFであるRectified Linear Unit (ReLU)との比較により、MishはReLUより優れており、評価されたデータセット全体で優れたパフォーマンスを示していることが明らかになった。
本研究は, 侵入検知システムの性能向上におけるAFの有効性を照らすものである。
Deep learning is currently extensively employed across a range of research domains. The continuous advancements in deep learning techniques contribute to solving intricate challenges. Activation functions (AF) are fundamental components within neural networks, enabling them to capture complex patterns and relationships in the data. By introducing non-linearities, AF empowers neural networks to model and adapt to the diverse and nuanced nature of real-world data, enhancing their ability to make accurate predictions across various tasks. In the context of intrusion detection, the Mish, a recent AF, was implemented in the CNN-BiGRU model, using three datasets: ASNM-TUN, ASNM-CDX, and HOGZILLA. The comparison with Rectified Linear Unit (ReLU), a widely used AF, revealed that Mish outperforms ReLU, showcasing superior performance across the evaluated datasets. This study illuminates the effectiveness of AF in elevating the performance of intrusion detection systems. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# FCOM: 表現学習による協調型オンラインモニタリングフレームワーク
FCOM: A Federated Collaborative Online Monitoring Framework via Representation Learning ( http://arxiv.org/abs/2405.20504v1 ) ライセンス: Link先を確認 | Tanapol Kosolwattana, Huazheng Wang, Raed Al Kontar, Ying Lin, | (参考訳) オンライン学習は、大量のプロセスを監視するために、限られた資源を動的に割り当てる可能性を示し、高い報酬をもたらすプロセスの搾取と不確実なプロセスの探索を効果的にバランスさせてきた。
しかし、ほとんどのオンライン学習アルゴリズムは、その下に設計されている。
1)正確な予測を得るためにプロセス間でデータ共有を必要とする集中的な設定
2) 分散データから単一グローバルモデルを推定する均一性仮定。
分散化データから異種プロセスのオンライン学習を容易にするために, 人口固有の潜在代表モデルを表現学習により捕捉し, 連続的に観測された分散化データから代表モデルを推定する, 新規な協調型 UCB アルゴリズムを設計するフェデレーション協調型オンラインモニタリング手法を提案する。
本手法の有効性は,アルツハイマー病における理論解析,シミュレーション研究,分散型認知劣化モニタリングを通じて明らかにした。
Online learning has demonstrated notable potential to dynamically allocate limited resources to monitor a large population of processes, effectively balancing the exploitation of processes yielding high rewards, and the exploration of uncertain processes. However, most online learning algorithms were designed under 1) a centralized setting that requires data sharing across processes to obtain an accurate prediction or 2) a homogeneity assumption that estimates a single global model from the decentralized data. To facilitate the online learning of heterogeneous processes from the decentralized data, we propose a federated collaborative online monitoring method, which captures the latent representative models inherent in the population through representation learning and designs a novel federated collaborative UCB algorithm to estimate the representative models from sequentially observed decentralized data. The efficiency of our method is illustrated through theoretical analysis, simulation studies, and decentralized cognitive degradation monitoring in Alzheimer's disease. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# SPOT: オリジナルスコアによるテキストソース予測
SPOT: Text Source Prediction from Originality Score Thresholding ( http://arxiv.org/abs/2405.20505v1 ) ライセンス: Link先を確認 | Edouard Yvinec, Gabriel Kasser, | (参考訳) 大規模言語モデル(LLM)の広く受け入れられたことにより、新しいアプリケーションや社会的リスクが解き放たれた。
一般的な対策は、偽情報を検出することであり、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
本研究では,LLMや人間によって入力テキストが生成されるかどうかを知る能力として信頼を定義する。
そこで本研究では,本手法を用いて,本手法を用いてテキスト入力のソースを分類するSPOTを設計する。
このスコアは、他のLLMを検出するために与えられたLLMの予測から導かれる。
提案手法のアーキテクチャへの堅牢性, トレーニングデータ, 評価データ, タスク, 圧縮性を実証的に実証した。
The wide acceptance of large language models (LLMs) has unlocked new applications and social risks. Popular countermeasures aim at detecting misinformation, usually involve domain specific models trained to recognize the relevance of any information. Instead of evaluating the validity of the information, we propose to investigate LLM generated text from the perspective of trust. In this study, we define trust as the ability to know if an input text was generated by a LLM or a human. To do so, we design SPOT, an efficient method, that classifies the source of any, standalone, text input based on originality score. This score is derived from the prediction of a given LLM to detect other LLMs. We empirically demonstrate the robustness of the method to the architecture, training data, evaluation data, task and compression of modern LLMs. | 翻訳日:2024-06-03 18:05:15 公開日:2024-05-30 |
# 質量・電荷干渉計の時間・距離制約
Time and distance constraints for mass and charge interferometry ( http://arxiv.org/abs/2405.20507v1 ) ライセンス: Link先を確認 | Adrian Kent, | (参考訳) 我々は、Mari et al (2016) によって同定された質量および電荷干渉の制約を再解析し、拡張する。
我々は、コヒーレント干渉に要する時間に対する制約を2倍に拡張できることを示す。
我々は、その解析を1つの干渉計が別の干渉計によって生成された重力場や電場を測定する実験に拡張する。
これらの分析は、質量または電荷干渉計の最大分離と、バックリアクションなしで実行できる重力または電場の測定との最大分離を示唆している。
We reanalyse and extend constraints on mass and charge interferometry identified by Mari et al. (2016). We show that their constraint on the time required for coherent interference can be extended by a factor of two. We extend their analysis to consider experiments in which one interferometer measures gravitational or electric fields generated by another. We note that these analyses imply a maximum separation between a mass or charge interferometer and a decohering gravitational or electric field measurement that can be carried out without backreaction. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 単一画像からの物理的に適合する3次元物体モデリング
Physically Compatible 3D Object Modeling from a Single Image ( http://arxiv.org/abs/2405.20510v1 ) ライセンス: Link先を確認 | Minghao Guo, Bohan Wang, Pingchuan Ma, Tianyuan Zhang, Crystal Elaine Owens, Chuang Gan, Joshua B. Tenenbaum, Kaiming He, Wojciech Matusik, | (参考訳) 単一画像を3次元物理オブジェクトに変換する計算フレームワークを提案する。
画像中の物体の視覚的幾何学は、機械的特性、外部力、静止形状の3つの直交特性によって決定される。
既存の1次元の3D再構成手法は、剛性や外力の無視を前提として、しばしばこの基礎となる構成を見落としている。
その結果、再構成された物体は現実世界の物理的力に耐えられず、不安定または望ましくない変形をもたらす。
我々の最適化フレームワークは、物理互換性を再構築プロセスに埋め込むことによって、この問題に対処する。
3つの物理的属性を明示的に分解し、静的平衡によってリンクし、これはハード制約として機能し、最適化された物理的形状が望ましい物理的挙動を示すことを保証する。
Objaverseから収集したデータセットの評価は、我々のフレームワークが既存の手法よりも連続的に3Dモデルの物理的現実性を高めることを示した。
我々のフレームワークの実用性は、動的シミュレーションや3Dプリンティングにおける実践的な応用にまで拡張され、物理的互換性への固執が最重要である。
We present a computational framework that transforms single images into 3D physical objects. The visual geometry of a physical object in an image is determined by three orthogonal attributes: mechanical properties, external forces, and rest-shape geometry. Existing single-view 3D reconstruction methods often overlook this underlying composition, presuming rigidity or neglecting external forces. Consequently, the reconstructed objects fail to withstand real-world physical forces, resulting in instability or undesirable deformation -- diverging from their intended designs as depicted in the image. Our optimization framework addresses this by embedding physical compatibility into the reconstruction process. We explicitly decompose the three physical attributes and link them through static equilibrium, which serves as a hard constraint, ensuring that the optimized physical shapes exhibit desired physical behaviors. Evaluations on a dataset collected from Objaverse demonstrate that our framework consistently enhances the physical realism of 3D models over existing methods. The utility of our framework extends to practical applications in dynamic simulations and 3D printing, where adherence to physical compatibility is paramount. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 翻訳用に微調整された大言語モデルの多言語化
How Multilingual Are Large Language Models Fine-Tuned for Translation? ( http://arxiv.org/abs/2405.20512v1 ) ライセンス: Link先を確認 | Aquia Richburg, Marine Carpuat, | (参考訳) 機械翻訳の新しいパラダイムが最近出現した: 並列テキスト上の微調整大言語モデル(LLM)は、大量の並列データ(Xu et al , 2024a; Alves et al , 2024)で教師付きで訓練された専用翻訳システムより優れていることが示されている。
しかし、このパラダイムが多言語機械翻訳を可能にするのか、あるいは少数の言語ペアに対して微調整専用モデルを必要とするのかは不明だ。
翻訳の微調整は、ゼロショット言語、ゼロショット言語ペア、英語を含まない翻訳タスクのLLMのMT機能にどのように影響しますか?
これらの問題に対処するため,マルチ並列FLORES-200データから132の翻訳タスクに対して,TOWERファミリーの言語モデル(Allves et al , 2024)の翻訳品質を広範囲に評価した。
翻訳の微調整により、ゼロショット言語でも平均で翻訳品質が向上するが、関連する言語ペアによる影響は不均一である。
これらの結果から,LLMを用いた多言語翻訳を効果的に実現するためのさらなる研究が求められている。
A new paradigm for machine translation has recently emerged: fine-tuning large language models (LLM) on parallel text has been shown to outperform dedicated translation systems trained in a supervised fashion on much larger amounts of parallel data (Xu et al., 2024a; Alves et al., 2024). However, it remains unclear whether this paradigm can enable massively multilingual machine translation or whether it requires fine-tuning dedicated models for a small number of language pairs. How does translation fine-tuning impact the MT capabilities of LLMs for zero-shot languages, zero-shot language pairs, and translation tasks that do not involve English? To address these questions, we conduct an extensive empirical evaluation of the translation quality of the TOWER family of language models (Alves et al., 2024) on 132 translation tasks from the multi-parallel FLORES-200 data. We find that translation fine-tuning improves translation quality even for zero-shot languages on average, but that the impact is uneven depending on the language pairs involved. These results call for further research to effectively enable massively multilingual translation with LLMs. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 非ガウスアレタリック不確かさの深部モデリング
Deep Modeling of Non-Gaussian Aleatoric Uncertainty ( http://arxiv.org/abs/2405.20513v1 ) ライセンス: Link先を確認 | Aastha Acharya, Caleb Lee, Marissa D'Alonzo, Jared Shamwell, Nisar R. Ahmed, Rebecca Russell, | (参考訳) ディープラーニングは、ロボット推定システムにおけるアレタリック不確実性を正確にモデル化するための、有望な新しい方法を提供する。
本研究では, パラメトリック, 離散化, 生成モデリングの3つの基礎的深層学習手法を, 条件付き確率密度モデリングで定式化し評価する。
我々は,これらの3つの手法の強みと弱みを実世界の地形関連航法データだけでなく,非ガウス密度をシミュレートする上で体系的に比較した。
以上の結果から,これらの深層学習手法は複雑な不確実性パターンを正確に把握し,評価システムの信頼性と堅牢性を向上させる可能性を強調した。
Deep learning offers promising new ways to accurately model aleatoric uncertainty in robotic estimation systems, particularly when the uncertainty distributions do not conform to traditional assumptions of being fixed and Gaussian. In this study, we formulate and evaluate three fundamental deep learning approaches for conditional probability density modeling to quantify non-Gaussian aleatoric uncertainty: parametric, discretized, and generative modeling. We systematically compare the respective strengths and weaknesses of these three methods on simulated non-Gaussian densities as well as on real-world terrain-relative navigation data. Our results show that these deep learning methods can accurately capture complex uncertainty patterns, highlighting their potential for improving the reliability and robustness of estimation systems. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 量子重力のテストでは、質量を局所化として扱うべきだろうか?
Should we necessarily treat masses as localized when analysing tests of quantum gravity? ( http://arxiv.org/abs/2405.20514v1 ) ライセンス: Link先を確認 | Adrian Kent, | (参考訳) 最近提案された「量子重力のテーブルトップテスト」では、非相対論的速度で質量の重ね合わせを作成し、分離し、再結合する。
一般的な期待は、これらがニュートンポテンシャルを介して重力場の重畳を生成することである。
分析は、干渉実験が十分に小さな加速を必要とする場合、無視可能な重力放射が生成されることを示唆している。
これについて考える1つの方法は、物質と静的重力場が一時的に絡み合っており、その後に絡み合わされるということです。
もう一つは、静的重力場の自由度が物質に依存し、別のヒルベルト空間に属さないことと、物質と動的重力場の自由度の間には常に無視可能な絡み合いがあることである。
この最後の図では、局所化された質量は、ニュートンポテンシャルとは分離できない無限に拡張された物体となる。
この図は、非量子重力の完全な相対論的理論にまで拡張することは困難に思えるが、BMVや他の非相対論的実験が重力の量子的性質をテストするかどうかを解析するために重要な意味を持つ。
BMV実験の質量が重なり合う領域(または実際には空間の全て)を占めると見なされる場合、それらがどのように絡み合うかを説明するには、それらの重力相互作用が量子情報交換を伴う必要はない。
この観点では、実験は、量子論がすべての関連する自由度を記述している状態において重力をテストするが、必ずしも量子の性質をテストするわけではない。
量子重力以外のもっともらしい説明はこれらの実験と相対性理論の両方と一致しないかもしれないと論じられるかもしれない。
しかし、これはさらなる理論的な仮定に依存しており、実験だけで量子重力相互作用の直接的な証拠を主張するよりも弱い。
Recently proposed ``table-top tests of quantum gravity'' involve creating, separating and recombining superpositions of masses at non-relativistic speeds. The general expectation is that these generate superpositions of gravitational fields via the Newtonian potential. Analyses suggest that negligible gravitational radiation is generated if the interference experiments involve sufficiently small accelerations. One way of thinking about this is that matter and the static gravitational field are temporarily entangled and then disentangled. Another is that the static gravitational field degrees of freedom are dependent on the matter and do not belong to a separate Hilbert space, and that there is always negligible entanglement between matter and dynamical gravitational degrees of freedom. In this last picture, localized masses effectively become infinitely extended objects, inseparable from their Newtonian potentials. While this picture seems hard to extend to a fully relativistic theory of non-quantum gravity, it has significant implications for analyses of how or whether BMV and other non-relativistic experiments might test the quantum nature of gravity. If the masses in a BMV experiment are regarded as occupying overlapping regions (or indeed all of space), explaining how they become entangled does not require that their gravitational interaction involves quantum information exchange. On this view, while the experiments test gravity in a regime where quantum theory describes all relevant matter degrees of freedom, they do not necessarily test its quantum nature. It might be argued that no plausible explanation other than quantum gravity could be consistent both with these experiments and with relativity. But this relies on further theoretical assumptions and is weaker than claiming direct evidence for quantum gravitational interactions from the experiments alone. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# WaveCastNet - 地震早期警戒のためのAI対応のウェーブフィールド予測フレームワーク
WaveCastNet: An AI-enabled Wavefield Forecasting Framework for Earthquake Early Warning ( http://arxiv.org/abs/2405.20516v1 ) ライセンス: Link先を確認 | Dongwei Lyu, Rie Nakata, Pu Ren, Michael W. Mahoney, Arben Pitarka, Nori Nakata, N. Benjamin Erichson, | (参考訳) 大規模な地震は破壊され、地形に急速に浸食されることがある。
緊急の脅威を軽減するため、地震波が到着する直前に住民、緊急対応者、重要なインフラオペレーターに警告する早期警報システムが開発された。
これらの警告は、予防措置を講じ、損傷を防ぐ時間を与えます。
これらのシステムの成功は、地震の複雑な物理、波動伝播、複雑な空間的および時間的相互作用のために難しい、高速で正確な地動強度の予測に依存している。
早期警戒を改善するため,大地震の震動を予測するための新しいAI対応フレームワークWaveCastNetを提案する。
WaveCastNetは、新しい畳み込みLong Expressive Memory(ConvLEM)モデルをSequence to sequence(seq2seq)予測フレームワークに統合し、長期の依存関係とマルチスケールパターンを空間と時間の両方でモデル化する。
WaveCastNetは、空間的次元と時間的次元で重みを共有するが、トランスフォーマーのようなリソース集約モデルに比べてパラメータが少ないため、推論時間が短縮される。
重要なことは、WaveCastNetはトランスフォーマーベースのモデルよりも、より稀で重要な地震を含む様々な地震シナリオを一般化する。
サンフランシスコ・ベイエリアのシミュレーションデータを用いて, 地震動の強度とタイミングを迅速に予測できることを示す。
提案手法では, 従来手法による誤差の少ない震度・震源の推定は不要であり, また, 強不均一波動伝搬効果の観測に失敗する経験的地動モデルも不要である。
Large earthquakes can be destructive and quickly wreak havoc on a landscape. To mitigate immediate threats, early warning systems have been developed to alert residents, emergency responders, and critical infrastructure operators seconds to a minute before seismic waves arrive. These warnings provide time to take precautions and prevent damage. The success of these systems relies on fast, accurate predictions of ground motion intensities, which is challenging due to the complex physics of earthquakes, wave propagation, and their intricate spatial and temporal interactions. To improve early warning, we propose a novel AI-enabled framework, WaveCastNet, for forecasting ground motions from large earthquakes. WaveCastNet integrates a novel convolutional Long Expressive Memory (ConvLEM) model into a sequence to sequence (seq2seq) forecasting framework to model long-term dependencies and multi-scale patterns in both space and time. WaveCastNet, which shares weights across spatial and temporal dimensions, requires fewer parameters compared to more resource-intensive models like transformers and thus, in turn, reduces inference times. Importantly, WaveCastNet also generalizes better than transformer-based models to different seismic scenarios, including to more rare and critical situations with higher magnitude earthquakes. Our results using simulated data from the San Francisco Bay Area demonstrate the capability to rapidly predict the intensity and timing of destructive ground motions. Importantly, our proposed approach does not require estimating earthquake magnitudes and epicenters, which are prone to errors using conventional approaches; nor does it require empirical ground motion models, which fail to capture strongly heterogeneous wave propagation effects. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 駆動型散逸性スピン鎖における量子相転移のシグナチャ
Signatures of Quantum Phase Transitions in Driven Dissipative Spin Chains ( http://arxiv.org/abs/2405.20518v1 ) ライセンス: Link先を確認 | Mostafa Ali, Naushad A. Kamar, Alireza Seif, Mohammad Maghrebi, | (参考訳) オープン駆動型量子システムは、非平衡相と相転移の強力なパラダイムを定義してきたが、散逸のデコヒーリング効果のため、この設定では一般に量子相転移は期待されない。
本研究では、駆動散逸性量子スピン鎖が基底状態の量子相転移に対して特異な感度を示すことを示す。
具体的には、バルク散逸($\Gamma$)を受ける量子イジングモデルを考察し、相関長が有限であるにもかかわらず(相転移がない)、基底状態の量子臨界点に近い発音ピークを発達させることを示す。
標準的な手法は、この状態では失敗するように見えるが、私たちは、散逸が消える(\Gamma \to 0$, only finite $\Gamma t$)と正確になる多角的解析的アプローチを開発する。
技術的なレベルでは、我々のアプローチは、系の状態が徐々に進化する一般化されたギブズアンサンブルによって記述され、(自由フェルミオンによって記述される)ハミルトンの可積分性を考慮しつつ、散逸を摂動的に扱い、フェルミオン相関子に対する非自明な非線形方程式をもたらすという以前の研究に基づいている。
最後に、ハミルトニアンリードの可積分性破壊的摂動が同じ挙動を導くという、ある種の普遍性を示す。
Open driven quantum systems have defined a powerful paradigm of non-equilibrium phases and phase transitions; however, quantum phase transitions are generically not expected in this setting due to the decohering effect of dissipation. In this work, we show that a driven-dissipative quantum spin chain exhibits a peculiar sensitivity to the ground-state quantum phase transition. Specifically, we consider a quantum Ising model subject to bulk dissipation (at rate $\Gamma$) and show that, although the correlation length remains finite (hence no phase transition), it develops a pronounced peak close to the ground-state quantum critical point. While standard techniques seem to fail in this regime, we develop a versatile analytical approach that becomes exact with vanishing dissipation ($\Gamma \to 0$ but finite $\Gamma t$). On a technical level, our approach builds on previous work where the state of the system is described by a slowly evolving generalized Gibbs ensemble that accounts for the integrability of the Hamiltonian (described by free fermions) while treating dissipation perturbatively which leads to nontrivial, nonlinear equations for fermionic correlators. Finally, we demonstrate a kind of universality in that integrability-breaking perturbations of the Hamiltonian lead to the same behavior. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# プログラム合成のための構文木上の拡散
Diffusion On Syntax Trees For Program Synthesis ( http://arxiv.org/abs/2405.20519v1 ) ライセンス: Link先を確認 | Shreyas Kapur, Erik Jenner, Stuart Russell, | (参考訳) 大規模言語モデルは一度に1つのトークンを生成する。
彼らの自己回帰生成プロセスは、プログラムの出力を観察するフィードバックを欠いている。
リッチな編集データが不足しているため、直接編集を提案するためのLLMのトレーニングは困難である。
これらの問題に対処するために、文脈自由文法の構文木で動作する神経拡散モデルを提案する。
画像拡散モデルと同様に、構文木に適用した ``noise'' も反転する。
逐次的にコードを生成するのではなく、構文的妥当性を維持しながら反復的に編集するので、このニューラルモデルと検索を簡単に組み合わせることができる。
この手法を逆グラフィックスタスクに適用し,そのモデルで画像を生成するプログラムに変換する方法を学習する。
検索と組み合わせることで、我々のモデルはグラフィックスプログラムを作成し、実行結果を確認し、必要な仕様を満たすためにデバッグすることができる。
また,手描きスケッチのためのグラフィックプログラムの書き方についても紹介する。
Large language models generate code one token at a time. Their autoregressive generation process lacks the feedback of observing the program's output. Training LLMs to suggest edits directly can be challenging due to the scarcity of rich edit data. To address these problems, we propose neural diffusion models that operate on syntax trees of any context-free grammar. Similar to image diffusion models, our method also inverts ``noise'' applied to syntax trees. Rather than generating code sequentially, we iteratively edit it while preserving syntactic validity, which makes it easy to combine this neural model with search. We apply our approach to inverse graphics tasks, where our model learns to convert images into programs that produce those images. Combined with search, our model is able to write graphics programs, see the execution result, and debug them to meet the required specifications. We additionally show how our system can write graphics programs for hand-drawn sketches. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# SoK: パブリックブロックチェーンのシャーディング
SoK: Public Blockchain Sharding ( http://arxiv.org/abs/2405.20521v1 ) ライセンス: Link先を確認 | Md Mohaimin Al Barat, Shaoyu Li, Changlai Du, Y. Thomas Hou, Wenjing Lou, | (参考訳) ブロックチェーンの分散化、透明性、およびタンパー抵抗性は、様々なアプリケーション分野におけるシステムの活用を促進する。
しかしながら、低スループットと高い確認レイテンシは、Blockchainの普及を妨げている。
これらの問題に対処するために、第1層ソリューション(または、オンチェーンソリューション)や第2層ソリューション(または、オフチェーンソリューション)など、多くのソリューションが提案されている。
提案されたソリューションの中で、ブロックチェーンシャーディングシステムは最もスケーラブルなシステムであり、ネットワーク内のノードは複数のグループに分割されている。
異なるシャードのノードは並列に動作し、トランザクションを検証してブロックに追加する。
しかし、以前の研究はブロックチェーンのシャーディングにおける最新の成果を十分に要約していない。
私たちの研究は、シャーディングシステムのコアコンポーネント、課題、制限、最新のシャーディングプロトコルのメカニズムを含む、パブリックブロックチェーンシャーディングに関する知識の体系化を提供します。
また、それらの性能を比較し、現在の制約と今後の研究方向性について議論する。
Blockchain's decentralization, transparency, and tamper-resistance properties have facilitated the system's use in various application fields. However, the low throughput and high confirmation latency hinder the widespread adoption of Blockchain. Many solutions have been proposed to address these issues, including first-layer solutions (or on-chain solutions) and second-layer solutions (or off-chain solutions). Among the proposed solutions, the blockchain sharding system is the most scalable one, where the nodes in the network are divided into several groups. The nodes in different shards work in parallel to validate the transactions and add them to the blocks, and in such a way, the throughput increases significantly. However, previous works have not adequately summarized the latest achievements in blockchain sharding, nor have they fully showcased its state-of-the-art. Our study provides a systemization of knowledge of public blockchain sharding, including the core components of sharding systems, challenges, limitations, and mechanisms of the latest sharding protocols. We also compare their performance and discuss current constraints and future research directions. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 2値スパース符号化QUBO問題のサンプリングのための量子アニーリングとスパイキングニューロモルフィック計算の比較
Comparing Quantum Annealing and Spiking Neuromorphic Computing for Sampling Binary Sparse Coding QUBO Problems ( http://arxiv.org/abs/2405.20525v1 ) ライセンス: Link先を確認 | Kyle Henke, Elijah Pelofske, Garrett Kenyon, Georg Hahn, | (参考訳) 画像の疎二元表現を計算することの問題点を考察する。
正確には、画像と過剰な非正規基底を考慮すれば、与えられた入力を最大限に再構成する最小の基底ベクトルの集合を示すスパース二進ベクトルを見つけることを目指している。
我々はこの問題を再構成誤差の$L_2$損失と二進ベクトルの$L_0$(または同値の$L_1$)損失で定式化する。
これにより二次二元最適化問題 (QUBO) が得られ、その最適解は一般にNPハードである。
所望の疎度レベルに対する教師なしおよび正規化されていない辞書特徴学習の手法を提示する。
次に、小さな埋め込みによるペガサスチップ接続を備えたD-Wave量子アニールと、Intel Loihi 2スパイクニューロモルフィックプロセッサの両方に実装することで、スパース表現QUBOを解決する。
量子アニーラーでは、並列量子アニーリングと量子進化モンテカルロ(反復逆アニーリング)を組み合わせて、スパース表現QUBOからサンプリングする。
Loihi 2 では、確率的勝者がニューロンのネットワークを全て取る。
これらの解は, 模擬焼鈍, 古典的ヒューリスティック, 最適解は CPLEX を用いて計算される。
反復逆量子アニールはシミュレートされたアニールと同様に作用するが、シミュレートされたアニールは常に最適な溶液をサンプリングすることができる。
サンプリングされたロイヒ 2 の解は、他のどの方法の解よりも平均的にスパースである。
Loihi 2 は、D-Wave 量子アニール標準の線形スケジュールアニールより優れ、一方、反復された逆量子アニールは、未修正の線形スケジュール量子アニールと、Loihi 2 上での繰り返しウォームアニールよりもはるかに優れている。
We consider the problem of computing a sparse binary representation of an image. To be precise, given an image and an overcomplete, non-orthonormal basis, we aim to find a sparse binary vector indicating the minimal set of basis vectors that when added together best reconstruct the given input. We formulate this problem with an $L_2$ loss on the reconstruction error, and an $L_0$ (or, equivalently, an $L_1$) loss on the binary vector enforcing sparsity. This yields a quadratic binary optimization problem (QUBO), whose optimal solution(s) in general is NP-hard to find. The method of unsupervised and unnormalized dictionary feature learning for a desired sparsity level to best match the data is presented. Next, we solve the sparse representation QUBO by implementing it both on a D-Wave quantum annealer with Pegasus chip connectivity via minor embedding, as well as on the Intel Loihi 2 spiking neuromorphic processor. On the quantum annealer, we sample from the sparse representation QUBO using parallel quantum annealing combined with quantum evolution Monte Carlo, also known as iterated reverse annealing. On Loihi 2, we use a stochastic winner take all network of neurons. The solutions are benchmarked against simulated annealing, a classical heuristic, and the optimal solutions are computed using CPLEX. Iterated reverse quantum annealing performs similarly to simulated annealing, although simulated annealing is always able to sample the optimal solution whereas quantum annealing was not always able to. The Loihi 2 solutions that are sampled are on average more sparse than the solutions from any of the other methods. Loihi 2 outperforms a D-Wave quantum annealer standard linear-schedule anneal, while iterated reverse quantum annealing performs much better than both unmodified linear-schedule quantum annealing and iterated warm starting on Loihi 2. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 複数項目質問からの知識コンポーネントの自動生成とタグ付け
Automated Generation and Tagging of Knowledge Components from Multiple-Choice Questions ( http://arxiv.org/abs/2405.20526v1 ) ライセンス: Link先を確認 | Steven Moore, Robin Schmucker, Tom Mitchell, John Stamper, | (参考訳) 評価に関連する知識コンポーネント(KC)は、学生の学習の測定を強化し、分析を充実させ、適応性を促進する。
しかしながら、KCを評価項目に生成およびリンクするには、かなりの努力とドメイン固有の知識が必要である。
高等教育の過程を合理化するために,我々はGPT-4を用いて,化学・E-ラーニングにおけるマルチチョイス質問(MCQ)のKCを生成した。
大規模言語モデル(LLM)によるKCと人間によるKCの相違を,各分野の専門家3名による評価により分析した。
この評価は,非適合性KCの場合において,人為的KCよりもLLM生成KCを優先するか否かを判定することを目的とした。
また,その内容に基づいて類似したKCをクラスタリングするオントロジー誘導アルゴリズムを開発した。
我々の最も効果的なLCM戦略は、化学の56%、E-Learning MCQの35%でKCと正確に一致した。
人間の評価者は、LLMが生成するKCを好んだが、その約3分の2は人間に割り当てられたKCを選択した。
我々のクラスタリングアルゴリズムは、明確なラベルや文脈情報を必要とせずに、基礎となるKCで質問をグループ化することに成功しました。
本研究は、評価項目のKC生成と分類の自動化を推進し、学生データや予め定義されたKCラベルの必要性を軽減する。
Knowledge Components (KCs) linked to assessments enhance the measurement of student learning, enrich analytics, and facilitate adaptivity. However, generating and linking KCs to assessment items requires significant effort and domain-specific knowledge. To streamline this process for higher-education courses, we employed GPT-4 to generate KCs for multiple-choice questions (MCQs) in Chemistry and E-Learning. We analyzed discrepancies between the KCs generated by the Large Language Model (LLM) and those made by humans through evaluation from three domain experts in each subject area. This evaluation aimed to determine whether, in instances of non-matching KCs, evaluators showed a preference for the LLM-generated KCs over their human-created counterparts. We also developed an ontology induction algorithm to cluster questions that assess similar KCs based on their content. Our most effective LLM strategy accurately matched KCs for 56% of Chemistry and 35% of E-Learning MCQs, with even higher success when considering the top five KC suggestions. Human evaluators favored LLM-generated KCs, choosing them over human-assigned ones approximately two-thirds of the time, a preference that was statistically significant across both domains. Our clustering algorithm successfully grouped questions by their underlying KCs without needing explicit labels or contextual information. This research advances the automation of KC generation and classification for assessment items, alleviating the need for student data or predefined KC labels. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# オントロジーによる大規模言語モデルの表現学習に向けて
Towards Ontology-Enhanced Representation Learning for Large Language Models ( http://arxiv.org/abs/2405.20527v1 ) ライセンス: Link先を確認 | Francesco Ronzano, Jay Nanavati, | (参考訳) 本稿では,複数のドメインにまたがる知識の体系化と調和化にオントロジーを広く活用することを利用して,参照オントロジーによって形式化された知識を注入することにより,興味を組み込んだ埋め込み言語モデル(埋め込み-LLM)を改善する新たなアプローチを提案する。
オントロジーによって定式化された言語情報(概念同義語と記述)と構造情報(即ちis-a関係)は、強力な生成LDM(すなわちGPT-3.5-turbo)の助けを借りて包括的な概念定義の集合をコンパイルするために使用される。
これらの概念定義は、対照的な学習フレームワークを使用して、ターゲットの埋め込み-LLMを微調整するために使用される。
提案手法を実証し, 評価するために, 生物医学的疾患オントロジー mondo を用いた。
以上の結果より, 内科的疾患知識により増強された埋め込みLLMは, ドメイン外のパフォーマンスを損なうことなく, 疾患を記載するバイオメディカル文書から, ドメイン内文の類似性を効果的に評価できる可能性が示唆された。
Taking advantage of the widespread use of ontologies to organise and harmonize knowledge across several distinct domains, this paper proposes a novel approach to improve an embedding-Large Language Model (embedding-LLM) of interest by infusing the knowledge formalized by a reference ontology: ontological knowledge infusion aims at boosting the ability of the considered LLM to effectively model the knowledge domain described by the infused ontology. The linguistic information (i.e. concept synonyms and descriptions) and structural information (i.e. is-a relations) formalized by the ontology are utilized to compile a comprehensive set of concept definitions, with the assistance of a powerful generative LLM (i.e. GPT-3.5-turbo). These concept definitions are then employed to fine-tune the target embedding-LLM using a contrastive learning framework. To demonstrate and evaluate the proposed approach, we utilize the biomedical disease ontology MONDO. The results show that embedding-LLMs enhanced by ontological disease knowledge exhibit an improved capability to effectively evaluate the similarity of in-domain sentences from biomedical documents mentioning diseases, without compromising their out-of-domain performance. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# ユーザビリティ自動評価ツールキット
An Automatic Question Usability Evaluation Toolkit ( http://arxiv.org/abs/2405.20529v1 ) ライセンス: Link先を確認 | Steven Moore, Eamon Costello, Huy A. Nguyen, John Stamper, | (参考訳) 多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化手法のいずれかが関係する。
この問題に対処するため,我々は,MCQの総合的かつ自動品質評価を行うために,IWF(Item-Writing Flaws)ルーブリックを活用したオープンソースのツールである,スケーラブル自動質問応答性評価ツールキット(SAQUET)を紹介した。
GPT-4、高度な単語埋め込み、テキストの複雑さを分析するために設計されたトランスフォーマーなどの最新の言語モデルを活用することで、SAQUETはMCQの幅広い欠陥を効果的に特定し評価する。
まず,一般的な自動評価指標とMCQ品質の人的評価の相違について述べる。
次に、化学、統計学、コンピュータ科学、人文科学、ヘルスケアの5分野にわたるMCQの多様なデータセットに基づいてSAQUETを評価し、それが欠陥と欠陥のない質問を効果的に区別し、従来のメトリクスで達成可能なもの以上の分析レベルを提供する方法を示している。
人的評価者が同定した欠陥の有無を94%以上の精度で検出し,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
Evaluating multiple-choice questions (MCQs) involves either labor intensive human assessments or automated methods that prioritize readability, often overlooking deeper question design flaws. To address this issue, we introduce the Scalable Automatic Question Usability Evaluation Toolkit (SAQUET), an open-source tool that leverages the Item-Writing Flaws (IWF) rubric for a comprehensive and automated quality evaluation of MCQs. By harnessing the latest in large language models such as GPT-4, advanced word embeddings, and Transformers designed to analyze textual complexity, SAQUET effectively pinpoints and assesses a wide array of flaws in MCQs. We first demonstrate the discrepancy between commonly used automated evaluation metrics and the human assessment of MCQ quality. Then we evaluate SAQUET on a diverse dataset of MCQs across the five domains of Chemistry, Statistics, Computer Science, Humanities, and Healthcare, showing how it effectively distinguishes between flawed and flawless questions, providing a level of analysis beyond what is achievable with traditional metrics. With an accuracy rate of over 94% in detecting the presence of flaws identified by human evaluators, our findings emphasize the limitations of existing evaluation methods and showcase potential in improving the quality of educational assessments. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# ロカフェル緩和によるトレーニングにおけるラベル誤りの影響について
Mitigating the Impact of Labeling Errors on Training via Rockafellian Relaxation ( http://arxiv.org/abs/2405.20531v1 ) ライセンス: Link先を確認 | Louis L. Chen, Bobbie Chern, Eric Eckstrand, Amogh Mahapatra, Johannes O. Royset, | (参考訳) データセットのラベル付けエラーは、実際には、体系的ではないとしても、一般的である。
これらは自然に、人間のラベル付け、ノイズラベリング、弱いラベリング(画像分類など)など様々な文脈で発生する。
これは機械学習の実践に永続的で広範囲にわたるストレスを与えます。
特に、ニューラルネットワーク(NN)アーキテクチャは、正規化やデータ拡張、バッチ正規化といった従来の対策によって、少量のデータセットの不完全性に耐えることができる。
しかし、主要なデータセットの不完全性はしばしば克服不可能である。
我々は、ニューラルネットワークトレーニングのための新しい損失再重み付け、アーキテクチャに依存しない方法論であるRockafellian Relaxation(RR)の実装を提案し、研究する。
実験の結果、RRはコンピュータビジョンや自然言語処理(センチメント分析)における分類タスク間の堅牢なパフォーマンスを達成するために、標準的なニューラルネットワーク手法を強化することができることが示された。
RRは、ラベル付けエラーと/または逆方向の摂動の両方によるデータセットの破損の影響を緩和し、さまざまなデータドメインと機械学習タスクで有効性を示す。
Labeling errors in datasets are common, if not systematic, in practice. They naturally arise in a variety of contexts-human labeling, noisy labeling, and weak labeling (i.e., image classification), for example. This presents a persistent and pervasive stress on machine learning practice. In particular, neural network (NN) architectures can withstand minor amounts of dataset imperfection with traditional countermeasures such as regularization, data augmentation, and batch normalization. However, major dataset imperfections often prove insurmountable. We propose and study the implementation of Rockafellian Relaxation (RR), a new loss reweighting, architecture-independent methodology, for neural network training. Experiments indicate RR can enhance standard neural network methods to achieve robust performance across classification tasks in computer vision and natural language processing (sentiment analysis). We find that RR can mitigate the effects of dataset corruption due to both (heavy) labeling error and/or adversarial perturbation, demonstrating effectiveness across a variety of data domains and machine learning tasks. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# Aquatic Navigation: 深層強化学習のためのベンチマーク
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning ( http://arxiv.org/abs/2405.20534v1 ) ライセンス: Link先を確認 | Davide Corsi, Davide Camponogara, Alessandro Farinelli, | (参考訳) Deep Reinforcement Learning(DRL)のエキサイティングで有望なフロンティアは、現実世界のロボットシステムへの応用である。
現代のDRLアプローチは、多くのロボットシナリオ(移動ロボット、外科支援、自律運転など)で顕著な成功を収めているが、予測不可能で非定常環境はそのような手法に重大な課題をもたらす可能性がある。
これらの特徴は、移行モデルのマルコフ的特性のような、成功したトレーニングプロセスの基本的な要件を著しく損なう可能性がある。
この課題に対処するために,ゲームエンジンとDRLの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
より詳しくは、我々のベンチマーク環境は、一般化力と安全性の観点から信頼性の高いポリシーを生成するのに苦労する最先端のDRLアプローチであっても問題であることを示す。
具体的には,最も広く受け入れられているアルゴリズムの一つであるPPOに着目し,カリキュラム学習や学習可能なハイパーパラメータなどの高度なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることを示す。
我々のシミュレーション環境とトレーニングベースラインは自由に利用でき、このオープンな問題についてさらなる研究を促進し、現場でのコラボレーションを促進することができる。
An exciting and promising frontier for Deep Reinforcement Learning (DRL) is its application to real-world robotic systems. While modern DRL approaches achieved remarkable successes in many robotic scenarios (including mobile robotics, surgical assistance, and autonomous driving) unpredictable and non-stationary environments can pose critical challenges to such methods. These features can significantly undermine fundamental requirements for a successful training process, such as the Markovian properties of the transition model. To address this challenge, we propose a new benchmarking environment for aquatic navigation using recent advances in the integration between game engines and DRL. In more detail, we show that our benchmarking environment is problematic even for state-of-the-art DRL approaches that may struggle to generate reliable policies in terms of generalization power and safety. Specifically, we focus on PPO, one of the most widely accepted algorithms, and we propose advanced training techniques (such as curriculum learning and learnable hyperparameters). Our extensive empirical evaluation shows that a well-designed combination of these ingredients can achieve promising results. Our simulation environment and training baselines are freely available to facilitate further research on this open problem and encourage collaboration in the field. | 翻訳日:2024-06-03 16:05:36 公開日:2024-05-30 |
# 大規模言語モデル推論における符号化データインストラクションファインタニングの影響の解明
Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning ( http://arxiv.org/abs/2405.20535v1 ) ライセンス: Link先を確認 | Xinlu Zhang, Zhiyu Zoey Chen, Xi Ye, Xianjun Yang, Lichang Chen, William Yang Wang, Linda Ruth Petzold, | (参考訳) Instruction Fine-Tuning (IFT) は、事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる。
コーディングデータは、LLMプレトレーニング中の推論能力を高めることが知られているが、IFT中の内部推論能力の活性化におけるその役割はいまだ検討されていない。
本稿では,コーディングデータがIFT段階におけるLLMの推論能力に与える影響について検討する。
これを検討するために、様々な観点から、異なる符号化データの割合、モデルファミリー、サイズ、推論領域における符号化データの影響を徹底的に調べる。
具体的には、コーディングデータの割合が増大する3つのIFTデータセットを作成し、異なるファミリーにまたがる6つのLDMバックボーンを微調整し、これらのデータセットに基づいて、12のタスク間で調整されたモデルのパフォーマンスを3つの推論領域で評価し、全体、ドメインレベル、タスク固有という3つの広義の視点から結果を分析する。
私たちの全体分析は、それぞれの観点で貴重な洞察を与えます。
第一に、コーディングデータチューニングは、異なるモデルファミリとスケールにわたるLLMの全体的な推論能力を高める。
さらに、コーディングデータの効果はドメインによって異なるが、モデルファミリ間の一貫性のある傾向と各ドメイン内のスケールを示している。
さらに、コーディングデータは通常、異なるモデルファミリ間で同等のタスク固有の利点をもたらし、IFTデータセットにおける最適なコーディングデータの割合はタスク固有のものである。
Instruction Fine-Tuning (IFT) significantly enhances the zero-shot capabilities of pretrained Large Language Models (LLMs). While coding data is known to boost reasoning abilities during LLM pretraining, its role in activating internal reasoning capacities during IFT remains understudied. This paper investigates a key question: How does coding data impact LLMs' reasoning capacities during the IFT stage? To explore this, we thoroughly examine the impact of coding data across different coding data proportions, model families, sizes, and reasoning domains, from various perspectives. Specifically, we create three IFT datasets with increasing coding data proportions, fine-tune six LLM backbones across different families and scales on these datasets, evaluate the tuned models' performance across twelve tasks in three reasoning domains, and analyze the outcomes from three broad-to-granular perspectives: overall, domain-level, and task-specific. Our holistic analysis provides valuable insights in each perspective. First, coding data tuning enhances the overall reasoning capabilities of LLMs across different model families and scales. Moreover, the effect of coding data varies among different domains but shows consistent trends across model families and scales within each domain. Additionally, coding data generally yields comparable task-specific benefits across different model families, with the optimal coding data proportions in IFT datasets being task-specific. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# 単調スキームとしてのQ-ラーニング
Q-learning as a monotone scheme ( http://arxiv.org/abs/2405.20538v1 ) ライセンス: Link先を確認 | Lingyi Yang, | (参考訳) 強化学習法における安定性の問題が続いている。
深層強化学習法に関わるこれらの安定性と収束問題のいくつかをよりよく理解するために,簡単な線形二次例について検討する。
単調なスキームの意味で、正確なQ-ラーニングの収束基準を解釈し、単調性特性に対する関数近似の結果について議論する。
Stability issues with reinforcement learning methods persist. To better understand some of these stability and convergence issues involving deep reinforcement learning methods, we examine a simple linear quadratic example. We interpret the convergence criterion of exact Q-learning in the sense of a monotone scheme and discuss consequences of function approximation on monotonicity properties. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# SleeperNets: 強化学習エージェントに対する普遍的なバックドア攻撃
SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents ( http://arxiv.org/abs/2405.20539v1 ) ライセンス: Link先を確認 | Ethan Rathbun, Christopher Amato, Alina Oprea, | (参考訳) 強化学習(Reinforcement Learning, RL)は、現実の安全クリティカルなアプリケーションでの利用が増加している、活発に成長している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
ここで、相手は、エージェントが推論時に予め決定されたトリガーを観察する際に、特定のアクションを確実に誘導するという目標でRLエージェントのトレーニングをインターセプトする。
我々は、ドメインやMDPをまたいで一般化できないことを証明することによって、先行研究の理論的限界を明らかにする。
これを受けて我々は、敵の目的と最適な政策を見出す目的とを結びつける新たな毒殺の枠組みを定式化し、その限界における攻撃の成功を保証する。
理論分析から得られた知見を用いて,新たに提案された脅威モデルを活用し,動的報酬中毒技術を活用するユニバーサルバックドアアタックとして ‘SleeperNets' を開発した。
我々は,複数のドメインにまたがる6つの環境における攻撃を評価し,良質なエピソードリターンを保ちながら,既存手法に対する攻撃成功の顕著な改善を実証した。
Reinforcement learning (RL) is an actively growing field that is seeing increased usage in real-world, safety-critical applications -- making it paramount to ensure the robustness of RL algorithms against adversarial attacks. In this work we explore a particularly stealthy form of training-time attacks against RL -- backdoor poisoning. Here the adversary intercepts the training of an RL agent with the goal of reliably inducing a particular action when the agent observes a pre-determined trigger at inference time. We uncover theoretical limitations of prior work by proving their inability to generalize across domains and MDPs. Motivated by this, we formulate a novel poisoning attack framework which interlinks the adversary's objectives with those of finding an optimal policy -- guaranteeing attack success in the limit. Using insights from our theoretical analysis we develop ``SleeperNets'' as a universal backdoor attack which exploits a newly proposed threat model and leverages dynamic reward poisoning techniques. We evaluate our attack in 6 environments spanning multiple domains and demonstrate significant improvements in attack success over existing methods, while preserving benign episodic return. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# 完全に制約のないオンライン学習
Fully Unconstrained Online Learning ( http://arxiv.org/abs/2405.20540v1 ) ライセンス: Link先を確認 | Ashok Cutkosky, Zakaria Mhammedi, | (参考訳) G$-Lipschitz convex loss for any comparison point $w_\star$ without any comparison point $G$ or $\|w_\star\|$. は、$G$と$\|w_\star\|$のどちらかを知らずに、後悔する$G\|w_\star\|G\sqrt{T\log(\|w_\star\|G\sqrt{T})} + \|w_\star\|^2 + G^2$を得るオンライン学習アルゴリズムを提供する。
重要なことに、これはそのような知識(対数因子まで)で利用できる最適境界 $G\|w_\star\|\sqrt{T}$ と一致するが、$G\|w_\star\|\sqrt{T}$ が大きすぎる限り、$G\|w_\star\|\sqrt{T}$ も大きすぎる。
したがって、すべての場合において、最も「興味深い」シナリオであるサブ線形後悔を達成できる最適境界と一致する。
We provide an online learning algorithm that obtains regret $G\|w_\star\|\sqrt{T\log(\|w_\star\|G\sqrt{T})} + \|w_\star\|^2 + G^2$ on $G$-Lipschitz convex losses for any comparison point $w_\star$ without knowing either $G$ or $\|w_\star\|$. Importantly, this matches the optimal bound $G\|w_\star\|\sqrt{T}$ available with such knowledge (up to logarithmic factors), unless either $\|w_\star\|$ or $G$ is so large that even $G\|w_\star\|\sqrt{T}$ is roughly linear in $T$. Thus, it matches the optimal bound in all cases in which one can achieve sublinear regret, which arguably most "interesting" scenarios. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# パープレクシティによるパープレクシティ:小さな参照モデルによるパープレクシティに基づくデータプルーニング
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models ( http://arxiv.org/abs/2405.20541v1 ) ライセンス: Link先を確認 | Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul, | (参考訳) 本研究では,小規模言語モデルが大規模テキストデータセットの高品質なサブセットを決定できるかどうかを検証し,より大きな言語モデルの性能向上を図る。
既存の研究は, 大規模モデルのパープレキシティに基づくプルーニングが高品質なデータが得られることを示したが, パープレキシティに基づくプルーニングにおいて, より小さなモデルが利用できるか, プルーニングがプルーニングされるデータのドメイン構成にどのように影響するかを検討する。
125万のパラメータモデルで計算されたパープレキシティに基づくプルーニングは、30億のパラメータモデルの下流タスクの平均性能を最大2.04倍に改善し、平均ベースライン性能に到達するための事前トレーニングステップを最大1.45ドル削減する。
さらに、このような難易度に基づくデータプルーニングは、過度に訓練されたデータ制約されたレシエーションにおいて、下流のパフォーマンス向上をもたらすことを実証する。
In this work, we investigate whether small language models can determine high-quality subsets of large-scale text datasets that improve the performance of larger language models. While existing work has shown that pruning based on the perplexity of a larger model can yield high-quality data, we investigate whether smaller models can be used for perplexity-based pruning and how pruning is affected by the domain composition of the data being pruned. We demonstrate that for multiple dataset compositions, perplexity-based pruning of pretraining data can \emph{significantly} improve downstream task performance: pruning based on perplexities computed with a 125 million parameter model improves the average performance on downstream tasks of a 3 billion parameter model by up to 2.04 and achieves up to a $1.45\times$ reduction in pretraining steps to reach commensurate baseline performance. Furthermore, we demonstrate that such perplexity-based data pruning also yields downstream performance gains in the over-trained and data-constrained regimes. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# 非負行列因子化と潜在ディリクレ配置の関連について
On the Connection Between Non-negative Matrix Factorization and Latent Dirichlet Allocation ( http://arxiv.org/abs/2405.20542v1 ) ライセンス: Link先を確認 | Benedikt Geiger, Peter J. Park, | (参考訳) 一般化Kullback-Leibler分散(NMF)と潜在Dirichletアロケーション(LDA)を併用した非負行列分解は、非負データ次元化のための2つの一般的なアプローチである。
ここでは、分解の両行列の列に$\ell_1$正規化制約を持つNMFと、ある行列の列に先行するディリクレがLDAと同値であることを示す。
これを示すために、最適化問題に$\ell_1$正規化制約を加えることで、NMFのスケーリングのあいまいさを明示的に説明することにより、広く使われている乗算更新(MU)アルゴリズムにおいて、両方の行列を共同で更新できることを示した。
両方の行列が正規化されると、結合MUアルゴリズムは確率的潜在意味解析(PLSA)をもたらす。
NMFの合同更新を導出するアプローチはまた、一方の行列上のラッソのペナルティと他方の行列上の$\ell_1$正規化制約は、いかなる間隔も引き起こすには不十分であることを示す。
Non-negative matrix factorization with the generalized Kullback-Leibler divergence (NMF) and latent Dirichlet allocation (LDA) are two popular approaches for dimensionality reduction of non-negative data. Here, we show that NMF with $\ell_1$ normalization constraints on the columns of both matrices of the decomposition and a Dirichlet prior on the columns of one matrix is equivalent to LDA. To show this, we demonstrate that explicitly accounting for the scaling ambiguity of NMF by adding $\ell_1$ normalization constraints to the optimization problem allows a joint update of both matrices in the widely used multiplicative updates (MU) algorithm. When both of the matrices are normalized, the joint MU algorithm leads to probabilistic latent semantic analysis (PLSA), which is LDA without a Dirichlet prior. Our approach of deriving joint updates for NMF also reveals that a Lasso penalty on one matrix together with an $\ell_1$ normalization constraint on the other matrix is insufficient to induce any sparsity. | 翻訳日:2024-06-03 15:55:52 公開日:2024-05-30 |
# SOUPSの今後の動き - 将来の作業内容の分析とユーザビリティとプライバシ研究への影響
How the Future Works at SOUPS: Analyzing Future Work Statements and Their Impact on Usable Security and Privacy Research ( http://arxiv.org/abs/2405.20785v1 ) ライセンス: Link先を確認 | Jacques Suray, Jan H. Klemmer, Juliane Schmüser, Sascha Fahl, | (参考訳) 価値ある研究の質問や問題を特定し、調査することによって知識を拡張することは研究のコア機能である。
研究出版物は、しばしば、将来の研究が結果を拡張し、構築するための道を提案する。
これらの提案を考慮すれば、以前の研究に基づいて構築され、既存の知識に結びつく結果を生み出す研究アイデアの開発に寄与することができる。
使用可能なセキュリティとプライバシの研究者は一般的に、将来の作業声明を出版物に追加する。
しかし、我々のコミュニティは、彼らの有病率、品質、そして将来の研究への影響について深い理解を欠いている。
我々の研究は、研究文献のこのギャップに対処することを目的としている。
2019年のSOUPS手続きから27件の論文をレビューし、今後の作業内容について分析した。
さらに,SOUPS 2019の論文を引用した978の出版物を分析し,今後の作業内容の影響評価を行った。
SoUPS 2019の手続きのほとんどの論文には、今後の作業声明が含まれています。
しかし、それらはしばしば非特異または曖昧であり、見つけることは必ずしも容易ではない。
そのため、引用された出版物は将来の著作物の内容と主題的にマッチすることが多いが、その内容が明確に認識されることは稀であり、影響は限られていた。
我々は、より明確で行動可能で、将来の作業のための道筋を整備することで、将来的な作業ステートメントの実用性を改善するために、使用可能なセキュリティとプライバシのコミュニティへの勧告で締めくくります。
Extending knowledge by identifying and investigating valuable research questions and problems is a core function of research. Research publications often suggest avenues for future work to extend and build upon their results. Considering these suggestions can contribute to developing research ideas that build upon previous work and produce results that tie into existing knowledge. Usable security and privacy researchers commonly add future work statements to their publications. However, our community lacks an in-depth understanding of their prevalence, quality, and impact on future research. Our work aims to address this gap in the research literature. We reviewed all 27 papers from the 2019 SOUPS proceedings and analyzed their future work statements. Additionally, we analyzed 978 publications that cite any paper from SOUPS 2019 proceedings to assess their future work statements' impact. We find that most papers from the SOUPS 2019 proceedings include future work statements. However, they are often unspecific or ambiguous, and not always easy to find. Therefore, the citing publications often matched the future work statements' content thematically, but rarely explicitly acknowledged them, indicating a limited impact. We conclude with recommendations for the usable security and privacy community to improve the utility of future work statements by making them more tangible and actionable, and avenues for future work. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-30 |
# スパース観測による成層アバターの生成
Stratified Avatar Generation from Sparse Observations ( http://arxiv.org/abs/2405.20786v1 ) ライセンス: Link先を確認 | Han Feng, Wenchao Ma, Quankai Gao, Xianwei Zheng, Nan Xue, Huijuan Xu, | (参考訳) AR/VRデバイスから3Dフルボディアバターを推定することは、AR/VRアプリケーションに没入的なエクスペリエンスを作り出す上で不可欠である。
ヘッドマウントデバイスからの入力が限られているため、このタスクは困難である。
これらのまばらな観察から全身のアバター、特に下半身を予測することは、重大な困難を呈する。
本稿では,上半身と下半身が共通の祖先ノードを1つしか共有しないSkinned Multi-Person Linear (SMPL)モデルで定義されたキネマティックツリーの性質に着想を得た。
そこで本研究では,従来のフルボディアバター再建パイプラインを2段階に分離し,まず上半身の再建と,それに続く下半身の再建を行った。
この簡単なアイデアを実現するために、潜伏拡散モデルを強力な確率的生成器として利用し、VQ-VAEエンコーダ・デコーダモデルにより探索された非結合運動の潜伏分布に従うよう訓練する。
AMASSモキャップデータセットの大規模な実験により、全身運動の再構築における最先端のパフォーマンスが実証された。
Estimating 3D full-body avatars from AR/VR devices is essential for creating immersive experiences in AR/VR applications. This task is challenging due to the limited input from Head Mounted Devices, which capture only sparse observations from the head and hands. Predicting the full-body avatars, particularly the lower body, from these sparse observations presents significant difficulties. In this paper, we are inspired by the inherent property of the kinematic tree defined in the Skinned Multi-Person Linear (SMPL) model, where the upper body and lower body share only one common ancestor node, bringing the potential of decoupled reconstruction. We propose a stratified approach to decouple the conventional full-body avatar reconstruction pipeline into two stages, with the reconstruction of the upper body first and a subsequent reconstruction of the lower body conditioned on the previous stage. To implement this straightforward idea, we leverage the latent diffusion model as a powerful probabilistic generator, and train it to follow the latent distribution of decoupled motions explored by a VQ-VAE encoder-decoder model. Extensive experiments on AMASS mocap dataset demonstrate our state-of-the-art performance in the reconstruction of full-body motions. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-30 |
# PGA-Scire:科学関係抽出のためのデータ拡張におけるLLMのハーネス化
PGA-SciRE: Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction ( http://arxiv.org/abs/2405.20787v1 ) ライセンス: Link先を確認 | Yang Zhou, Shimin Shan, Hongkui Wei, Zhehuan Zhao, Wenshuo Feng, | (参考訳) 関係抽出(RE)は、テキストに言及されたエンティティのペア間の関係を認識することを目的としている。
LLMの進歩はNLPに大きな影響を与えた。
本研究では,学術領域におけるREモデルの性能向上を目的としたPGAというテキストデータ拡張フレームワークを提案する。
このフレームワークは、2つのデータ拡張方法を導入し、LLMを利用して同じ文で擬似サンプルを得るが、元のトレーニングセットのサンプルを言い換えることで表現と形式が異なる。
また、元のトレーニングセットのサンプルの関係と実体に基づいて、対応するラベルに関する情報を暗黙的に含む文を生成するようにLLMに指示する。
これらの2種類の擬似サンプルは、それぞれオリジナルのデータセットと共にREモデルのトレーニングに参加する。
実験におけるPGAフレームワークは、科学領域内のREの3つの主流モデルのF1スコアを改善する。
また、LLMを用いてサンプルを得ることにより、手動でラベル付けするコストを効果的に低減することができる。
Relation Extraction (RE) aims at recognizing the relation between pairs of entities mentioned in a text. Advances in LLMs have had a tremendous impact on NLP. In this work, we propose a textual data augmentation framework called PGA for improving the performance of models for RE in the scientific domain. The framework introduces two ways of data augmentation, utilizing a LLM to obtain pseudo-samples with the same sentence meaning but with different representations and forms by paraphrasing the original training set samples. As well as instructing LLM to generate sentences that implicitly contain information about the corresponding labels based on the relation and entity of the original training set samples. These two kinds of pseudo-samples participate in the training of the RE model together with the original dataset, respectively. The PGA framework in the experiment improves the F1 scores of the three mainstream models for RE within the scientific domain. Also, using a LLM to obtain samples can effectively reduce the cost of manually labeling data. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-30 |
# ディープラーニングによる雑音キャンセラに対するデータセットサンプリング率の影響
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning ( http://arxiv.org/abs/2405.20884v1 ) ライセンス: Link先を確認 | Brandon Colelough, Andrew Zheng, | (参考訳) 背景:アクティブノイズキャンセリングは、何十年にもわたって研究の対象となっている。
Fast Fourier Transformのような従来のテクニックは、特定のシナリオに制限がある。
本研究は、より優れた代替手段としてディープニューラルネットワーク(DNN)の利用について検討する。
目的:本研究の目的は,モバイルデバイスの処理制約内で動作する軽量で効率的なDNN上で,トレーニングデータ中の効果サンプリング率を決定することである。
方法:我々は,音声分離と拡張の効率性を示すために,ConvTasNETネットワークを選択した。
ConvTasNETはWHAMのようなデータセットでトレーニングされた。
LibriMix、MS-2023 DNS Challenge。
サンプルは8kHz、16kHz、48kHzの速度でサンプリングされ、サンプリングレートがノイズキャンセリング効率と有効性に与える影響を分析した。
このモデルは2023年からコアi7 Intelプロセッサでテストされ、バックグラウンドノイズを除去しながらクリアなオーディオを生成するネットワークの能力を評価した。
結果: 高サンプリングレート(48kHz)でトレーニングされたモデルでは,THD(Total Harmonic Distortion)とWARP-Q(Quality Prediction for Generative Neural Speech Codecs)の値に対して,より優れた評価指標が得られた。
しかし、より高いサンプリングレートで処理時間が長くなることでトレードオフが指摘された。
結論: Conv-TasNETネットワークは、48kHzのような高いレートでサンプリングされたデータセットに基づいてトレーニングされている。
今後の作業には、モデルの効率をさらに最適化し、モバイルデバイス上でのテストが含まれる。
Background: Active noise cancellation has been a subject of research for decades. Traditional techniques, like the Fast Fourier Transform, have limitations in certain scenarios. This research explores the use of deep neural networks (DNNs) as a superior alternative. Objective: The study aims to determine the effect sampling rate within training data has on lightweight, efficient DNNs that operate within the processing constraints of mobile devices. Methods: We chose the ConvTasNET network for its proven efficiency in speech separation and enhancement. ConvTasNET was trained on datasets such as WHAM!, LibriMix, and the MS-2023 DNS Challenge. The datasets were sampled at rates of 8kHz, 16kHz, and 48kHz to analyze the effect of sampling rate on noise cancellation efficiency and effectiveness. The model was tested on a core-i7 Intel processor from 2023, assessing the network's ability to produce clear audio while filtering out background noise. Results: Models trained at higher sampling rates (48kHz) provided much better evaluation metrics against Total Harmonic Distortion (THD) and Quality Prediction For Generative Neural Speech Codecs (WARP-Q) values, indicating improved audio quality. However, a trade-off was noted with the processing time being longer for higher sampling rates. Conclusions: The Conv-TasNET network, trained on datasets sampled at higher rates like 48kHz, offers a robust solution for mobile devices in achieving noise cancellation through speech separation and enhancement. Future work involves optimizing the model's efficiency further and testing on mobile devices. | 翻訳日:2024-06-03 14:08:24 公開日:2024-05-30 |
# ガウスモデルに基づくクラスタリングにおける外乱の探索
Finding Outliers in Gaussian Model-Based Clustering ( http://arxiv.org/abs/1907.01136v6 ) ライセンス: Link先を確認 | Katharine M. Clark, Paul D. McNicholas, | (参考訳) クラスタリング(英: Clustering)または教師なし分類(英: unsupervised classification)は、しばしば外れ者によって悩まされるタスクである。
しかし、クラスタリングでは、アウトレーヤの処理には多くの作業があります。
アウトリーチ識別アルゴリズムは、アウトリー・インクルージョン、アウトリーチ・トリミング(英語版)、ポストホック・アウトリー・インクルージョン(英語版)の3つの幅広いカテゴリに分類される傾向があり、以前の2つは、しばしばアウトリーチの数を事前に特定する必要がある。
サンプル2乗マハラノビス距離がβ分布であるという事実は、部分有限ガウス混合モデルの対数分布を近似的に導くために用いられる。
その後、サブセットの対数類似度が基準分布に従属するまでは、外れ値と見なされる部分集合の対数類似度に応じて最小可算点を除去するアルゴリズムが提案される。
この結果、OCLUSTと呼ばれるトリミング法が、本質的に外乱数の数を推定する。
Clustering, or unsupervised classification, is a task often plagued by outliers. Yet there is a paucity of work on handling outliers in clustering. Outlier identification algorithms tend to fall into three broad categories: outlier inclusion, outlier trimming, and post hoc outlier identification methods, with the former two often requiring pre-specification of the number of outliers. The fact that sample squared Mahalanobis distance is beta-distributed is used to derive an approximate distribution for the log-likelihoods of subset finite Gaussian mixture models. An algorithm is then proposed that removes the least plausible points according to the subset log-likelihoods, which are deemed outliers, until the subset log-likelihoods adhere to the reference distribution. This results in a trimming method, called OCLUST, that inherently estimates the number of outliers. | 翻訳日:2024-06-02 14:47:20 公開日:2024-05-30 |
# 医学教育のための多モード生成AIによる難解な会話のシミュレーション
Synthetic Patients: Simulating Difficult Conversations with Multimodal Generative AI for Medical Education ( http://arxiv.org/abs/2405.19941v1 ) ライセンス: Link先を確認 | Simon N. Chu, Alex J. Goodell, | (参考訳) 問題: 患者中心の効果的なコミュニケーションは、医師にとってコアコンピテンシーである。
しかし、調味剤提供者と医療研修生の双方の報告は、ケア目標や終末期の議論といったセンシティブなトピックに関する会話をリードする自信を減らした。
重要な管理上の負担と、困難な会話を導くために専門的な訓練を行うために必要なリソースは、医学教育における長年の課題である。
アプローチ:本稿では,マルチモーダル生成人工知能(AI)を用いて,ビデオベース形式での難解な会話の対話的リアルタイムシミュレーションを容易にするための,新たな教育ツールを提案する。
言語モデリング、コンピュータビジョン、生成音声の最近の進歩を活用して、このツールは、現実的でインタラクティブなシナリオをアバターや「合成患者」で作成する。
これらの人工患者は、カスタムメイドのビデオチャットアプリケーションを使って、さまざまな医療段階のユーザーと対話し、多様な信念システム、個人性、民族的背景を持つ患者と会話する機会を学習者に提供します。
成果: このプラットフォームの開発は労働にかなりの事前投資を必要としたが、財務投資を最小限に抑えた、非常に現実的なシミュレーション体験を提供する。
研修医にとって、この教育ツールは患者と患者との会話をシミュレートするプログラム内に実装することができ、既存の緩和ケアカリキュラムに組み込まれて、困難な会話を習得するためのスケーラブルで高忠実なシミュレーション環境を提供することができる。
次のステップ: 今後の開発では、患者と一緒に履歴や個人性を取り入れることで、これらの出会いの信頼性を高めるとともに、AIによって生成された評価を活用して、学習者のシミュレーション後すぐに構築的なフィードバックを提供する。
Problem: Effective patient-centered communication is a core competency for physicians. However, both seasoned providers and medical trainees report decreased confidence in leading conversations on sensitive topics such as goals of care or end-of-life discussions. The significant administrative burden and the resources required to provide dedicated training in leading difficult conversations has been a long-standing problem in medical education. Approach: In this work, we present a novel educational tool designed to facilitate interactive, real-time simulations of difficult conversations in a video-based format through the use of multimodal generative artificial intelligence (AI). Leveraging recent advances in language modeling, computer vision, and generative audio, this tool creates realistic, interactive scenarios with avatars, or "synthetic patients." These synthetic patients interact with users throughout various stages of medical care using a custom-built video chat application, offering learners the chance to practice conversations with patients from diverse belief systems, personalities, and ethnic backgrounds. Outcomes: While the development of this platform demanded substantial upfront investment in labor, it offers a highly-realistic simulation experience with minimal financial investment. For medical trainees, this educational tool can be implemented within programs to simulate patient-provider conversations and can be incorporated into existing palliative care curriculum to provide a scalable, high-fidelity simulation environment for mastering difficult conversations. Next Steps: Future developments will explore enhancing the authenticity of these encounters by working with patients to incorporate their histories and personalities, as well as employing the use of AI-generated evaluations to offer immediate, constructive feedback to learners post-simulation. | 翻訳日:2024-06-02 14:30:04 公開日:2024-05-30 |
# AIによる理論的発見の試み
A Triumvirate of AI Driven Theoretical Discovery ( http://arxiv.org/abs/2405.19973v1 ) ライセンス: Link先を確認 | Yang-Hui He, | (参考訳) 近年、純粋数学や理論物理学などの基礎科学におけるAIアルゴリズムの利用が劇的に増加した。
数学的科学は厳密な定義、導出、証明を必要とするため、データとエラーバーとのモデリングに依存する実験的な科学とは対照的である。
本稿では, 数学的発見へのアプローチを, 歴史的事例から着想を得た「トップダウン」「ボトムアップ」「メタ数学」に分類する。
われわれは過去数年間の進歩のいくつかをレビューし、それぞれのアプローチの進歩と欠点を比較して比較した。
近い将来、AIに取って代わられる危険はないが、人間の専門知識とAIアルゴリズムのハイブリッドは、理論的な発見の不可欠な部分になる、と我々は主張する。
Recent years have seen the dramatic rise of the usage of AI algorithms in pure mathematics and fundamental sciences such as theoretical physics. This is perhaps counter-intuitive since mathematical sciences require the rigorous definitions, derivations, and proofs, in contrast to the experimental sciences which rely on the modelling of data with error-bars. In this Perspective, we categorize the approaches to mathematical discovery as "top-down", "bottom-up" and "meta-mathematics", as inspired by historical examples. We review some of the progress over the last few years, comparing and contrasting both the advances and the short-comings in each approach. We argue that while the theorist is in no way in danger of being replaced by AI in the near future, the hybrid of human expertise and AI algorithms will become an integral part of theoretical discovery. | 翻訳日:2024-06-02 14:30:04 公開日:2024-05-30 |
# 確率環境下での微分プライベートオンライン学習のための準最適アルゴリズム
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment ( http://arxiv.org/abs/2102.07929v3 ) ライセンス: Link先を確認 | Bingshan Hu, Zhiming Huang, Nishant A. Mehta, Nidhi Hegde, | (参考訳) 本稿では,バンディットとフルインフォメーションの両方のフィードバックの下で,確率的環境下での個人的オンライン学習問題について検討する。
差分的にプライベートな確率的包帯に対して、UTBとトンプソンサンプリングに基づくアルゴリズムは、いつでも最適な$O \left(\sum_{j: \Delta_j>0} \frac{\ln(T)}{\min\{\Delta_j, \epsilon \right\}} \right)$ instance-dependent regret bound, where $T$ is the finite learning horizon, $\Delta_j$は最適なアームとサブ最適アームの差分である$j$, $\epsilon$は必要なプライバシーパラメータである。
確率的報酬を持つ微分プライベートな完全な情報設定については、$\Omega \left(\frac{\ln(K)}{\min\{\Delta_{\min}, \epsilon \right \right)$ instance-dependent regret lower bound と $\Omega\left(\sqrt{T\ln(K)} + \frac{\ln(K)}{\epsilon}\right)$ minimax lower bound を示す。
同じ差分プライベートなフル情報設定に対して、インスタンス依存の後悔と最悪の後悔が各下位境界にマッチする$\epsilon$-differentially privateアルゴリズムを、追加の$\log(T)$ factorまで提示する。
In this paper, we study differentially private online learning problems in a stochastic environment under both bandit and full information feedback. For differentially private stochastic bandits, we propose both UCB and Thompson Sampling-based algorithms that are anytime and achieve the optimal $O \left(\sum_{j: \Delta_j>0} \frac{\ln(T)}{\min \left\{\Delta_j, \epsilon \right\}} \right)$ instance-dependent regret bound, where $T$ is the finite learning horizon, $\Delta_j$ denotes the suboptimality gap between the optimal arm and a suboptimal arm $j$, and $\epsilon$ is the required privacy parameter. For the differentially private full information setting with stochastic rewards, we show an $\Omega \left(\frac{\ln(K)}{\min \left\{\Delta_{\min}, \epsilon \right\}} \right)$ instance-dependent regret lower bound and an $\Omega\left(\sqrt{T\ln(K)} + \frac{\ln(K)}{\epsilon}\right)$ minimax lower bound, where $K$ is the total number of actions and $\Delta_{\min}$ denotes the minimum suboptimality gap among all the suboptimal actions. For the same differentially private full information setting, we also present an $\epsilon$-differentially private algorithm whose instance-dependent regret and worst-case regret match our respective lower bounds up to an extra $\log(T)$ factor. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-30 |
# プラットフォーム間のオンライン反ユダヤ主義
Online antisemitism across platforms ( http://arxiv.org/abs/2112.07783v2 ) ライセンス: Link先を確認 | Tom De Smedt, | (参考訳) 我々は、アンチセミズムを検出するためのきめ細かいAIシステムを開発した。
この説明可能なAIは、プラットフォーム間でのオンラインソーシャルメディアメッセージにおける非人間化、言語攻撃、共謀といった、英語とドイツの反ユダヤ的な表現を識別し、ハイレベルな意思決定をサポートする。
We created a fine-grained AI system for the detection of antisemitism. This Explainable AI will identify English and German anti-Semitic expressions of dehumanization, verbal aggression and conspiracies in online social media messages across platforms, to support high-level decision making. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-30 |
# 可視性を超えて:クロススペクトル顔認証に関する調査
Beyond the Visible: A Survey on Cross-spectral Face Recognition ( http://arxiv.org/abs/2201.04435v3 ) ライセンス: Link先を確認 | David Anghelone, Cunjian Chen, Arun Ross, Antitza Dantcheva, | (参考訳) クロススペクトル顔認識(CFR)とは、赤外線と可視光などの異なるスペクトル帯から生じる顔画像を用いて個人を認識することを指す。
CFRは、モダリティギャップによる顔の外観の顕著な変化により、古典的な顔認識よりも本質的に困難であるが、ナイトビジョンバイオメトリックスやプレゼンテーションアタックの検出など、多くのシナリオで有用である。
畳み込みニューラルネットワーク(CNN)の最近の進歩は、CFRシステムの性能を大幅に向上させた。
これらの進展を踏まえると、この調査の貢献は3倍である。
まず、CFR問題を形式化し、関連するアプリケーションを示すことにより、CFRの概要を示す。
次に、顔認識のためのスペクトル帯域について検討し、深層ニューラルネットワークに重点を置いた最近のCFR法について議論する。
特に、異なるスペクトル帯から生じる異種特徴を抽出し、比較するために提案された手法について述べる。
また、CFR法の評価に使用されたデータセットについても論じる。
最後に、この問題に関する課題と今後の研究方針について論じる。
Cross-spectral face recognition (CFR) refers to recognizing individuals using face images stemming from different spectral bands, such as infrared vs. visible. While CFR is inherently more challenging than classical face recognition due to significant variation in facial appearance caused by the modality gap, it is useful in many scenarios including night-vision biometrics and detecting presentation attacks. Recent advances in convolutional neural networks (CNNs) have resulted in significant improvement in the performance of CFR systems. Given these developments, the contributions of this survey are three-fold. First, we provide an overview of CFR, by formalizing the CFR problem and presenting related applications. Secondly, we discuss the appropriate spectral bands for face recognition and discuss recent CFR methods, placing emphasis on deep neural networks. In particular we describe techniques that have been proposed to extract and compare heterogeneous features emerging from different spectral bands. We also discuss the datasets that have been used for evaluating CFR methods. Finally, we discuss the challenges and future lines of research on this topic. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-30 |
# 量子エントロピーと距離計算のための新しい量子アルゴリズム
New Quantum Algorithms for Computing Quantum Entropies and Distances ( http://arxiv.org/abs/2203.13522v3 ) ライセンス: Link先を確認 | Qisheng Wang, Ji Guan, Junyi Liu, Zhicheng Zhang, Mingsheng Ying, | (参考訳) 我々は、フォン・ノイマンエントロピー、量子R\'{e}nyiエントロピー、トレース距離、忠実度など、幅広い量子エントロピーと距離を計算するための一連の量子アルゴリズムを提案する。
提案したアルゴリズムは、低ランクの場合において先行する最良(かつ量子)のアルゴリズムよりも著しく優れており、そのうちのいくつかは指数的なスピードアップを実現している。
特に、階数$r$のN$次元量子状態に対して、フォン・ノイマンエントロピー、加法誤差$\varepsilon$の時間複雑性は$\tilde O(r/\varepsilon^2)$、$\tilde O(r^5/\varepsilon^6)$と$\tilde O(r^{6.5}/\varepsilon^{7.5})$である。
対照的に、フォン・ノイマンエントロピーとトレース距離の先行量子アルゴリズムは通常時間複雑性$\Omega(N)$を持ち、フィデリティの先行量子アルゴリズムは時間複雑性$\tilde O(r^{12.5}/\varepsilon^{13.5})$である。
量子アルゴリズムの鍵となる考え方は、以前の研究におけるユニタリ演算子から量子状態(すなわち密度演算子)へのブロックエンコーディングを拡張することである。
量子状態を操作し、それらから情報を抽出するいくつかの便利な技術を開発することで実現された。
既存の手法に対する我々の手法の利点は、密度作用素の制限が不要である点である。
We propose a series of quantum algorithms for computing a wide range of quantum entropies and distances, including the von Neumann entropy, quantum R\'{e}nyi entropy, trace distance, and fidelity. The proposed algorithms significantly outperform the prior best (and even quantum) ones in the low-rank case, some of which achieve exponential speedups. In particular, for $N$-dimensional quantum states of rank $r$, our proposed quantum algorithms for computing the von Neumann entropy, trace distance and fidelity within additive error $\varepsilon$ have time complexity of $\tilde O(r/\varepsilon^2)$, $\tilde O(r^5/\varepsilon^6)$ and $\tilde O(r^{6.5}/\varepsilon^{7.5})$, respectively. By contrast, prior quantum algorithms for the von Neumann entropy and trace distance usually have time complexity $\Omega(N)$, and the prior best one for fidelity has time complexity $\tilde O(r^{12.5}/\varepsilon^{13.5})$. The key idea of our quantum algorithms is to extend block-encoding from unitary operators in previous work to quantum states (i.e., density operators). It is realized by developing several convenient techniques to manipulate quantum states and extract information from them. The advantage of our techniques over the existing methods is that no restrictions on density operators are required; in sharp contrast, the previous methods usually require a lower bound on the minimal non-zero eigenvalue of density operators. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-30 |
# マルチエージェント強化学習システムにおける信頼に基づく合意
Trust-based Consensus in Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2205.12880v2 ) ライセンス: Link先を確認 | Ho Long Fung, Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi, | (参考訳) マルチエージェント強化学習(MARL)におけるしばしば無視される問題は、期待された振る舞いからの逸脱がシステムが意図したタスクを達成できない環境における信頼性の低いエージェントの存在である。
特に、コンセンサスは、協調分散マルチエージェントシステムの根本的な基盤となる問題である。
合意は、彼らが提案した一連の初期提案から合意に達するために、分散化された通信ネットワークにある異なるエージェントを必要とします。
学習ベースのエージェントは、システムに1つ以上の信頼性の低いエージェントがあるにもかかわらず、コンセンサスに到達するためのプロトコルを採用するべきである。
本稿では,MARLにおける信頼できないエージェントの問題について,コンセンサスを事例として検討する。
分散システムの文献で実証された結果から,ネットワーク環境におけるコンセンサスに到達する能力に大きな影響を及ぼす可能性が示唆された。
エージェントがどの隣人と通信するかを独立して決定できる分散信頼機構である強化学習に基づく信頼合意(RLTC)を提案する。
高いコンセンサスの成功率によって証明されるように、信頼できないエージェントを効果的に扱えることを実証的に実証する。
An often neglected issue in multi-agent reinforcement learning (MARL) is the potential presence of unreliable agents in the environment whose deviations from expected behavior can prevent a system from accomplishing its intended tasks. In particular, consensus is a fundamental underpinning problem of cooperative distributed multi-agent systems. Consensus requires different agents, situated in a decentralized communication network, to reach an agreement out of a set of initial proposals that they put forward. Learning-based agents should adopt a protocol that allows them to reach consensus despite having one or more unreliable agents in the system. This paper investigates the problem of unreliable agents in MARL, considering consensus as a case study. Echoing established results in the distributed systems literature, our experiments show that even a moderate fraction of such agents can greatly impact the ability of reaching consensus in a networked environment. We propose Reinforcement Learning-based Trusted Consensus (RLTC), a decentralized trust mechanism, in which agents can independently decide which neighbors to communicate with. We empirically demonstrate that our trust mechanism is able to handle unreliable agents effectively, as evidenced by higher consensus success rates. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-30 |
# 位置: テンソルネットワークはグリーンAIにとって価値のある集合である
Position: Tensor Networks are a Valuable Asset for Green AI ( http://arxiv.org/abs/2205.12961v2 ) ライセンス: Link先を確認 | Eva Memmel, Clara Menzen, Jetze Schuurmans, Frederiek Wesel, Kim Batselier, | (参考訳) このポジションペーパーでは、テンソルネットワーク(TN)とグリーンAIの基本的な関係を初めて紹介し、AI研究の傾きと持続可能性の両方を高めるための相乗的ポテンシャルを強調した。
数学的なバックボーンと固有対数圧縮ポテンシャルにより,TNはグリーンAIにとって有益である,と我々は主張する。
我々は、グリーンAIとTNの関係を確立することの重要性を実証するために、グリーンAIに関する現在進行中の議論を包括的にレビューし、AI研究における持続可能性と傾斜性の重要性を強調した。
まず,グリーンAIの文献で提案される効率指標を概観し,提案した効率指標を用いて,カーネルマシンとディープラーニングの分野におけるTNの例を評価する。
本論文は,グリーンAIとTNの基本原理をブリッジすることで,意味のある,建設的な議論をインセンティブ化することを目的とする。
我々は、研究者が研究プロジェクトへのTNの統合を真剣に評価することを提唱し、本論文で確立されたリンクと合わせて、グリーンAIの原則を研究優先として扱うことを奨励する事前の呼びかけを支持する。
For the first time, this position paper introduces a fundamental link between tensor networks (TNs) and Green AI, highlighting their synergistic potential to enhance both the inclusivity and sustainability of AI research. We argue that TNs are valuable for Green AI due to their strong mathematical backbone and inherent logarithmic compression potential. We undertake a comprehensive review of the ongoing discussions on Green AI, emphasizing the importance of sustainability and inclusivity in AI research to demonstrate the significance of establishing the link between Green AI and TNs. To support our position, we first provide a comprehensive overview of efficiency metrics proposed in Green AI literature and then evaluate examples of TNs in the fields of kernel machines and deep learning using the proposed efficiency metrics. This position paper aims to incentivize meaningful, constructive discussions by bridging fundamental principles of Green AI and TNs. We advocate for researchers to seriously evaluate the integration of TNs into their research projects, and in alignment with the link established in this paper, we support prior calls encouraging researchers to treat Green AI principles as a research priority. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 一般費用関数を用いたニューラル・オプティカル・トランスポート
Neural Optimal Transport with General Cost Functionals ( http://arxiv.org/abs/2205.15403v4 ) ライセンス: Link先を確認 | Arip Asadulaev, Alexander Korotin, Vage Egiazarian, Petr Mokrov, Evgeny Burnaev, | (参考訳) 一般費用関数のための最適輸送計画(OT)を計算するためのニューラルネットワークに基づく新しいアルゴリズムを提案する。
一般的なユークリッドコスト、すなわち$\ell^1$ や $\ell^2$ とは対照的に、そのような関数はより柔軟性を提供し、クラスラベルのような補助的な情報を使って必要なトランスポートマップを構築することができる。
既存の一般的なコストの手法は離散的であり、実際には制限がある。
画像などの高次元空間における新たなデータポイントに一般化する一般的なコストに対して,連続OTアプローチを設計する上での課題に対処する。
さらに,回収した輸送計画の理論的誤り解析を行う。
アプリケーションとして,クラス単位の構造を保ちながら,データ分布をマップするコスト関数を構築した。
We introduce a novel neural network-based algorithm to compute optimal transport (OT) plans for general cost functionals. In contrast to common Euclidean costs, i.e., $\ell^1$ or $\ell^2$, such functionals provide more flexibility and allow using auxiliary information, such as class labels, to construct the required transport map. Existing methods for general costs are discrete and have limitations in practice, i.e. they do not provide an out-of-sample estimation. We address the challenge of designing a continuous OT approach for general costs that generalizes to new data points in high-dimensional spaces, such as images. Additionally, we provide the theoretical error analysis for our recovered transport plans. As an application, we construct a cost functional to map data distributions while preserving the class-wise structure. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# EMS: 学習を組み込んだ多言語文の効率と有効性
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning ( http://arxiv.org/abs/2205.15744v2 ) ライセンス: Link先を確認 | Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi, | (参考訳) 大規模多言語文表現モデル、例えば、LASER、SBERT-distill、LaBSEは、言語間下流タスクを大幅に改善する。
しかし、大量のデータや非効率なモデルアーキテクチャを使用することで、私たちの好む言語やドメインに従って新しいモデルをトレーニングするための重い計算結果が得られる。
この問題を解決するために,クロスリンガルトークンレベル再構成(XTR)と文レベルのコントラスト学習を訓練目的として用いた,効率的かつ効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
実験結果から, 提案モデルでは, 言語間文検索, ゼロショット・クロスランガル・ジャンル分類, 感情分類に関して, より優れた, 同等の結果が得られた。
Ablative Analysis showed the efficiency and effective of each component of the proposed model。
62言語(https://github.com/Mao-KU/EMS )をサポートしている。
Massively multilingual sentence representation models, e.g., LASER, SBERT-distill, and LaBSE, help significantly improve cross-lingual downstream tasks. However, the use of a large amount of data or inefficient model architectures results in heavy computation to train a new model according to our preferred languages and domains. To resolve this issue, we introduce efficient and effective massively multilingual sentence embedding (EMS), using cross-lingual token-level reconstruction (XTR) and sentence-level contrastive learning as training objectives. Compared with related studies, the proposed model can be efficiently trained using significantly fewer parallel sentences and GPU computation resources. Empirical results showed that the proposed model significantly yields better or comparable results with regard to cross-lingual sentence retrieval, zero-shot cross-lingual genre classification, and sentiment classification. Ablative analyses demonstrated the efficiency and effectiveness of each component of the proposed model. We release the codes for model training and the EMS pre-trained sentence embedding model, which supports 62 languages ( https://github.com/Mao-KU/EMS ). | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 臨界量子状態の再構成に非局所的に共謀する測定
Measurements conspire nonlocally to restructure critical quantum states ( http://arxiv.org/abs/2207.09476v3 ) ライセンス: Link先を確認 | Samuel J. Garratt, Zack Weinstein, Ehud Altman, | (参考訳) 理論的には、臨界量子基底状態の局所的な測定が長距離相関にどのように影響するかを考察する。
これらの状態は極めて絡み合いがあり、局所観測値間の代数的相関が特徴である。
その結果、局所的な測定は極めて非局所的な効果を持つ。
我々の焦点は、ルッティンガーパラメータが$K$でパラメータ化される1次元における臨界状態の連続族である、友長・ラッティンガー液体(TLL)基底状態である。
空間の延長領域上で行われる任意の局所的な測定は、長距離相関において遷移を駆動するために共謀できることを示す。
まず, 測定後の量子状態が$K<1$で推移していることを示し, 静的不純物がTLLを経由する輸送に与える影響を, フォーマルな類似点として強調する。
測定結果の完全なアンサンブルを調べるために,システム密度行列において必然的に非線形な物理量の平均を考える。
レプリカ場理論において、それらの振る舞いがどのように理解されるかを示し、レプリカの交換による理論の対称性が$K<1/2$で破られることを示す。
複数の測定結果の集合的効果を実験的に観察する上でよく知られた障壁は、ランダムな結果に対する選択後の必要性である。
ここでは、実験結果と遷移の資源効率の高いプローブとして機能する古典シミュレーションの相互相関を導入することで、この問題を解決する。
私たちが議論する現象は、さらに、局所的なデコヒーレンスに対して堅牢である。
We study theoretically how local measurements perfomed on critical quantum ground states affect long-distance correlations. These states are highly entangled and feature algebraic correlations between local observables. As a consequence, local measurements can have highly nonlocal effects. Our focus is on Tomonaga-Luttinger liquid (TLL) ground states, a continuous family of critical states in one dimension whose structure is parameterized by a Luttinger parameter $K$. We show that arbitrarily weak local measurements, performed over extended regions of space, can conspire to drive transitions in long-distance correlations. Conditioning first on a particular measurement outcome we show that there is a transition in the character of the post-measurement quantum state for $K<1$, and highlight a formal analogy with the effect of a static impurity on transport through a TLL. To investigate the full ensemble of measurement outcomes we consider averages of physical quantities which are necessarily nonlinear in the system density matrix. We show how their behavior can be understood within a replica field theory, and for the measurements that we consider we find that the symmetry of the theory under exchange of replicas is broken for $K<1/2$. A well-known barrier to experimentally observing the collective effects of multiple measurements has been the need to post-select on random outcomes. Here we resolve this problem by introducing cross-correlations between experimental measurement results and classical simulations, which act as resource-efficient probes of the transition. The phenomena we discuss are, moreover, robust to local decoherence. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 極端量子回帰のためのニューラルネットワークと洪水リスク予測への応用
Neural Networks for Extreme Quantile Regression with an Application to Forecasting of Flood Risk ( http://arxiv.org/abs/2208.07590v3 ) ライセンス: Link先を確認 | Olivier C. Pasche, Sebastian Engelke, | (参考訳) 極端な事象に対するリスクアセスメントには、歴史的観測範囲を超えた高量子量の正確な推定が必要である。
リスクが観測された予測器の値に依存する場合、回帰手法は予測器空間内での補間に使用される。
本稿では,ニューラルネットワークと極値理論のツールを複合したEQRNモデルを提案する。
ニューラルネットワークは自然にデータに付加的な構造を組み込むことができる。
時系列の複雑なシーケンシャル依存を捉えることができるEQRNの繰り返しバージョンを開発する。
本研究では,スイス・アーレ流域の洪水リスク予測に本手法を適用した。
空間と時間における複数の共変量からの情報を利用して、リターンレベルと超越確率の1日の予測を提供する。
この出力は、従来の極端値分析から得られる静的リターンレベルを補完し、予測は変化する気候で経験した分布シフトに適応することができる。
我々のモデルは、当局が洪水をより効果的に管理し、早期警戒システムを通じてその破壊的な影響を最小限に抑えるのに役立つ。
Risk assessment for extreme events requires accurate estimation of high quantiles that go beyond the range of historical observations. When the risk depends on the values of observed predictors, regression techniques are used to interpolate in the predictor space. We propose the EQRN model that combines tools from neural networks and extreme value theory into a method capable of extrapolation in the presence of complex predictor dependence. Neural networks can naturally incorporate additional structure in the data. We develop a recurrent version of EQRN that is able to capture complex sequential dependence in time series. We apply this method to forecast flood risk in the Swiss Aare catchment. It exploits information from multiple covariates in space and time to provide one-day-ahead predictions of return levels and exceedance probabilities. This output complements the static return level from a traditional extreme value analysis, and the predictions are able to adapt to distributional shifts as experienced in a changing climate. Our model can help authorities to manage flooding more effectively and to minimize their disastrous impacts through early warning systems. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# マルチソース非教師付きドメイン適応のためのマルチプロンプトアライメント
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation ( http://arxiv.org/abs/2209.15210v5 ) ライセンス: Link先を確認 | Haoran Chen, Xintong Han, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) 既存の非教師なしドメイン適応(UDA)メソッドの多くは、ドメイン不変の特徴を抽出するために共有ネットワークに依存している。
しかし、複数のソースドメインに直面している場合、そのようなネットワークを最適化するには、ネットワーク全体のパラメータを更新する必要がある。
計算的経済的な方法で下流タスクに高容量モデルを適用する,近年の素早い学習の進歩に触発されて,マルチソースUDAのためのシンプルかつ効率的なフレームワークであるMPA(Multi-Prompt Alignment)を導入した。
ソースとターゲットのドメインペアが与えられた場合、MPAはまず個々のプロンプトをトレーニングし、対照的な損失によってドメインギャップを最小限にする。
そして、MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構成されたプロンプトの合意を最大化することでそれらを調整する。
さらに,自動符号化プロセスから得られる部分空間が,対象領域の合理化に容易に適用可能であることを示し,本手法を実用化するために有効であることを示す。
大規模な実験により、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
Most existing methods for unsupervised domain adaptation (UDA) rely on a shared network to extract domain-invariant features. However, when facing multiple source domains, optimizing such a network involves updating the parameters of the entire network, making it both computationally expensive and challenging, particularly when coupled with min-max objectives. Inspired by recent advances in prompt learning that adapts high-capacity models for downstream tasks in a computationally economic way, we introduce Multi-Prompt Alignment (MPA), a simple yet efficient framework for multi-source UDA. Given a source and target domain pair, MPA first trains an individual prompt to minimize the domain gap through a contrastive loss. Then, MPA denoises the learned prompts through an auto-encoding process and aligns them by maximizing the agreement of all the reconstructed prompts. Moreover, we show that the resulting subspace acquired from the auto-encoding process can easily generalize to a streamlined set of target domains, making our method more efficient for practical usage. Extensive experiments show that MPA achieves state-of-the-art results on three popular datasets with an impressive average accuracy of 54.1% on DomainNet. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 高速トポロジカル信号同定と持続的コホモロジーサイクルマッチング
Fast Topological Signal Identification and Persistent Cohomological Cycle Matching ( http://arxiv.org/abs/2209.15446v2 ) ライセンス: Link先を確認 | Inés García-Redondo, Anthea Monod, Anna Song, | (参考訳) トポロジカルデータ分析の文脈では、多くのアプリケーションにおいて、データセット間のトポロジ的重要性とマッチング信号を特定する問題は重要かつ有用な推論タスクである。
しかし、これらの問題に対する既存の解の制限は計算速度である。
本稿では,コホモロジー手法を用いてトポロジ的有病率とサイクルマッチングの問題を解明し,その実現可能性と適用性を高めることによる,永続的ホモロジー計算のための最先端技術を活用する。
我々はこれを、幅広い実生活、大規模、複雑なデータセットで実証する。
我々は、一般的な非モース濾過を含むようなトポロジカル・プレバレンスとサイクルマッチングの既存の概念を拡張した。
これにより、トポロジカル信号の識別と持続サイクルマッチングの最も汎用的で柔軟な適用が可能となり、標準のHPCCPU施設では、数千個のサンプルポイントに対して10のオーダーを比較することができる。
Within the context of topological data analysis, the problems of identifying topological significance and matching signals across datasets are important and useful inferential tasks in many applications. The limitation of existing solutions to these problems, however, is computational speed. In this paper, we harness the state-of-the-art for persistent homology computation by studying the problem of determining topological prevalence and cycle matching using a cohomological approach, which increases their feasibility and applicability to a wider variety of applications and contexts. We demonstrate this on a wide range of real-life, large-scale, and complex datasets. We extend existing notions of topological prevalence and cycle matching to include general non-Morse filtrations. This provides the most general and flexible state-of-the-art adaptation of topological signal identification and persistent cycle matching, which performs comparisons of orders of ten for thousands of sampled points in a matter of minutes on standard institutional HPC CPU facilities. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 変分アルゴリズムにおける量子古典的トレードオフと多制御量子ゲート分解
Quantum-classical tradeoffs and multi-controlled quantum gate decompositions in variational algorithms ( http://arxiv.org/abs/2210.04378v3 ) ライセンス: Link先を確認 | Teague Tomesh, Nicholas Allen, Daniel Dilley, Zain Saleem, | (参考訳) 短期量子コンピュータの計算能力は、ゲート演算のノイズ発生と物理量子ビット数の制限により制限される。
ハイブリッド変分アルゴリズムは、問題の解決に使用される量子資源と古典的リソースの間の幅広いトレードオフを可能にするため、短期量子デバイスに適している。
本稿では、量子近似最適化アルゴリズム(QAOA)を最大独立集合問題(MIS)のインスタンスに適用し、特定のケースを研究することにより、アルゴリズムレベルとハードウェアレベルの両方で利用できるトレードオフについて検討する。
アルゴリズムレベルで異なるトレードオフを提供するQAOAの3つの変種を、必要となる古典的パラメータの数、量子ゲート、および必要な古典的最適化の繰り返しの観点から検討する。
MISは制約付き組合せ最適化問題であるため、QAOAは問題制約を尊重しなければならない。
これは、ターゲットハードウェアによって実行可能なゲートに分解されなければならない、多数のマルチコントロールゲート操作を使用することで実現できる。
このハードウェアレベルで利用可能なトレードオフについて検討し、異なるネイティブゲートセットのゲート忠実度と分解効率を結合して、‘textit{gate decomposition Cost} と呼ばれる単一のメトリクスに変換する。
The computational capabilities of near-term quantum computers are limited by the noisy execution of gate operations and a limited number of physical qubits. Hybrid variational algorithms are well-suited to near-term quantum devices because they allow for a wide range of tradeoffs between the amount of quantum and classical resources used to solve a problem. This paper investigates tradeoffs available at both the algorithmic and hardware levels by studying a specific case -- applying the Quantum Approximate Optimization Algorithm (QAOA) to instances of the Maximum Independent Set (MIS) problem. We consider three variants of the QAOA which offer different tradeoffs at the algorithmic level in terms of their required number of classical parameters, quantum gates, and iterations of classical optimization needed. Since MIS is a constrained combinatorial optimization problem, the QAOA must respect the problem constraints. This can be accomplished by using many multi-controlled gate operations which must be decomposed into gates executable by the target hardware. We study the tradeoffs available at this hardware level, combining the gate fidelities and decomposition efficiencies of different native gate sets into a single metric called the \textit{gate decomposition cost}. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# FairCLIP:属性型学習と表現中立化に基づく社会的バイアス除去
FairCLIP: Social Bias Elimination based on Attribute Prototype Learning and Representation Neutralization ( http://arxiv.org/abs/2210.14562v2 ) ライセンス: Link先を確認 | Junyang Wang, Yi Zhang, Jitao Sang, | (参考訳) CLIPのようなVision-Language Pre-Training(VLP)モデルは近年人気を集めている。
しかし、CLIPに隠された社会的バイアスは、下流のタスク、特に画像検索において容易に現れ、人間の社会に有害な影響を及ぼす可能性がある。
本研究では,CLIPに基づく画像検索における社会的バイアスを解消するFairCLIPを提案する。
FairCLIPはAPL(Atribute Prototype Learning)とRN(Representation Neutralization)の2つのステップに分けられる。
最初のステップでは、CLIPのデバイアス化に必要な概念を抽出する。
学習可能な単語ベクトルプレフィックスを用いたクエリを抽出構造として使用する。
2番目のステップでは、まず属性をターゲット属性とバイアス属性に分割します。
分析により、どちらの属性もバイアスに影響を及ぼすことがわかった。
そこで,表現の中立化を実現するためにRe-Representation Matrix (RRM) を用いてバイアスを取り除く。
劣化効果と検索性能を他の手法と比較し,FairCLIPが最適な互換性を実現することを示す実験を行った。
FairCLIPは画像検索のバイアスを取り除くために使用されるが、すべてのCLIP下流タスクに共通する表現の中立化を実現する。
これは、FairCLIPがCLIPに関連する他のフェアネス問題に対する一般的なデバイアス法として適用可能であることを意味する。
The Vision-Language Pre-training (VLP) models like CLIP have gained popularity in recent years. However, many works found that the social biases hidden in CLIP easily manifest in downstream tasks, especially in image retrieval, which can have harmful effects on human society. In this work, we propose FairCLIP to eliminate the social bias in CLIP-based image retrieval without damaging the retrieval performance achieving the compatibility between the debiasing effect and the retrieval performance. FairCLIP is divided into two steps: Attribute Prototype Learning (APL) and Representation Neutralization (RN). In the first step, we extract the concepts needed for debiasing in CLIP. We use the query with learnable word vector prefixes as the extraction structure. In the second step, we first divide the attributes into target and bias attributes. By analysis, we find that both attributes have an impact on the bias. Therefore, we try to eliminate the bias by using Re-Representation Matrix (RRM) to achieve the neutralization of the representation. We compare the debiasing effect and retrieval performance with other methods, and experiments demonstrate that FairCLIP can achieve the best compatibility. Although FairCLIP is used to eliminate bias in image retrieval, it achieves the neutralization of the representation which is common to all CLIP downstream tasks. This means that FairCLIP can be applied as a general debiasing method for other fairness issues related to CLIP. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# オブザーバに基づく逆強化学習における等価解の非特異性と収束性
Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.16299v4 ) ライセンス: Link先を確認 | Jared Town, Zachary Morrison, Rushikesh Kamalapurkar, | (参考訳) オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数の解が存在することである。
非特異性は等価解の概念、すなわち異なるコスト関数的だが同じフィードバック行列をもたらす解、およびそのような解への収束の研究を必要とする。
等価解に収束するオフラインアルゴリズムは文献で開発されているが、非特異性に対処するオンラインリアルタイム技術は利用できない。
本稿では、IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発する。
解析を容易にするために新たなデータリッチネス条件が開発され, シミュレーションにより, 提案手法の有効性を実証する。
A key challenge in solving the deterministic inverse reinforcement learning (IRL) problem online and in real-time is the existence of multiple solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions, i.e., solutions that result in a different cost functional but same feedback matrix, and convergence to such solutions. While offline algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer that converges to approximately equivalent solutions of the IRL problem is developed. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 時間依存駆動をもつ2レベル系のエクササイズ量子力学
Exact quantum dynamics for two-level systems with time-dependent driving ( http://arxiv.org/abs/2211.03342v4 ) ライセンス: Link先を確認 | Zhi-Cheng He, Yi-Xuan Wu, Zheng-Yuan Xue, | (参考訳) 時間依存的なシュル・"{o} ディンガー方程式は、2段階の量子系であっても非常に稀な場合にのみ正確に解けることが知られている。
したがって、時間依存ハミルトニアンの下で正確な量子力学を見つけることは、量子物理学の基本的な重要性だけでなく、量子情報処理のためのアクティブな量子操作を促進することもできる。
本稿では、時間依存駆動を持つ量子ビットに対するシュルンディンガー方程式のほぼ無限個の解析支援解を生成する方法を提案する。
この解析支援解は境界制限しか持たない自由パラメータを持ち、正確な量子操作に多くの応用を見出すことができる。
我々のスキームにおける時間依存ハミルトニアンの一般的な形式のため、様々な実験的な立方体で容易に実装できる。
したがって、このスキームはSchr\"{o}dinger 方程式の新しい解を提供し、量子ビットを正確に制御するための代替的で解析的なルーチンを提供する。
It is well-known that time-dependent Schr\"{o}dinger equation can only be exactly solvable in very rare cases, even for two-level quantum systems. Therefore, finding exact quantum dynamics under time-dependent Hamiltonian is not only of fundamental importance in quantum physics but also can facilitate active quantum manipulations for quantum information processing. Here, we present a method which could generate a near infinite number of analytical-assisted solutions of the Schr\"{o}dinger equation for a qubit with time-dependent driving. This analytical-assisted solution has free parameters with only boundary restrictions, and thus can find many applications in precise quantum manipulations. Due to the general form of the time-dependent Hamiltonian in our scheme, it can be readily implemented in various experimental setups of qubits. Therefore, our scheme provides new solutions for Schr\"{o}dinger equation, thus provides an alternative and analytical-based routine for precise control over qubits. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 教師なし領域適応による画像編集のためのGANインバージョン
GAN Inversion for Image Editing via Unsupervised Domain Adaptation ( http://arxiv.org/abs/2211.12123v3 ) ライセンス: Link先を確認 | Siyu Xing, Chen Gong, Hewei Guo, Xiao-Yu Zhang, Xinwen Hou, Yu Liu, | (参考訳) 既存のGANインバージョン手法は、より一般的な低品質(LQ)入力に苦しむ一方で、高品質(HQ)イメージの再構築に優れる。
この問題に対処するために、HQおよびLQ画像の効果的な逆変換と編集のために、Unsupervised Domain Adaptation (UDA) をインバージョンプロセス、すなわち UDA-inversion として提案する。
未ペアのHQイメージをソースドメインとして、LQイメージを未ラベルのターゲットドメインとして、対象ドメインの損失値がソースドメインの損失によって上界となるという理論的保証と、2つのドメイン間の差を測定する新しい差分関数を導入する。
その後、この上限を最小化してHQおよびLQ画像の正確な潜時符号を得る。
これにより、HQ画像の構成的表現を自然に学習し、監督なしでLQ画像に変換することができる。
UDA-InversionはFFHQデータセットで22.14のPSNRを実現し、教師付きメソッドと互換性がある。
Existing GAN inversion methods work brilliantly in reconstructing high-quality (HQ) images while struggling with more common low-quality (LQ) inputs in practical application. To address this issue, we propose Unsupervised Domain Adaptation (UDA) in the inversion process, namely UDA-inversion, for effective inversion and editing of both HQ and LQ images. Regarding unpaired HQ images as the source domain and LQ images as the unlabeled target domain, we introduce a theoretical guarantee: loss value in the target domain is upper-bounded by loss in the source domain and a novel discrepancy function measuring the difference between two domains. Following that, we can only minimize this upper bound to obtain accurate latent codes for HQ and LQ images. Thus, constructive representations of HQ images can be spontaneously learned and transformed into LQ images without supervision. UDA-Inversion achieves a better PSNR of 22.14 on FFHQ dataset and performs comparably to supervised methods. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# パラメータ効率の良い微調整のための事前訓練言語モデルプライミングの体系的解析
Systematic Analysis for Pretrained Language Model Priming for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2212.01032v2 ) ライセンス: Link先を確認 | Shih-Cheng Huang, Shih-Heng Wang, Min-Han Shih, Saurav Sahay, Hung-yi Lee, | (参考訳) 事前学習された言語モデル(PLM)を下流タスクに適用するためのパラメータ効率(PE)メソッド(PromptsやAdaptersなど)が最近人気になっている。
しかし、障害はこれらの方法が完全な潜在能力に達するのをまだ妨げている。
例えば、2つの重要な課題は、少数ショット適応とクロスタスクの一般化である。
これらの課題に対処するために,PE手法の少数ショット適応と一般化能力を高めるための汎用PEプライミングフレームワークを提案する。
この枠組みでは, PLM には様々なタスクに迅速に適応するためのPE 法が組み込まれている。
これらのPE手法の一般化能力を評価するため,160種類のNLPタスクを含む数ショットのクロスドメインベンチマークで実験を行った。
我々の実験は最高のプライミング戦略を明らかにするだけでなく、プライミングが目標タスクへの適応を促進することを検証する。
Parameter-efficient (PE) methods (like Prompts or Adapters) for adapting pre-trained language models (PLM) to downstream tasks have been popular recently. However, hindrances still prevent these methods from reaching their full potential. For example, two significant challenges are few-shot adaptation and cross-task generalization. To tackle these issues, we propose a general PE priming framework to enhance and explore the few-shot adaptation and generalization ability of PE methods. In this framework, PLMs are primed with PE methods for rapidly adapting to various target tasks. To evaluate the generalization ability of these PE methods, we conduct experiments on a few-shot cross-domain benchmark containing 160 diverse NLP tasks. Our experiment not only reveals the best priming strategy but also verifies that priming facilitates the adaptation to target tasks. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# 単一および絡み合った量子ビットの幾何学的可視化
Geometric Visualizations of Single and Entangled Qubits ( http://arxiv.org/abs/2212.03448v2 ) ライセンス: Link先を確認 | Li-Heng Henry Chang, Shea Roccaforte, Ziyu Xu, Paul Cadden-Zimansky, | (参考訳) 単一量子ビットの可能な状態のブロッホ・スフェール可視化は、3次元空間における量子ビット状態と点の間の1対1の写像として有用な教育的、概念的なツールであることが証明された。
しかし、絡み合いのような多くの重要な量子力学の概念を理解するには、最小2量子ビットの状態に関する直観を発達させなければならない。
本稿では,これらの状態の性質を定量的に定性的に符号化する1-および2-キュービット系の部分空間マップを作成することにより,この可視化問題を回避した。
1-キュービットの場合、部分空間のアプローチでは、混合状態が基底非依存的な方法で測定の異なる選択とどのように関連しているかを視覚化し、これらの状態の密度行列表現におけるエントリを単純な図で読み取ることができる。
2-キュービットの場合、2-キュービット状態のトロイダル写像は状態空間の非自明な位相を照らし、距離と角度、 2-キュービット状態の絡み合いのレベルとその構成量子ビットの混合状態特性を同時に読み取ることができる。
量子論理ゲートを通じて状態とそれらの進化を、数学的定式化をほとんど必要としない形で符号化することにより、これらの写像は、量子力学と量子情報の入門レベルでの基本的な概念を理解するのに特に有用であることが証明される。
本論文で紹介された可視化のインタラクティブバージョンはhttps://quantum.bard.edu/.com/で公開されている。
The Bloch Sphere visualization of the possible states of a single qubit has proved a useful pedagogical and conceptual tool as a one-to-one map between qubit states and points in a 3-D space. However, understanding many important concepts of quantum mechanics, such as entanglement, requires developing intuitions about states with a minimum of two qubits, which map one-to-one to unvisualizable spaces of 6 dimensions and higher. In this paper we circumvent this visualization issue by creating maps of subspaces of 1- and 2-qubit systems that quantitatively and qualitatively encode properties of these states in their geometries. For the 1-qubit case, the subspace approach allows one to visualize how mixed states relate to different choices of measurement in a basis-independent way and how to read off the entries in a density matrix representation of these states from lengths in a simple diagram. For the 2-qubit case, a toroidal map of 2-qubit states illuminates the non-trivial topology of the state space while allowing one to simultaneously read off, in distances and angles, the level of entanglement in the 2-qubit state and the mixed-state properties of its constituent qubits. By encoding states and their evolutions through quantum logic gates with little to no need of mathematical formalism, these maps may prove particularly useful for understanding fundamental concepts of quantum mechanics and quantum information at the introductory level. Interactive versions of the visualizations introduced in this paper are available at https://quantum.bard.edu/. | 翻訳日:2024-06-01 00:22:17 公開日:2024-05-30 |
# エンタングルメントの最適化は、ブラックホールが極端かどうかに依存する
Optimization of entanglement depends on whether a black hole is extremal ( http://arxiv.org/abs/2301.06764v2 ) ライセンス: Link先を確認 | Subhajit Barman, Bibhas Ranjan Majhi, | (参考訳) 我々は、2つのUnruh-DeWitt検出器が1+1$次元Reissner-Nordstr\"omブラックホール時空において無質量で最小結合のスカラー場と相互作用すると考えている。
特に、$Alice$に対応する検出器の1つは、出力するヌル軌道に沿って動いている。
一方、$Bob$で運ばれる他の検出器は静的である。
このセットアップにより、非極端および極端シナリオにおける絡み合い条件と絡み合い、収束度の測定について検討する。
この2つのシナリオ間の絡み合いの特徴の質的類似性は,予想通り示唆された。
しかし, 幅広いブラックホールの電荷に対する非極端と極端のコンカレンスの間には, 定量的な差異が認められた。
適度に大きい検出器遷移エネルギーでは、極端背景は常に非極端背景よりも大きな絡み合いを持つ。
対照的に、低検出器遷移エネルギーでは、非極端背景の絡み合いが大きい。
したがって、検出器遷移エネルギーを調整することで、極端背景または非極端背景から最適絡みを知覚することができる。
We consider two Unruh-DeWitt detectors interacting with a massless, minimally coupled scalar field in a $(1+1)$ dimensional Reissner-Nordstr\"om black hole spacetime. In particular, one of the detectors, corresponding to $Alice$, is moving along an outgoing null trajectory. While the other detector carried by $Bob$ is static. With this set-up, we investigate the entangling condition and the measure of the entanglement, concurrence, in the nonextremal and extremal scenarios. Our observations suggest, as expected, a qualitative similarity in characteristics of the entanglement between these two scenarios. However, we find quantitative differences between the nonextremal and extremal concurrences for a broad range of black hole charges. With moderately large detector transition energy, the extremal background always accounts for the larger entanglement than the nonextremal one. In contrast, with low detector transition energy, entanglement on the nonextremal background can be greater. Therefore, by adjusting the detector transition energy, one can perceive optimum entanglement from either the extremal or the nonextremal background. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 計算双対性と目的超知能
Computational Dualism and Objective Superintelligence ( http://arxiv.org/abs/2302.00843v5 ) ライセンス: Link先を確認 | Michael Timothy Bennett, | (参考訳) インテリジェントソフトウェアの概念には欠陥がある。
ソフトウェアの振る舞いは、それを"解釈"するハードウェアによって決定されます。
これは、理論化されたソフトウェア超知能の振る舞いに関する主張を損なう。
ここでは、この問題を「計算双対主義(computational dualism)」と呼び、心的・物理的物質の代わりに、ソフトウェアとハードウェアがある。
性能に関する客観的な主張を行うためには、計算双対性を避ける必要がある。
環境のあらゆる側面が既約状態間の関係であるパンコンピュテーションの代替案を提案する。
我々は、システムを行動(インプットとアウトプット)として形式化し、認識を具体化、組込み、拡張、活動的とします。
結果は、インタプリタを介して環境と相互作用する非身体的政策としてではなく、環境の一部として形式化されている。
これによって私たちは、インテリジェンスに関する客観的な主張を行うことができ、それは"一般化"し、原因を特定し、適応する能力である、と我々は主張する。
そして、知的行動の客観的な上限を確立する。
これは、AGIは理論よりも安全だが、より限定的であることを示唆している。
The concept of intelligent software is flawed. The behaviour of software is determined by the hardware that "interprets" it. This undermines claims regarding the behaviour of theorised, software superintelligence. Here we characterise this problem as "computational dualism", where instead of mental and physical substance, we have software and hardware. We argue that to make objective claims regarding performance we must avoid computational dualism. We propose a pancomputational alternative wherein every aspect of the environment is a relation between irreducible states. We formalise systems as behaviour (inputs and outputs), and cognition as embodied, embedded, extended and enactive. The result is cognition formalised as a part of the environment, rather than as a disembodied policy interacting with the environment through an interpreter. This allows us to make objective claims regarding intelligence, which we argue is the ability to "generalise", identify causes and adapt. We then establish objective upper bounds for intelligent behaviour. This suggests AGI will be safer, but more limited, than theorised. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# WW-FL: セキュアでプライベートな大規模フェデレーションラーニング
WW-FL: Secure and Private Large-Scale Federated Learning ( http://arxiv.org/abs/2302.09904v3 ) ライセンス: Link先を確認 | Felix Marx, Thomas Schneider, Ajith Suresh, Tobias Wehrle, Christian Weinert, Hossein Yalame, | (参考訳) Federated Learning(FL)は、クライアントデバイス上でトレーニングデータを保持することによって、データのプライバシを保証する、大規模分散機械学習の効率的なアプローチである。
しかし、最近の研究でFLの脆弱性が明らかとなり、セキュリティとプライバシの両方に悪影響を及ぼし、個々のモデル更新や集約されたグローバルモデルにおいて機密情報が開示される可能性があることが判明した。
本稿では,既存のFL保護対策が独立に適用されている場合の問題点と,有効組成の創出に関する課題について考察する。
これらの課題に対処するために,セキュアなマルチパーティ計算(MPC)と階層FLを組み合わせた,データとグローバルモデルのプライバシを保証する革新的なフレームワークであるWW-FLを提案する。
WW-FLの特長の1つは、悪意のあるクライアントがモデルパラメータを直接毒殺することを防ぎ、破壊的なデータ中毒攻撃を減らすことである。
さらに、PyTorchベースのFL実装をMetaのCrypTen MPCフレームワークに統合し、WW-FLの性能と堅牢性を体系的に測定する。
我々は,WW-FLが安全かつプライベートな大規模フェデレーション学習のための有望なソリューションであることを示す。
Federated learning (FL) is an efficient approach for large-scale distributed machine learning that promises data privacy by keeping training data on client devices. However, recent research has uncovered vulnerabilities in FL, impacting both security and privacy through poisoning attacks and the potential disclosure of sensitive information in individual model updates as well as the aggregated global model. This paper explores the inadequacies of existing FL protection measures when applied independently, and the challenges of creating effective compositions. Addressing these issues, we propose WW-FL, an innovative framework that combines secure multi-party computation (MPC) with hierarchical FL to guarantee data and global model privacy. One notable feature of WW-FL is its capability to prevent malicious clients from directly poisoning model parameters, confining them to less destructive data poisoning attacks. We furthermore provide a PyTorch-based FL implementation integrated with Meta's CrypTen MPC framework to systematically measure the performance and robustness of WW-FL. Our extensive evaluation demonstrates that WW-FL is a promising solution for secure and private large-scale federated learning. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 周期誤差再構成を用いた誤差プロファイルへのコヒーレント寄与の推定
Estimating Coherent Contributions to the Error Profile Using Cycle Error Reconstruction ( http://arxiv.org/abs/2303.09945v3 ) ライセンス: Link先を確認 | Arnaud Carignan-Dugas, Shashank Kumar Ranu, Patrick Dreher, | (参考訳) 緩和と校正スキームは、今日のノイズ中間スケール量子(NISQ)ハードウェアの計算範囲を最大化するために中心的であるが、これらのスキームは、コヒーレントまたはデコヒーレントなエラーソースにのみ対処するように特化されている。
したがって、2種類のエラーを定量化することは、エラー抑制ツールのベンチマークにおいて望ましい特徴である。
本稿では,ハード・コンピューティング・サイクルの誤差プロファイルに対するコヒーレント・コントリビューションの詳細な推定値を得るための,スケーラブルでサイクル中心の方法論を提案する。
提案するプロトコルは、K-body Noise Reconstruction(KNR)とも呼ばれるCER(Cycle Error Reconstruction)に基づいている。
このプロトコルはCycle Benchmarking (CB) と似ており、Pauli のフィデリティ推定 [1] に基づいたサイクル中心の診断を提供する。
我々はCERに新たなハイパーパラメータを導入し、ハードサイクルを複数回折り畳んでから、パウリ旋回する。
付加した超パラメータの異なる値に対してCERを実行することにより、忠実度減衰公式の一般化によりコヒーレントな誤差寄与を推定できる。
我々は,量子シミュレータ上で数値シミュレーションを行い,ibmq_guadalupe,ibmq_manila,ibmq_montrealの3つのIBMチップ上で概念実証実験を行った。
これら3つの実験で、Z に偏ったかなりのコヒーレント誤差を測定する。
Mitigation and calibration schemes are central to maximize the computational reach of today's Noisy Intermediate Scale Quantum (NISQ) hardware, but these schemes are often specialized to exclusively address either coherent or decoherent error sources. Quantifying the two types of errors hence constitutes a desirable feature when it comes to benchmarking error suppression tools. In this paper, we present a scalable and cycle-centric methodology for obtaining a detailed estimate of the coherent contribution to the error profile of a hard computing cycle. The protocol that we suggest is based on Cycle Error Reconstruction (CER), also known as K-body Noise Reconstruction (KNR). This protocol is similar to Cycle Benchmarking (CB) in that it provides a cycle-centric diagnostic based on Pauli fidelity estimation [1]. We introduce an additional hyper-parameter in CER by allowing the hard cycles to be folded multiple times before being subject to Pauli twirling. Performing CER for different values of our added hyper-parameter allows estimating the coherent error contributions through a generalization of the fidelity decay formula. We confirm the accuracy of our method through numerical simulations on a quantum simulator, and perform proof-of-concept experiments on three IBM chips, namely ibmq_guadalupe, ibmq_manila, and ibmq_montreal. In all three experiments, we measure substantial coherent errors biased in Z. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 不完全な遠隔搬送による遠隔粒子の視線絡み合い
Witnessing entanglement of remote particles with incomplete teleportation ( http://arxiv.org/abs/2303.17549v3 ) ライセンス: Link先を確認 | Vahid Jannessary, Fatemeh Rezazadeh, Sadegh Raeisi, Vahid Karimipour, | (参考訳) 共通参照フレームまたは整列座標系を持つことは、2つのリモートパーティが所有する2つのパーティ状態における絡み合いを目撃する際の推定値の1つである。
この仮定は多くの理由で失敗するかもしれない。
一重項状態の無制限供給により、両者はまず座標系を調整し、次に絡み合った証人を測定することができる。
本稿では,座標系の事前調整を必要とせず,局所的な測定により共有状態の絡み合いを観測できるように,両者間の状態の不完全なテレポーテーションに同じ資源を使用する方法を提案する。
この方法はあらゆる種類の証人やあらゆる次元で機能する。
エンタングルメント・ウィットネス(Entanglement Witnesses)の文脈以外にも、我々の手法は、資源不足の可能性がある実験室で観測可能な粒子(絡み合っていなくてもよい)のリモート測定にも有効である。
Having common reference frames or aligned coordinate systems, is one of the presumptions in witnessing entanglement in a two-party state possessed by two remote parties. This assumption may fail for many reasons. With an unlimited supply of singlet states, the two parties can first align their coordinate systems and then measure any entanglement witness. In this article, we propose an alternative method which uses the same resource for incomplete teleportation of states between the two parties, enabeling them to witness the entanglement of any shared state by local measurements without the need of prior alignment of the coordinate systems. The method works for any kind of witness and in any dimension. Beyond the context of Entanglement Witnesses, our method works also for remote measurements of observables of particles (entangled or not) in laboratories which may have deficiency in their resources. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 対称性・制約・長距離相互作用における創発的流体力学とリンドブラディアン低エネルギースペクトルの統一化
Unifying Emergent Hydrodynamics and Lindbladian Low Energy Spectra across Symmetries, Constraints, and Long-Range Interactions ( http://arxiv.org/abs/2304.13028v4 ) ライセンス: Link先を確認 | Olumakinde Ogunnaike, Johannes Feldmeier, Jong Yeon Lee, | (参考訳) 我々は,様々な対称性,制約,相互作用範囲を有するブラウン乱数回路における電荷輸送を管理する創発的流体力学を同定する。
これは、平均力学とリンドブラッド作用素の低エネルギースペクトルの間の写像によって達成される。
単一モード近似を用いて、この実効ハミルトニアンの分散励起状態を明示的に構成することにより、保存された多重極モーメントと可変相互作用範囲を持つ多体系における拡散的、部分拡散的、超拡散的緩和の包括的理解を提供する。
さらに, 双極子保存が存在するにもかかわらず, 拡散緩和を示すエキゾチックなクリロフ空間分解流体力学を同定し, 数値的に検証する。
我々のアプローチは、ランダムなユニタリ時間進化の下で保存された作用素の力学を定性的に理解するための汎用的で汎用的なフレームワークを提供する。
We identify emergent hydrodynamics governing charge transport in Brownian random circuits with various symmetries, constraints, and ranges of interactions. This is accomplished via a mapping between the averaged dynamics and the low energy spectrum of a Lindblad operator, which acts as an effective Hamiltonian in a doubled Hilbert space. By explicitly constructing dispersive excited states of this effective Hamiltonian using a single mode approximation, we provide a comprehensive understanding of diffusive, subdiffusive, and superdiffusive relaxation in many-body systems with conserved multipole moments and variable interaction ranges. Our approach further allows us to identify exotic Krylov-space-resolved hydrodynamics exhibiting diffusive relaxation despite the presence of dipole conservation, which we verify numerically. Our approach provides a general and versatile framework to qualitatively understand the dynamics of conserved operators under random unitary time evolution. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# PiVe: LLMのグラフベースの生成能力を改善する反復検証によるプロンプト
PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs ( http://arxiv.org/abs/2305.12392v3 ) ライセンス: Link先を確認 | Jiuzhou Han, Nigel Collier, Wray Buntine, Ehsan Shareghi, | (参考訳) 大規模言語モデル(LLM)は、異なるドメインで様々な自然言語タスクを解く能力を示す。
LLMのトレーニング目標とその事前学習データにより、構造化データ生成に関わるタスクに対して、LLMは十分に装備されていない。
我々は,LLMのグラフベース生成能力を改善するために,反復検証によるPrompting(PiVe)フレームワークを提案する。
LLM〜(例えばChatGPT, GPT-4)の出力の検証モジュールとして機能し, きめ細かい修正命令によってその性能を反復的に向上するために, 小言語モデルをいかに訓練するかを示す。
また,検証モジュールがテキスト・ツー・グラフ生成タスクに対して,よりコスト効率のよいソリューションのために,繰り返し修正をオフラインで適用できることを示す。
3つのグラフベースのデータセットの実験では、PiVeを通じて一貫した改善が得られた。
さらに、GenWiki-HIQを作成し、検証モジュールをデータ拡張ツールとして使用して、自動生成された並列テキストグラフデータセットの品質向上を支援することを強調する。
Large language models (LLMs) have shown great abilities of solving various natural language tasks in different domains. Due to the training objective of LLMs and their pre-training data, LLMs are not very well equipped for tasks involving structured data generation. We propose a framework, Prompting with Iterative Verification (PiVe), to improve graph-based generative capability of LLMs. We show how a small language model could be trained to act as a verifier module for the output of an LLM~(i.e., ChatGPT, GPT-4), and to iteratively improve its performance via fine-grained corrective instructions. We also show how the verifier module could apply iterative corrections offline for a more cost-effective solution to the text-to-graph generation task. Experiments on three graph-based datasets show consistent improvement gained via PiVe. Additionally, we create GenWiki-HIQ and highlight that the verifier module can be used as a data augmentation tool to help improve the quality of automatically generated parallel text-graph datasets. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# ドメインターゲット拡張による自然言語推論モデルへのロバストネスの蒸留
Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation ( http://arxiv.org/abs/2305.13067v2 ) ライセンス: Link先を確認 | Joe Stacey, Marek Rei, | (参考訳) 知識蒸留は、より小さな学生モデルがより大きな教師モデルと同じように振る舞うことを最適化し、パフォーマンス上の利点のいくつかを保持する。
本手法は, 分布内例の結果を改善することができるが, 必ずしも分布外設定(OOD)に一般化するとは限らない。
OODドメイン上で得られた学生モデルの堅牢性を改善するための2つの補完的手法について検討する。
第一のアプローチは、ターゲットの分布にマッチする未ラベルの例で蒸留を増強する。
第2の方法は、目標分布に類似したトレーニングセット内のデータポイントをサンプリングする。
自然言語推論 (NLI) の課題に適用した場合, MNLI を用いた実験により, これらの修飾による蒸留が従来のロバスト性解よりも優れていることが示された。
また,これらの手法により,OODドメインの性能が目標ドメインを超えて向上していることが判明した。
Knowledge distillation optimises a smaller student model to behave similarly to a larger teacher model, retaining some of the performance benefits. While this method can improve results on in-distribution examples, it does not necessarily generalise to out-of-distribution (OOD) settings. We investigate two complementary methods for improving the robustness of the resulting student models on OOD domains. The first approach augments the distillation with generated unlabelled examples that match the target distribution. The second method upsamples data points among the training set that are similar to the target distribution. When applied on the task of natural language inference (NLI), our experiments on MNLI show that distillation with these modifications outperforms previous robustness solutions. We also find that these methods improve performance on OOD domains even beyond the target domain. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 科学シミュレータのモデルとパラメータの同時同定
Simultaneous identification of models and parameters of scientific simulators ( http://arxiv.org/abs/2305.15174v3 ) ライセンス: Link先を確認 | Cornelius Schröder, Jakob H. Macke, | (参考訳) 多くの科学的モデルは複数の離散成分で構成されており、科学者はしばしばどの成分を含むかというヒューリスティックな決定を行う。
ベイズ推論は、モデルコンポーネントを体系的に選択するための数学的枠組みを提供するが、モデルコンポーネントに対する事前分布を定義し、関連する推論スキームを開発することは困難である。
モデルシミュレーションから、モデルコンポーネントと関連するパラメータの両方の結合確率分布を推論するために、ニューラルネットワークをトレーニングする。
シミュレーションに基づくモデル推論(SBMI)は、グラスマン形式における多変量二元分布の条件混合としてモデル成分上の分布を表す。
SBMIは任意の構成確率シミュレータに適用できる。
我々は,SBMIを単純な時系列モデルと神経科学からの2つの科学的モデルで評価し,複数のデータ一貫性モデル構成を発見し,同定不可能なモデル成分とパラメータを明らかにした。
SBMIは、科学者が本質的なモデルコンポーネントを特定し、不確実性にインフォームドされたモデリング決定を行うことを可能にする、データ駆動の科学的調査のための強力なツールを提供する。
Many scientific models are composed of multiple discrete components, and scientists often make heuristic decisions about which components to include. Bayesian inference provides a mathematical framework for systematically selecting model components, but defining prior distributions over model components and developing associated inference schemes has been challenging. We approach this problem in a simulation-based inference framework: We define model priors over candidate components and, from model simulations, train neural networks to infer joint probability distributions over both model components and associated parameters. Our method, simulation-based model inference (SBMI), represents distributions over model components as a conditional mixture of multivariate binary distributions in the Grassmann formalism. SBMI can be applied to any compositional stochastic simulator without requiring likelihood evaluations. We evaluate SBMI on a simple time series model and on two scientific models from neuroscience, and show that it can discover multiple data-consistent model configurations, and that it reveals non-identifiable model components and parameters. SBMI provides a powerful tool for data-driven scientific inquiry which will allow scientists to identify essential model components and make uncertainty-informed modelling decisions. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# CL-MRI : 自己監督型コントラスト学習によるアンダーサンプルMRIの精度向上
CL-MRI: Self-Supervised Contrastive Learning to Improve the Accuracy of Undersampled MRI Reconstruction ( http://arxiv.org/abs/2306.00530v3 ) ライセンス: Link先を確認 | Mevan Ekanayake, Zhifeng Chen, Mehrtash Harandi, Gary Egan, Zhaolin Chen, | (参考訳) 磁気共鳴イメージング(MRI)では、画像の取得は、画像の品質を犠牲にしてスキャンプロセスを加速するために、測定領域でアンサンプされることが多い。
しかし, 画像品質は診断精度に影響を与える重要な要因であり, アンサンプ測定による高画質画像再構成が重要な研究領域となっている。
近年、深層学習(DL)法がMRI再建の最先端として登場し、一般的には深層ニューラルネットワークが、アンサンプされたMRI画像をデータ駆動プロセスを通じて高品質なMRI画像に変換する。
それにもかかわらず, 診断に必要な高基準を満たすため, 画像ノイズを除去し, DLMRIのアンサンプ化を改善するための明確な, 重要な余地がある。
本稿では, コントラスト学習を用いた自己教師型事前訓練手法を導入し, DLMRI再構成の精度を向上する。
我々は、コントラスト学習を用いて、MRI画像表現を潜時空間に変換し、異なるアンサンプ表現間の相互情報を最大化し、下流DL再構成モデルの入力における情報内容の最適化を行う。
本実験は, 定量的かつ定性的に, 様々な加速度因子およびデータセットの再構成精度を向上することを示した。
さらに, 計測ノイズ, 異なるk空間サンプリングパターン, 病理異常などの逆向き条件下でのフレームワークの頑健性を検証するとともに, 解剖学的に全く異なるMRIデータセット上での移動学習能力を検証した。
さらに,提案したMRIの相対学習潜在空間の特性を可視化し,解析する実験を行った。
In Magnetic Resonance Imaging (MRI), image acquisitions are often undersampled in the measurement domain to accelerate the scanning process, at the expense of image quality. However, image quality is a crucial factor that influences the accuracy of clinical diagnosis; hence, high-quality image reconstruction from undersampled measurements has been a key area of research. Recently, deep learning (DL) methods have emerged as the state-of-the-art for MRI reconstruction, typically involving deep neural networks to transform undersampled MRI images into high-quality MRI images through data-driven processes. Nevertheless, there is clear and significant room for improvement in undersampled DL MRI reconstruction to meet the high standards required for clinical diagnosis, in terms of eliminating aliasing artifacts and reducing image noise. In this paper, we introduce a self-supervised pretraining procedure using contrastive learning to improve the accuracy of undersampled DL MRI reconstruction. We use contrastive learning to transform the MRI image representations into a latent space that maximizes mutual information among different undersampled representations and optimizes the information content at the input of the downstream DL reconstruction models. Our experiments demonstrate improved reconstruction accuracy across a range of acceleration factors and datasets, both quantitatively and qualitatively. Furthermore, our extended experiments validate the proposed framework's robustness under adversarial conditions, such as measurement noise, different k-space sampling patterns, and pathological abnormalities, and also prove the transfer learning capabilities on MRI datasets with completely different anatomy. Additionally, we conducted experiments to visualize and analyze the properties of the proposed MRI contrastive learning latent space. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 3次元分子間相互作用学習に向けた一般同変変圧器
Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning ( http://arxiv.org/abs/2306.01474v6 ) ライセンス: Link先を確認 | Xiangzhe Kong, Wenbing Huang, Yang Liu, | (参考訳) 生物学や薬物発見における多くのプロセスは、タンパク質やタンパク質、タンパク質や小さな分子などの分子間の様々な3D相互作用を含んでいる。
異なる分子が通常異なる粒度で表現されることを考えると、既存の手法は通常、それぞれの分子を異なるモデルで独立にエンコードし、基礎となる様々な相互作用物理学を学ぶのに欠陥がある。
本稿ではまず,任意の3次元錯体を集合の幾何学的グラフとして普遍的に表現し,全ての分子を1つのモデルで符号化することを提案する。
次に、ドメイン固有の階層とドメインに依存しない相互作用物理の両方を効果的に捉えるために、ジェネラリスト同変変換器(GET)を提案する。
具体的には、GETは双方向の注目モジュール、フィードフォワードモジュール、レイヤ正規化モジュールから構成される。
特に、従来のプーリングベースの階層モデルとは対照的に、GETはあらゆるレベルのきめ細かい情報を保持できます。
タンパク質, 小分子, RNA/DNA間の相互作用に関する広範囲な実験により, 提案手法の有効性と一般化能が異なる領域にわたって検証された。
Many processes in biology and drug discovery involve various 3D interactions between molecules, such as protein and protein, protein and small molecule, etc. Given that different molecules are usually represented in different granularity, existing methods usually encode each type of molecules independently with different models, leaving it defective to learn the various underlying interaction physics. In this paper, we first propose to universally represent an arbitrary 3D complex as a geometric graph of sets, shedding light on encoding all types of molecules with one model. We then propose a Generalist Equivariant Transformer (GET) to effectively capture both domain-specific hierarchies and domain-agnostic interaction physics. To be specific, GET consists of a bilevel attention module, a feed-forward module and a layer normalization module, where each module is E(3) equivariant and specialized for handling sets of variable sizes. Notably, in contrast to conventional pooling-based hierarchical models, our GET is able to retain fine-grained information of all levels. Extensive experiments on the interactions between proteins, small molecules and RNA/DNAs verify the effectiveness and generalization capability of our proposed method across different domains. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-30 |
# 普遍制約付き優先データベースにおける不整合処理: 複雑性解析とアクティブ積分制約付きリンク
Inconsistency Handling in Prioritized Databases with Universal Constraints: Complexity Analysis and Links with Active Integrity Constraints ( http://arxiv.org/abs/2306.03523v2 ) ライセンス: Link先を確認 | Meghyn Bienvenu, Camille Bourgaux, | (参考訳) 本稿では,普遍的な制約を備えた一貫性のないデータベースを修復・クエリする問題を再考する。
我々は、整合性回復に事実の削除と付加の両方を使用できる対称差分補修を採用し、(否定された)事実に対する二項優先関係によって、優先的な修理動作が特定されると仮定する。
最初のコントリビューションは、より単純な否定的制約と事実削除のみに基づく修復のために定義された、既存の最適修復の概念が、よりリッチな設定にどのように拡張できるかを示すことである。
次に, 補修概念の計算特性, 特に補修チェックと不整合性問合せ応答の複雑さについて検討する。
最後に、優先度付けされたデータベースの最適修復と、アクティブな整合性制約の枠組みで導入された修復概念との関係を明らかにする。
特に、我々の設定におけるパレート最適修復は、優先順位付けされたデータベースを翻訳して得られる能動的整合性制約に対して、確立、基礎化、正当化された修復に対応していることを示す。
また,本研究は,能動的整合性制約の挙動に関する有用な知見も得る。
This paper revisits the problem of repairing and querying inconsistent databases equipped with universal constraints. We adopt symmetric difference repairs, in which both deletions and additions of facts can be used to restore consistency, and suppose that preferred repair actions are specified via a binary priority relation over (negated) facts. Our first contribution is to show how existing notions of optimal repairs, defined for simpler denial constraints and repairs solely based on fact deletion, can be suitably extended to our richer setting. We next study the computational properties of the resulting repair notions, in particular, the data complexity of repair checking and inconsistency-tolerant query answering. Finally, we clarify the relationship between optimal repairs of prioritized databases and repair notions introduced in the framework of active integrity constraints. In particular, we show that Pareto-optimal repairs in our setting correspond to founded, grounded and justified repairs w.r.t. the active integrity constraints obtained by translating the prioritized database. Our study also yields useful insights into the behavior of active integrity constraints. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# セマンティックIDによるより良い一般化:勧告のランク付けを事例として
Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations ( http://arxiv.org/abs/2306.08121v2 ) ライセンス: Link先を確認 | Anima Singh, Trung Vu, Nikhil Mehta, Raghunandan Keshavan, Maheswaran Sathiamoorthy, Yilin Zheng, Lichan Hong, Lukasz Heldt, Li Wei, Devansh Tandon, Ed H. Chi, Xinyang Yi, | (参考訳) ランダムにハッシュされたアイテムIDは、レコメンデーションモデルでユビキタスに使用される。
しかし、ランダムハッシュから学習した表現は、類似した項目の一般化を防ぎ、特にアイテムコーパスが大きく、ゆるい分布であり、動的に進化するときに、目に見えない、長い尾のアイテムを学習する問題を引き起こす。
本稿では,ランダムIDの代替として,コンテンツから派生した特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
記憶と一般化のバランスを良くするため,RQ-VAEを用いて凍結したコンテンツ埋め込みから学習したコンパクトな離散アイテム表現であるセマンティックIDを,ランダムなアイテムIDの代替として用いることを提案する。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
本稿では,セマンティックID系列のサブピースをハッシュすることで,セマンティックIDを産業規模のランキングモデルに適用する手法を提案する。
特に, LLMトークン化で一般的に使用されるSentencePieceモデルは, N-gramsのような手作業で製作した作品よりも優れていた。
最終的に、YouTubeレコメンデーションの実際のランキングモデルを用いて、我々のアプローチを評価した。
実験により,セマンティックIDは,モデル品質を損なうことなく,新品および長期品目スライスへの一般化能力を向上させることで,ビデオIDの直接利用を置き換えることができることを示した。
Randomly-hashed item ids are used ubiquitously in recommendation models. However, the learned representations from random hashing prevents generalization across similar items, causing problems of learning unseen and long-tail items, especially when item corpus is large, power-law distributed, and evolving dynamically. In this paper, we propose using content-derived features as a replacement for random ids. We show that simply replacing ID features with content-based embeddings can cause a drop in quality due to reduced memorization capability. To strike a good balance of memorization and generalization, we propose to use Semantic IDs -- a compact discrete item representation learned from frozen content embeddings using RQ-VAE that captures the hierarchy of concepts in items -- as a replacement for random item ids. Similar to content embeddings, the compactness of Semantic IDs poses a problem of easy adaption in recommendation models. We propose novel methods for adapting Semantic IDs in industry-scale ranking models, through hashing sub-pieces of of the Semantic-ID sequences. In particular, we find that the SentencePiece model that is commonly used in LLM tokenization outperforms manually crafted pieces such as N-grams. To the end, we evaluate our approaches in a real-world ranking model for YouTube recommendations. Our experiments demonstrate that Semantic IDs can replace the direct use of video IDs by improving the generalization ability on new and long-tail item slices without sacrificing overall model quality. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# TensorKrowch: マシンラーニングにおけるテンソルネットワークのスムーズな統合
TensorKrowch: Smooth integration of tensor networks in machine learning ( http://arxiv.org/abs/2306.08595v2 ) ライセンス: Link先を確認 | José Ramón Pareja Monturiol, David Pérez-García, Alejandro Pozas-Kerstjens, | (参考訳) テンソルネットワークは、高次元テンソルからより小さなテンソルのネットワークへの分解である。
それらは物理学や数学に応用されており、最近では有望な機械学習アーキテクチャとして提案されている。
機械学習パイプラインにおけるテンソルネットワークの統合を容易にするため、PyTorch上に構築されたオープンソースのPythonライブラリであるTensorKrowchを紹介した。
ユーザフレンドリなインターフェースを提供するTensorKrowchでは,任意のテンソルネットワークを構築してトレーニングし,より複雑なディープラーニングモデルのレイヤとして統合することができる。
本稿では,TensorKrowchの主な機能と基本的な使用法について述べるとともに,その構築ブロックと効率的な操作を実現するための最適化について技術的に詳述する。
Tensor networks are factorizations of high-dimensional tensors into networks of smaller tensors. They have applications in physics and mathematics, and recently have been proposed as promising machine learning architectures. To ease the integration of tensor networks in machine learning pipelines, we introduce TensorKrowch, an open source Python library built on top of PyTorch. Providing a user-friendly interface, TensorKrowch allows users to construct any tensor network, train it, and integrate it as a layer in more intricate deep learning models. In this paper, we describe the main functionality and basic usage of TensorKrowch, and provide technical details on its building blocks and the optimizations performed to achieve efficient operation. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# フェデレートラーニングのための効率的かつ多自由な鍵セキュアアグリゲーション
An Efficient and Multi-private Key Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2306.08970v2 ) ライセンス: Link先を確認 | Xue Yang, Zifeng Liu, Xiaohu Tang, Rongxing Lu, Bo Liu, | (参考訳) フェデレート学習におけるプライバシリークの出現に伴い、各クライアントのローカルトレーニングデータのプライバシを保護するために、同型暗号化またはしきい値秘密共有を主体とするセキュアアグリゲーションプロトコルが広く開発されている。
しかし、これらの既存のプロトコルは、信頼できるサードパーティへの依存、クライアントに対する脆弱性の破損、低効率、セキュリティとフォールトトレランスの間のトレードオフなど、多くの欠点に悩まされている。
これらの欠点を解決するために,フェデレート学習のための効率的かつ多目的な鍵セキュアアグリゲーション方式を提案する。
具体的には、変種ElGamal暗号を巧みに修正し、同型加算演算を実現する。
1) サーバ及び各クライアントは、信頼できる第三者を導入することなく、公開鍵及びプライベート鍵を自由に選択することができる。
2) 変種ElGamal暗号と比較すると, 平文空間は比較的大きく, 深部モデルに適している。
さらに,高次元深層モデルパラメータに対して,多次元データを1次元に圧縮する超増進シーケンスを導入する。
詳細なセキュリティ分析の結果,提案手法は個々の局所勾配と集約結果の両方のセマンティック・セキュリティを実現するとともに,クライアントの共謀とドロップクライアントの許容に最適なロバスト性を実現する。
大規模なシミュレーションにより,提案手法の精度は非私的手法とほぼ同じであるが,提案手法の効率は最先端の同型暗号ベースのセキュアアグリゲーション方式よりも優れていることが示された。
さらに重要なことに、モデルパラメータの数が増加するにつれて、我々のスキームの効率性はますます顕著になる。
With the emergence of privacy leaks in federated learning, secure aggregation protocols that mainly adopt either homomorphic encryption or threshold secret sharing have been widely developed for federated learning to protect the privacy of the local training data of each client. However, these existing protocols suffer from many shortcomings, such as the dependence on a trusted third party, the vulnerability to clients being corrupted, low efficiency, the trade-off between security and fault tolerance, etc. To solve these disadvantages, we propose an efficient and multi-private key secure aggregation scheme for federated learning. Specifically, we skillfully modify the variant ElGamal encryption technique to achieve homomorphic addition operation, which has two important advantages: 1) The server and each client can freely select public and private keys without introducing a trust third party and 2) Compared to the variant ElGamal encryption, the plaintext space is relatively large, which is more suitable for the deep model. Besides, for the high dimensional deep model parameter, we introduce a super-increasing sequence to compress multi-dimensional data into 1-D, which can greatly reduce encryption and decryption times as well as communication for ciphertext transmission. Detailed security analyses show that our proposed scheme achieves the semantic security of both individual local gradients and the aggregated result while achieving optimal robustness in tolerating both client collusion and dropped clients. Extensive simulations demonstrate that the accuracy of our scheme is almost the same as the non-private approach, while the efficiency of our scheme is much better than the state-of-the-art homomorphic encryption-based secure aggregation schemes. More importantly, the efficiency advantages of our scheme will become increasingly prominent as the number of model parameters increases. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# FedNoisy:Federated Noisy Label Learning Benchmark
FedNoisy: Federated Noisy Label Learning Benchmark ( http://arxiv.org/abs/2306.11650v3 ) ライセンス: Link先を確認 | Siqi Liang, Jintao Huang, Junyuan Hong, Dun Zeng, Jiayu Zhou, Zenglin Xu, | (参考訳) フェデレーション学習は、クライアントからの機密データを集約することなく、分散学習で人気を集めている。
しかし、データ分離の分散された分離された性質は、データ品質によって複雑になり、ノイズの多いラベルに対してより脆弱になる可能性がある。
集中的あるいは連合的な設定において、ノイズラベルの負の影響を防ごうとする努力は数多く存在する。
しかし、様々な典型的なFL設定におけるノイズラベルの影響を包括的に考慮するベンチマークが欠如している。
この研究は、研究者が有意なノイズ設定を十分に探求するのに役立つ、最初の標準化されたベンチマークを提供する。
また,これらのデータ設定の特徴や,将来メソッド開発を導くであろうフェデレーション付き雑音ラベル学習における難解なシナリオを明らかにするために,包括的実験を実施している。
ベンチマークでは,5つ以上のデータセットに対する20の基本的な設定と,フェデレーション付き雑音ラベル学習のための標準化されたシミュレーションパイプラインを強調した。
このベンチマークが、ノイズラベルによるフェデレーション学習におけるアイデア検証を促進することを願っている。
\texttt{FedNoisy} は \codeword{https://github.com/SMILELab-FL/FedNoisy} で入手できる。
Federated learning has gained popularity for distributed learning without aggregating sensitive data from clients. But meanwhile, the distributed and isolated nature of data isolation may be complicated by data quality, making it more vulnerable to noisy labels. Many efforts exist to defend against the negative impacts of noisy labels in centralized or federated settings. However, there is a lack of a benchmark that comprehensively considers the impact of noisy labels in a wide variety of typical FL settings. In this work, we serve the first standardized benchmark that can help researchers fully explore potential federated noisy settings. Also, we conduct comprehensive experiments to explore the characteristics of these data settings and unravel challenging scenarios on the federated noisy label learning, which may guide method development in the future. We highlight the 20 basic settings for more than 5 datasets proposed in our benchmark and standardized simulation pipeline for federated noisy label learning. We hope this benchmark can facilitate idea verification in federated learning with noisy labels. \texttt{FedNoisy} is available at \codeword{https://github.com/SMILELab-FL/FedNoisy}. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# Chatlaw: 知識グラフを強化した大規模言語モデルを備えた多言語共同法定アシスタント
Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model ( http://arxiv.org/abs/2306.16092v2 ) ライセンス: Link先を確認 | Jiaxi Cui, Munan Ning, Zongjian Li, Bohua Chen, Yang Yan, Hao Li, Bin Ling, Yonghong Tian, Li Yuan, | (参考訳) LLM(Large Language Models)に基づくAI法定アシスタントは、アクセス可能な法的コンサルティングサービスを提供することができるが、幻覚は法的なリスクをもたらす可能性がある。
本稿では,Mixture-of-Experts(MoE)モデルとマルチエージェントシステムを利用した,AI駆動型法務サービスの信頼性と精度向上のための革新的な法的アシスタントChatlawを提案する。
知識グラフと人工スクリーニングを組み合わせることで,MoEモデルをトレーニングするための高品質な法的データセットを構築する。
このモデルは異なる専門家を用いて様々な法的問題に対処し、法的対応の精度を最適化する。
さらに、実際の法律事務所ワークフローをモデルとしたSOP(Standardized Operating Procedures)は、法律サービスのエラーや幻覚を著しく低減する。
当社のMoEモデルは,法律専門家のGPT-4と統一資格試験の精度を7.73%,11ポイントで上回り,実例協議において他のモデルを複数次元で上回り,法律相談の堅牢性を実証している。
AI legal assistants based on Large Language Models (LLMs) can provide accessible legal consulting services, but the hallucination problem poses potential legal risks. This paper presents Chatlaw, an innovative legal assistant utilizing a Mixture-of-Experts (MoE) model and a multi-agent system to enhance the reliability and accuracy of AI-driven legal services. By integrating knowledge graphs with artificial screening, we construct a high-quality legal dataset to train the MoE model. This model utilizes different experts to address various legal issues, optimizing the accuracy of legal responses. Additionally, Standardized Operating Procedures (SOP), modeled after real law firm workflows, significantly reduce errors and hallucinations in legal services. Our MoE model outperforms GPT-4 in the Lawbench and Unified Qualification Exam for Legal Professionals by 7.73% in accuracy and 11 points, respectively, and also surpasses other models in multiple dimensions during real-case consultations, demonstrating our robust capability for legal consultation. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# SpATr: スパイラルオートエンコーダとトランスフォーマーネットワークに基づくMoCap 3Dヒューマンアクション認識
SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network ( http://arxiv.org/abs/2306.17574v2 ) ライセンス: Link先を確認 | Hamza Bouzid, Lahoucine Ballihi, | (参考訳) 最近の技術進歩は、3Dデータのパワーを活用して人間の行動認識の可能性を大きく広げている。
このデータにより、深度情報を含む行動のより深い理解が得られ、空間的および時間的特性をより正確に分析することができる。
本研究では,2次元深度画像,骨格点,あるいは点雲のサンプリングに頼って,しばしばメモリ要件や短いシーケンスのみを処理できるような従来の手法とは異なり,SpATr(Spiral Auto-encoder and Transformer Network)と呼ばれる3次元人行動認識の新しいアプローチを導入する。
SpATrモデルはメッシュシーケンスの空間と時間を切り離す。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
これらの畳み込みは軽量で、特に固定トポロジーメッシュデータ用に設計されている。
その後、自己アテンションに基づく時間変換器が特徴系列内の時間コンテキストをキャプチャする。
セルフアテンションメカニズムは、長距離依存関係のキャプチャと並列処理を可能にし、長いシーケンスのスケーラビリティを確保する。
提案手法は,AMASS(Archive of Motion Capture As Surface Shapes)から,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
この結果から, 効率的なメモリ使用率を維持しつつ, 3次元動作認識におけるSpATrモデルの競合性能を実証した。
コードとトレーニング結果は間もなくhttps://github.com/h-bouzid/spatr.comで公開される。
Recent technological advancements have significantly expanded the potential of human action recognition through harnessing the power of 3D data. This data provides a richer understanding of actions, including depth information that enables more accurate analysis of spatial and temporal characteristics. In this context, We study the challenge of 3D human action recognition.Unlike prior methods, that rely on sampling 2D depth images, skeleton points, or point clouds, often leading to substantial memory requirements and the ability to handle only short sequences, we introduce a novel approach for 3D human action recognition, denoted as SpATr (Spiral Auto-encoder and Transformer Network), specifically designed for fixed-topology mesh sequences. The SpATr model disentangles space and time in the mesh sequences. A lightweight auto-encoder, based on spiral convolutions, is employed to extract spatial geometrical features from each 3D mesh. These convolutions are lightweight and specifically designed for fix-topology mesh data. Subsequently, a temporal transformer, based on self-attention, captures the temporal context within the feature sequence. The self-attention mechanism enables long-range dependencies capturing and parallel processing, ensuring scalability for long sequences. The proposed method is evaluated on three prominent 3D human action datasets: Babel, MoVi, and BMLrub, from the Archive of Motion Capture As Surface Shapes (AMASS). Our results analysis demonstrates the competitive performance of our SpATr model in 3D human action recognition while maintaining efficient memory usage. The code and the training results will soon be made publicly available at https://github.com/h-bouzid/spatr. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# 高次元量子鍵分布の効率的な情報再構成
Efficient Information Reconciliation for High-Dimensional Quantum Key Distribution ( http://arxiv.org/abs/2307.02225v2 ) ライセンス: Link先を確認 | Ronny Mueller, Domenico Ribezzo, Mujtaba Zahidy, Leif Katsuo Oxenløwe, Davide Bacco, Søren Forchhammer, | (参考訳) 量子鍵分布における情報再構成フェーズは、任意のQKDシステムの範囲とスループットに大きな影響を与える。
本稿では、高次元QKD実装のこの段階を探求し、和解のための2つの新しい方法を紹介する。
これらの手法は非バイナリLDPC符号とカスケードアルゴリズムに基づいており、q-ary対称チャネル上のSlepian-Wolf境界に近い効率を実現する。
The Information Reconciliation phase in quantum key distribution has significant impact on the range and throughput of any QKD system. We explore this stage for high-dimensional QKD implementations and introduce two novel methods for reconciliation. The methods are based on nonbinary LDPC codes and the Cascade algorithm, and achieve efficiencies close the the Slepian-Wolf bound on q-ary symmetric channels. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# ハイブリッド量子古典系:準自由マルコフ力学
Hybrid quantum-classical systems: Quasi-free Markovian dynamics ( http://arxiv.org/abs/2307.02611v2 ) ライセンス: Link先を確認 | Alberto Barchielli, Reinhard Werner, | (参考訳) 有限自由度を持つ量子古典ハイブリッド系の場合、準自由な制約の下で、最も一般的な動的半群を特徴づける問題は解決される。
これはガウス力学の一般化であり、ハイゼンベルクの記述においてワイル作用素をワイル作用素に送る性質によって定義される。
結果は L'evy-Khintchine の公式の量子一般化であり、ガウスとジャンプの寄与を含んでいる。
副生成物として、最も一般的な準自由量子力学半群が得られ、古典的な側では、リウヴィル方程式とコルモゴロフ-フォッカー-プランク方程式を含む。
古典的なサブシステムが観測できるため、原則として摂動することなく、連続した時間でも量子系から情報を抽出することができる。
ダイナミクスは、一般的な時間$t$でハイブリッド状態を与えるように定式化されているが、マルチタイム確率を抽出する方法と、正の演算子値測度と計器の量子概念にそれらを接続する方法を示す。
動的半群の生成元の構造は、非準自由なケースに進む方法を理解し、古典量子相互作用の可能性を理解するために、アナル化され、特に、量子系から情報を抽出できるすべての相互作用項は、量子成分の力学に散逸が存在しない場合に必ず消滅する。
古典的成分が量子的成分にノイズを入力し、古典的システムが量子的成分の振る舞いに関する情報を抽出する方法を示す具体的な例が与えられる。
In the case of a quantum-classical hybrid system with a finite number of degrees of freedom, the problem of characterizing the most general dynamical semigroup is solved, under the restriction of being quasi-free. This is a generalization of a Gaussian dynamics, and it is defined by the property of sending (hybrid) Weyl operators into Weyl operators in the Heisenberg description. The result is a quantum generalization of the L\'evy-Khintchine formula; Gaussian and jump contributions are included. As a byproduct, the most general quasi-free quantum-dynamical semigroup is obtained; on the classical side the Liouville equation and the Kolmogorov-Fokker-Planck equation are included. As a classical subsystem can be observed, in principle, without perturbing it, information can be extracted from the quantum system, even in continuous time; indeed, the whole construction is related to the theory of quantum measurements in continuous time. While the dynamics is formulated to give the hybrid state at a generic time $t$, we show how to extract multi-time probabilities and how to connect them to the quantum notions of positive operator valued measure and instrument. The structure of the generator of the dynamical semigroup is analized, in order to understand how to go on to non quasi-free cases and to understand the possible classical-quantum interactions; in particular, all the interaction terms which allow to extract information from the quantum system necessarily vanish if no dissipation is present in the dynamics of the quantum component. A concrete example is given, showing how a classical component can input noise into a quantum one and how the classical system can extract information on the behaviour of the quantum one. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# 平均型ロバストネスによるデータポイント脆弱性のキャラクタリゼーション
Characterizing Data Point Vulnerability via Average-Case Robustness ( http://arxiv.org/abs/2307.13885v5 ) ライセンス: Link先を確認 | Tessa Han, Suraj Srinivas, Himabindu Lakkaraju, | (参考訳) 機械学習モデルのロバスト性を研究することは、現実の環境にまたがる一貫性のあるモデルの振る舞いを保証するために重要である。
この目的のために、対数ロバスト性は標準的なフレームワークであり、二元レンズを通して予測のロバスト性を見る:最悪の対数誤分類は入力の周囲の局所領域に存在するか、そうでないかのいずれかである。
しかし、このバイナリ・パースペクティブは脆弱性の程度を考慮していない。
本研究では,一貫した予測を提供する局所領域の点数を測定する平均ケースロバストネスという,ロバストネスを補完する枠組みを検討する。
しかし、モンテカルロの標準的なアプローチは特に高次元入力では非効率であるので、この量の計算は困難である。
本研究では,マルチクラス分類器の平均ケースロバスト性に対する最初の解析的推定器を提案する。
実験により、我々の推定器は標準的なディープラーニングモデルに対して正確かつ効率的であることを示し、脆弱なデータポイントの同定やモデルの堅牢性バイアスの定量化にそれらの有用性を示す。
全体として、私たちのツールは堅牢性に対する補完的なビューを提供し、モデルの振る舞いを特徴づける能力を改善します。
Studying the robustness of machine learning models is important to ensure consistent model behaviour across real-world settings. To this end, adversarial robustness is a standard framework, which views robustness of predictions through a binary lens: either a worst-case adversarial misclassification exists in the local region around an input, or it does not. However, this binary perspective does not account for the degrees of vulnerability, as data points with a larger number of misclassified examples in their neighborhoods are more vulnerable. In this work, we consider a complementary framework for robustness, called average-case robustness, which measures the fraction of points in a local region that provides consistent predictions. However, computing this quantity is hard, as standard Monte Carlo approaches are inefficient especially for high-dimensional inputs. In this work, we propose the first analytical estimators for average-case robustness for multi-class classifiers. We show empirically that our estimators are accurate and efficient for standard deep learning models and demonstrate their usefulness for identifying vulnerable data points, as well as quantifying robustness bias of models. Overall, our tools provide a complementary view to robustness, improving our ability to characterize model behaviour. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# マイクロカノニカル以外のアンサンブルのカノニカルな典型性
Canonical Typicality For Other Ensembles Than Micro-Canonical ( http://arxiv.org/abs/2307.15624v4 ) ライセンス: Link先を確認 | Stefan Teufel, Roderich Tumulka, Cornelia Vogel, | (参考訳) 我々は、L\'evy's lemma(高次元球面上の一様確率分布の集中測定結果)を、より一般的な測度、いわゆるGAP測度に一般化する。
分離可能ヒルベルト空間 $\mathcal{H}$ 上の任意の密度行列 $\rho$ に対して、GAP$(\rho)$ は密度行列 $\rho$ の単位球面上で最も広がる確率測度であり、従って一様分布の自然な一般化を形成する。
最大固有値 $\|\rho\|$ が小さければいつでも、測定の集中を証明します。
我々はこの事実を利用して、量子統計力学のよく知られた、重要な典型をGAP測度、すなわち標準典型と動的典型に一般化し、改善する。
カノニカルな典型性は、与えられたアンサンブルの '`most'' 純状態 $\psi$ に対して、十分に小さな部分系の還元密度行列は$\psi$非依存行列に非常に近いという主張である。
動的典型性(Dynamical typicality)とは、任意の観測可能かつ任意のユニタリな時間進化に対して、与えられたアンサンブルから$\psi$(粗い粒度の)の値から$\psi$(\psi$-非依存分布に非常に近いという主張である。
これまでのところ、標準の典型性と力学の典型性は、有限次元球面上の一様分布、マイクロカノニカルアンサンブルに対応する、より特殊な平均値アンサンブルとして知られていた。
この結果は、密度行列 $\rho$ が小さな固有値を持つならば、GAP$(\rho)$ に対してもこれらの典型性が成り立つことを示している。
ある種のGAP測度は古典力学の正準アンサンブルの量子アナログであるため、我々の結果はアンサンブルの等価性のバージョンと見なすこともできる。
We generalize L\'evy's lemma, a concentration-of-measure result for the uniform probability distribution on high-dimensional spheres, to a much more general class of measures, so-called GAP measures. For any given density matrix $\rho$ on a separable Hilbert space $\mathcal{H}$, GAP$(\rho)$ is the most spread out probability measure on the unit sphere of $\mathcal{H}$ that has density matrix $\rho$ and thus forms the natural generalization of the uniform distribution. We prove concentration-of-measure whenever the largest eigenvalue $\|\rho\|$ of $\rho$ is small. We use this fact to generalize and improve well-known and important typicality results of quantum statistical mechanics to GAP measures, namely canonical typicality and dynamical typicality. Canonical typicality is the statement that for ``most'' pure states $\psi$ of a given ensemble, the reduced density matrix of a sufficiently small subsystem is very close to a $\psi$-independent matrix. Dynamical typicality is the statement that for any observable and any unitary time-evolution, for ``most'' pure states $\psi$ from a given ensemble the (coarse-grained) Born distribution of that observable in the time-evolved state $\psi_t$ is very close to a $\psi$-independent distribution. So far, canonical typicality and dynamical typicality were known for the uniform distribution on finite-dimensional spheres, corresponding to the micro-canonical ensemble, and for rather special mean-value ensembles. Our result shows that these typicality results hold also for GAP$(\rho)$, provided the density matrix $\rho$ has small eigenvalues. Since certain GAP measures are quantum analogs of the canonical ensemble of classical mechanics, our results can also be regarded as a version of equivalence of ensembles. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# 観測データからのフェデレート因果推論
Federated Causal Inference from Observational Data ( http://arxiv.org/abs/2308.13047v2 ) ライセンス: Link先を確認 | Thanh Vinh Vo, Young lee, Tze-Yun Leong, | (参考訳) 分散化されたデータソースは、現実世界のアプリケーションで広く使われており、因果推論の深刻な課題となっている。
これらのソースは、プライバシの制約により単一のエンティティに統合することはできない。
異種データ分布とそれらの中の欠落した値の存在は、因果推定値に偏見をもたらす可能性がある。
本稿では,分散データソースから因果効果を推定する枠組みを提案する。
提案フレームワークは,ソース間の生データの交換を回避し,プライバシ保護因果学習に寄与する。
提案するフレームワークの3つの例は、フェデレートされた設定内で、幅広い多様なシナリオにまたがる因果効果を推定するために導入された。
1)FedCI:連合観測データから因果効果を推定するためのガウス過程に基づくベイズ的枠組み。
因果効果の後方分布を推定し、不確実性を捉える高次統計を計算する。
2) CausalRFF: ランダムフーリエ特徴を用いてデータソース間の類似性を学習し、損失関数を複数のコンポーネントに切り離し、それぞれがデータソースに関連付ける適応転送アルゴリズム。
転送係数によってソース間の類似性を推定し、そのため、類似度対策に関する事前情報を必要としない。
(3)CausalFI:不完全データからのフェデレーション因果推論のための新しいアプローチにより、複数の分散データと不完全データソースから因果効果を推定できる。
ランダムな仮定で欠落したデータと、因果推定値の高次統計を推定する。
提案するフェデレーションフレームワークとそのインスタンスは、プライバシ保護因果学習モデルに向けた重要なステップである。
Decentralized data sources are prevalent in real-world applications, posing a formidable challenge for causal inference. These sources cannot be consolidated into a single entity owing to privacy constraints. The presence of dissimilar data distributions and missing values within them can potentially introduce bias to the causal estimands. In this article, we propose a framework to estimate causal effects from decentralized data sources. The proposed framework avoid exchanging raw data among the sources, thus contributing towards privacy-preserving causal learning. Three instances of the proposed framework are introduced to estimate causal effects across a wide range of diverse scenarios within a federated setting. (1) FedCI: a Bayesian framework based on Gaussian processes for estimating causal effects from federated observational data sources. It estimates the posterior distributions of the causal effects to compute the higher-order statistics that capture the uncertainty. (2) CausalRFF: an adaptive transfer algorithm that learns the similarities among the data sources by utilizing Random Fourier Features to disentangle the loss function into multiple components, each of which is associated with a data source. It estimates the similarities among the sources through transfer coefficients, and hence requiring no prior information about the similarity measures. (3) CausalFI: a new approach for federated causal inference from incomplete data, enabling the estimation of causal effects from multiple decentralized and incomplete data sources. It accounts for the missing data under the missing at random assumption, while also estimating higher-order statistics of the causal estimands. The proposed federated framework and its instances are an important step towards a privacy-preserving causal learning model. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# CoVR:Webビデオキャプションから構成ビデオ検索を学ぶ
CoVR: Learning Composed Video Retrieval from Web Video Captions ( http://arxiv.org/abs/2308.14746v3 ) ライセンス: Link先を確認 | Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol, | (参考訳) Composed Image Retrieval (CoIR)は、最近、テキストと画像のクエリを一緒に検討し、データベース内の関連するイメージを検索するタスクとして人気を集めている。
ほとんどのCoIRアプローチでは、クエリイメージからターゲットイメージへの変更をテキストで記述するイメージ-テキスト-イメージトレーレットを含む、手動でアノテートされたデータセットを必要とする。
しかし、CoIR三重項の手作業によるキュレーションは高価であり、スケーラビリティを損なう。
そこで本研究では,ビデオキャプション対のトリプレットを生成するスケーラブルな自動データセット作成手法を提案するとともに,合成ビデオ検索(CoVR)を含むタスクの範囲を拡大する。
この目的のために,大容量のデータベースから類似キャプションとペア動画を抽出し,大容量の言語モデルを用いて対応する修正文を生成する。
この方法論をWebVid2Mコレクションに適用することにより、WebVid-CoVRデータセットを自動的に構築し、160万トリップレットを実現します。
さらに,手動でアノテートした評価セットとベースライン結果を用いたCoVRの新しいベンチマークを導入する。
さらに,データセット上でのCoVRモデルのトレーニングがCoIRに効果的に移行し,CIRRおよびFashionIQベンチマークのゼロショット設定における最先端性能が向上することを示した。
私たちのコード、データセット、モデルはhttps://imagine.enpc.fr/~ventural/covr.comで公開されています。
Composed Image Retrieval (CoIR) has recently gained popularity as a task that considers both text and image queries together, to search for relevant images in a database. Most CoIR approaches require manually annotated datasets, comprising image-text-image triplets, where the text describes a modification from the query image to the target image. However, manual curation of CoIR triplets is expensive and prevents scalability. In this work, we instead propose a scalable automatic dataset creation methodology that generates triplets given video-caption pairs, while also expanding the scope of the task to include composed video retrieval (CoVR). To this end, we mine paired videos with a similar caption from a large database, and leverage a large language model to generate the corresponding modification text. Applying this methodology to the extensive WebVid2M collection, we automatically construct our WebVid-CoVR dataset, resulting in 1.6 million triplets. Moreover, we introduce a new benchmark for CoVR with a manually annotated evaluation set, along with baseline results. Our experiments further demonstrate that training a CoVR model on our dataset effectively transfers to CoIR, leading to improved state-of-the-art performance in the zero-shot setup on both the CIRR and FashionIQ benchmarks. Our code, datasets, and models are publicly available at https://imagine.enpc.fr/~ventural/covr. | 翻訳日:2024-06-01 00:02:40 公開日:2024-05-30 |
# 確率勾配Descent様緩和は離散最適化および推論問題におけるメトロポリス力学と等価である
Stochastic Gradient Descent-like relaxation is equivalent to Metropolis dynamics in discrete optimization and inference problems ( http://arxiv.org/abs/2309.05337v2 ) ライセンス: Link先を確認 | Maria Chiara Angelini, Angelo Giorgio Cavaliere, Raffaele Marino, Federico Ricci-Tersenghi, | (参考訳) SGD(Stochastic Gradient Descent)はモンテカルロ大都市圏とはかなり異なるか?
これは機械学習の分野で最も使われているトレーニングアルゴリズムを理解するときの基本的問題だが、今のところ回答は得られていない。
ここでは、離散最適化および推論問題において、SGDライクなアルゴリズムの力学は、ミニバッチサイズに依存する適切な温度のメトロポリスモンテカルロと非常によく似ていることを示す。
この量的マッチングは、基本的な違いがある2つのアルゴリズム(例えば、SGDは詳細なバランスを満足していない)にもかかわらず、平衡状態と非平衡状態の両方で成り立つ。
このような等価性により、モンテカルロアルゴリズムの性能と限界に関する結果を用いて、SGDのようなアルゴリズムのミニバッチサイズを最適化し、ハード推論問題における信号の回復を効率よく行うことができる。
Is Stochastic Gradient Descent (SGD) substantially different from Metropolis Monte Carlo dynamics? This is a fundamental question at the time of understanding the most used training algorithm in the field of Machine Learning, but it received no answer until now. Here we show that in discrete optimization and inference problems, the dynamics of an SGD-like algorithm resemble very closely that of Metropolis Monte Carlo with a properly chosen temperature, which depends on the mini-batch size. This quantitative matching holds both at equilibrium and in the out-of-equilibrium regime, despite the two algorithms having fundamental differences (e.g.\ SGD does not satisfy detailed balance). Such equivalence allows us to use results about performances and limits of Monte Carlo algorithms to optimize the mini-batch size in the SGD-like algorithm and make it efficient at recovering the signal in hard inference problems. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# 大規模言語モデルにおける言語間知識編集
Cross-Lingual Knowledge Editing in Large Language Models ( http://arxiv.org/abs/2309.08952v2 ) ライセンス: Link先を確認 | Jiaan Wang, Yunlong Liang, Zengkui Sun, Yuxuan Cao, Jiarong Xu, Fandong Meng, | (参考訳) 知識編集は、言語モデルの性能をいくつかの特別なケース(すなわち、編集範囲)で変化させることを目的としている。
近年の大規模言語モデル (LLM) の進歩により, 知識編集は, ゼロから再学習することなく, LLMを新しい知識に適応させる有望な手法として示されている。
しかし、従来の研究の多くは、LLMの多言語性(LLaMA、ChatGPT、GPT-4など)を無視し、通常、LLMを同じ言語で編集・評価する単言語シナリオに焦点を当てていた。
その結果、ソース言語編集が異なるターゲット言語に与える影響は未だ不明である。
本稿では,知識編集におけるこの言語間効果を明らかにすることを目的とする。
具体的には、ZsREを英語から中国語に翻訳することで、まず大規模な言語間合成データセットを収集する。
そして、異なるパラダイムをカバーする様々な知識編集手法を英語で編集し、その性能を中国語で評価する。
言語間効果をより深く分析するために、評価には信頼性、一般性、局所性、可搬性という4つの側面が含まれる。
さらに,編集モデルの不整合挙動を分析し,それらの課題について考察する。
データとコードはhttps://github.com/krystalan/Bi_ZsREで公開されている。
Knowledge editing aims to change language models' performance on several special cases (i.e., editing scope) by infusing the corresponding expected knowledge into them. With the recent advancements in large language models (LLMs), knowledge editing has been shown as a promising technique to adapt LLMs to new knowledge without retraining from scratch. However, most of the previous studies neglect the multi-lingual nature of some main-stream LLMs (e.g., LLaMA, ChatGPT and GPT-4), and typically focus on monolingual scenarios, where LLMs are edited and evaluated in the same language. As a result, it is still unknown the effect of source language editing on a different target language. In this paper, we aim to figure out this cross-lingual effect in knowledge editing. Specifically, we first collect a large-scale cross-lingual synthetic dataset by translating ZsRE from English to Chinese. Then, we conduct English editing on various knowledge editing methods covering different paradigms, and evaluate their performance in Chinese, and vice versa. To give deeper analyses of the cross-lingual effect, the evaluation includes four aspects, i.e., reliability, generality, locality and portability. Furthermore, we analyze the inconsistent behaviors of the edited models and discuss their specific challenges. Data and codes are available at https://github.com/krystalan/Bi_ZsRE | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# 共役対称性の非局所性:量子ネットワークセンシングにおける特徴と例
Non-locality of conjugation symmetry: characterization and examples in quantum network sensing ( http://arxiv.org/abs/2309.12523v2 ) ライセンス: Link先を確認 | Jisho Miyazaki, Seiseki Akibue, | (参考訳) いくつかの量子情報処理プロトコルは、複素共役の下で不変な量子演算を必要とする。
本研究では,多部量子ネットワーク上での共役対称測定の実装に必要な非局所資源を解析する。
我々は、与えられた多部共役が局所的に実装可能な対称測度を持つことができる条件を導出する。
特に、'magic-basis spectrum' と呼ばれる数の族は、与えられた2ビットの共役の局所可測性や局所ユニタリ変換の下で不変な他の性質を包括的に特徴づける。
また、共役対称性をガイドとして、既知の量子センサネットワーク上での最適測定に必要な非局所リソースについても検討する。
Some quantum information processing protocols necessitate quantum operations that are invariant under complex conjugation. In this study, we analyze the non-local resources necessary for implementing conjugation-symmetric measurements on multipartite quantum networks. We derive conditions under which a given multipartite conjugation can have locally implementable symmetric measurements. In particular, a family of numbers called the ``magic-basis spectrum'' comprehensively characterizes the local measurability of a given 2-qubit conjugation, as well as any other properties that are invariant under local unitary transformations. We also explore the non-local resources required for optimal measurements on known quantum sensor networks by using their conjugation symmetries as a guide. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# RGB-Dビデオからの物理に基づく剛体物体追跡と摩擦フィルタ
Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos ( http://arxiv.org/abs/2309.15703v3 ) ライセンス: Link先を確認 | Rama Krishna Kandukuri, Michael Strecke, Joerg Stueckler, | (参考訳) 感覚観察による物体の相互作用の物理に基づく理解は、拡張現実やロボット工学において必須の能力である。
シミュレーションと制御のためにシーンのプロパティをキャプチャすることができる。
本稿では,RGB-D画像から剛体物体を3次元で追跡し,物体の物理的特性を推定する,リアル・トゥ・シムのための新しい手法を提案する。
我々は,任意のメッシュ形状の接触と摩擦をモデル化できる拡張カルマンフィルタの状態遷移モデルとして,微分可能な物理シミュレーションを用いて,物理的に妥当な軌道を推定する。
提案手法は, 位置, 向き, 速度をフィルタし, 同時に物体の摩擦係数を推定できることを実証する。
我々は,単一物体と衝突物体の合成画像列における様々なスライディングシナリオに対するアプローチを分析する。
また、実世界のデータセットに対する我々のアプローチを実証し、評価する。
我々は,この新たな問題設定と手法との比較において,今後の研究を促進するために,新しいベンチマークデータセットを公開している。
Physics-based understanding of object interactions from sensory observations is an essential capability in augmented reality and robotics. It enables to capture the properties of a scene for simulation and control. In this paper, we propose a novel approach for real-to-sim which tracks rigid objects in 3D from RGB-D images and infers physical properties of the objects. We use a differentiable physics simulation as state-transition model in an Extended Kalman Filter which can model contact and friction for arbitrary mesh-based shapes and in this way estimate physically plausible trajectories. We demonstrate that our approach can filter position, orientation, velocities, and concurrently can estimate the coefficient of friction of the objects. We analyze our approach on various sliding scenarios in synthetic image sequences of single objects and colliding objects. We also demonstrate and evaluate our approach on a real-world dataset. We make our novel benchmark datasets publicly available to foster future research in this novel problem setting and comparison with our method. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# 普通最小方形補間器の代数的および統計的特性
Algebraic and Statistical Properties of the Ordinary Least Squares Interpolator ( http://arxiv.org/abs/2309.15769v2 ) ライセンス: Link先を確認 | Dennis Shen, Dogyoon Song, Peng Ding, Jasjeet S. Sekhon, | (参考訳) 深層学習研究により、過パラメータ化統計モデルに対する良性過剰適合現象が明らかになった。
その単純さと実用性から、通常の最小二乗補間器(OLS)は、この現象に関する基礎的な洞察を得るのに欠かせないものとなっている。
OLSの特性は古典的、過度にパラメータ化された設定でよく確立されているが、高次元、過度にパラメータ化された状態の振る舞いは(尾根やラッソ回帰とは別として)調査されていない。
我々は、最小$$\ell_2$-norm OLS補間子に対して代数的および統計的結果を提供することにより、この成長する文献に寄与する。
特に、代数的同値性を提供する。
(i)残余式(残余式)
(二)コクランの式及び
(三) 過パラメータ化状態におけるフリッシュ=ヴォー=ローヴェルの定理。
これらの結果は、OLS補間器の一般化能力の理解に役立ち、因果推論に実質的な意味を持つ。
ガウス-マルコフモデルの下では、ガウス-マルコフの定理の拡張や、過パラメータ化された状態に対するホモスケダティック誤差の下での分散推定などの統計的結果を示す。
OLS補間器の確率的特性をさらに探求するシミュレーションを行う。
Deep learning research has uncovered the phenomenon of benign overfitting for overparameterized statistical models, which has drawn significant theoretical interest in recent years. Given its simplicity and practicality, the ordinary least squares (OLS) interpolator has become essential to gain foundational insights into this phenomenon. While properties of OLS are well established in classical, underparameterized settings, its behavior in high-dimensional, overparameterized regimes is less explored (unlike for ridge or lasso regression) though significant progress has been made of late. We contribute to this growing literature by providing fundamental algebraic and statistical results for the minimum $\ell_2$-norm OLS interpolator. In particular, we provide algebraic equivalents of (i) the leave-$k$-out residual formula, (ii) Cochran's formula, and (iii) the Frisch-Waugh-Lovell theorem in the overparameterized regime. These results aid in understanding the OLS interpolator's ability to generalize and have substantive implications for causal inference. Under the Gauss-Markov model, we present statistical results such as an extension of the Gauss-Markov theorem and an analysis of variance estimation under homoskedastic errors for the overparameterized regime. To substantiate our theoretical contributions, we conduct simulations that further explore the stochastic properties of the OLS interpolator. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# ディープラーニング応用のレジリエンス:分析・硬化技術に関する体系的文献レビュー
Resilience of Deep Learning applications: a systematic literature review of analysis and hardening techniques ( http://arxiv.org/abs/2309.16733v2 ) ライセンス: Link先を確認 | Cristiana Bolchini, Luca Cassano, Antonio Miele, | (参考訳) 機械学習(ML)は現在、視覚や自律システムなど、さまざまな分野で使用されている最も効果的な人工知能(AI)技術の1つとして、多くのアプリケーションで利用されています。
この傾向は、基盤となるハードウェアに影響を与える障害に対して、MLアプリケーションの分析と設計にかなりの量の貢献を動機付けている。
筆者らは、この文献ストリームの強みと弱みを明確に示し、今後の研究の道筋を立案した思慮深いレビューを通じて、ハードウェア障害に対するディープラーニング(とML技術)のレジリエンスに関する既存の知識体系を体系的に検討する。
このレビューは、2019年1月から2024年3月までに発行された220の科学論文に基づいている。
著者らは,研究の類似点と特異点の解釈と強調を行うための分類枠組みを,本研究の主目的から,導入された故障モデルとエラーモデル,再現性に至るまで,いくつかのパラメータに基づいて採用している。
このフレームワークは、異なる解の比較と可能なシナジーの同定を可能にする。
また,今後の研究の方向性について,オープン課題の形で提案する。
Machine Learning (ML) is currently being exploited in numerous applications being one of the most effective Artificial Intelligence (AI) technologies, used in diverse fields, such as vision, autonomous systems, and alike. The trend motivated a significant amount of contributions to the analysis and design of ML applications against faults affecting the underlying hardware. The authors investigate the existing body of knowledge on Deep Learning (among ML techniques) resilience against hardware faults systematically through a thoughtful review in which the strengths and weaknesses of this literature stream are presented clearly and then future avenues of research are set out. The review is based on 220 scientific articles published between January 2019 and March 2024. The authors adopt a classifying framework to interpret and highlight research similarities and peculiarities, based on several parameters, starting from the main scope of the work, the adopted fault and error models, to their reproducibility. This framework allows for a comparison of the different solutions and the identification of possible synergies. Furthermore, suggestions concerning the future direction of research are proposed in the form of open challenges to be addressed. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# 動的ゴール認識フラグメントによる薬物発見
Drug Discovery with Dynamic Goal-aware Fragments ( http://arxiv.org/abs/2310.00841v3 ) ライセンス: Link先を確認 | Seul Lee, Seanie Lee, Kenji Kawaguchi, Sung Ju Hwang, | (参考訳) フラグメントに基づく薬物発見は、広大な化学領域における薬物候補の発見に有効な戦略であり、分子生成モデルに広く用いられている。
しかし、そのようなモデルにおける多くの既存の断片抽出法は、目的の化学的性質を考慮に入れたり、ヒューリスティックな規則に依存したりしない。
さらに、既存のフラグメントベースの生成モデルは、生成中に新たに発見されたゴール対応のフラグメントでフラグメント語彙を更新できない。
そこで本研究では,Gal-aware fragment extract, Assembly, and Modification (GEAM) という薬物発見のための分子生成フレームワークを提案する。
GEAMは3つのモジュールから構成されており、それぞれがゴール対応のフラグメント抽出、フラグメントアセンブリ、フラグメント修正を担当している。
フラグメント抽出モジュールは、情報ボトルネック原理により、所望の目標プロパティに寄与する重要なフラグメントを識別し、効果的にゴール認識されたフラグメント語彙を構築する。
さらに、GEAMはフラグメント修正モジュールで最初の語彙を超える探索が可能であり、動的ゴール対応語彙更新によってさらに探索が強化される。
GEAMは, 薬物発見タスクにおける3つのモジュールの生成サイクルを通じて, 薬物候補を効果的に発見できることを実験的に実証した。
私たちのコードはhttps://github.com/SeulLee05/GEAMで公開されています。
Fragment-based drug discovery is an effective strategy for discovering drug candidates in the vast chemical space, and has been widely employed in molecular generative models. However, many existing fragment extraction methods in such models do not take the target chemical properties into account or rely on heuristic rules. Additionally, the existing fragment-based generative models cannot update the fragment vocabulary with goal-aware fragments newly discovered during the generation. To this end, we propose a molecular generative framework for drug discovery, named Goal-aware fragment Extraction, Assembly, and Modification (GEAM). GEAM consists of three modules, each responsible for goal-aware fragment extraction, fragment assembly, and fragment modification. The fragment extraction module identifies important fragments contributing to the desired target properties with the information bottleneck principle, thereby constructing an effective goal-aware fragment vocabulary. Moreover, GEAM can explore beyond the initial vocabulary with the fragment modification module, and the exploration is further enhanced through the dynamic goal-aware vocabulary update. We experimentally demonstrate that GEAM effectively discovers drug candidates through the generative cycle of the three modules in various drug discovery tasks. Our code is available at https://github.com/SeulLee05/GEAM. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# SpiDy.jl:非マルコフ確率力学研究のためのオープンソースJuliaパッケージ
SpiDy.jl: open-source Julia package for the study of non-Markovian stochastic dynamics ( http://arxiv.org/abs/2310.03008v2 ) ライセンス: Link先を確認 | Stefano Scali, Simon Horsley, Janet Anders, Federico Cerisola, | (参考訳) SpiDy.jl は古典的スピンベクトルと発散環境に接触する調和振動子ネットワークの非マルコフ確率力学を解く。
実装された方法により、任意のメモリ効果と色付き量子ノイズスペクトルを含むことができる。
このように、Spedy.jlは、非マルコフ効果や環境への任意に強い結合を含む古典的および量子的オープンシステムのシミュレーションのための重要なツールを提供する。
幅広い応用の中で、いくつかの例は原子論的なスピンダイナミクスから超高速磁気学、異方性物質の研究まで様々である。
ユーザに対してJuliaノートを提供して,様々な数学的手法をガイドし,複雑なシミュレーションの迅速なセットアップを支援する。
SpiDy.jl solves the non-Markovian stochastic dynamics of interacting classical spin vectors and harmonic oscillator networks in contact with a dissipative environment. The methods implemented allow the user to include arbitrary memory effects and colored quantum noise spectra. In this way, SpiDy.jl provides key tools for the simulation of classical and quantum open systems including non-Markovian effects and arbitrarily strong coupling to the environment. Among the wide range of applications, some examples range from atomistic spin dynamics to ultrafast magnetism and the study of anisotropic materials. We provide the user with Julia notebooks to guide them through the various mathematical methods and help them quickly set up complex simulations. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# 決定ConvFormer:MetaFormerにおける局所フィルタリングは意思決定に十分である
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making ( http://arxiv.org/abs/2310.03022v3 ) ライセンス: Link先を確認 | Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung, | (参考訳) 自然言語処理におけるTransformerの最近の成功は、様々な領域での使用をきっかけにしている。
オフライン強化学習(RL)では、決定変換器(DT)がトランスフォーマーに基づく有望なモデルとして登場している。
しかし, DTのアテンションモジュールはマルコフ決定過程としてモデル化されたRLの軌跡に固有の局所的依存パターンを捉えるのに適切でないことがわかった。
DTの限界を克服するため,複数のエンティティを並列に処理し,複数のエンティティ間の相互関係を理解するための汎用構造であるMetaFormerのアーキテクチャに基づく,新しいアクションシーケンス予測器であるDecision ConvFormer (DC)を提案する。
DCはトークンミキサーとして局所的な畳み込みフィルタリングを採用しており、RLデータセットの固有の局所的な関連を効果的に捉えることができる。
大規模な実験では、DCはリソースを少なくしながら、様々な標準RLベンチマークで最先端のパフォーマンスを達成した。
さらに、DCはデータの基盤となる意味をよりよく理解し、拡張された一般化能力を示すことを示す。
The recent success of Transformer in natural language processing has sparked its use in various domains. In offline reinforcement learning (RL), Decision Transformer (DT) is emerging as a promising model based on Transformer. However, we discovered that the attention module of DT is not appropriate to capture the inherent local dependence pattern in trajectories of RL modeled as a Markov decision process. To overcome the limitations of DT, we propose a novel action sequence predictor, named Decision ConvFormer (DC), based on the architecture of MetaFormer, which is a general structure to process multiple entities in parallel and understand the interrelationship among the multiple entities. DC employs local convolution filtering as the token mixer and can effectively capture the inherent local associations of the RL dataset. In extensive experiments, DC achieved state-of-the-art performance across various standard RL benchmarks while requiring fewer resources. Furthermore, we show that DC better understands the underlying meaning in data and exhibits enhanced generalization capability. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# Cheap Talking Algorithms
Cheap Talking Algorithms ( http://arxiv.org/abs/2310.07867v4 ) ライセンス: Link先を確認 | Daniele Condorelli, Massimiliano Furlan, | (参考訳) 戦略情報伝達のCrawford and Sobel (1982) ゲームにおける2つの独立強化学習アルゴリズムの動作をシミュレートする。
我々は、大集団が匿名で対話する静的ゲームにおいて、学習をキャプチャするために、メモリレスアルゴリズムを採用する。
送信側と受信側がNash平衡に収束することを示す。
送信者の安価な話の報知のレベルは、バイアスが増加するにつれて減少し、バイアスの中間レベルでは、パレート最適均衡によって予測されるレベルと、または第2のベストトークによって予測されるレベルと一致する。
結論は学習ハイパーパラメータやゲームの代替仕様に対して堅牢である。
We simulate behaviour of two independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We adopt memoryless algorithms to capture learning in a static game where a large population interacts anonymously. We show that sender and receiver converge to Nash equilibrium play. The level of informativeness of the sender's cheap talk decreases as the bias increases and, at intermediate level of the bias, it matches the level predicted by the Pareto optimal equilibrium or by the second best one. Conclusions are robust to alternative specifications of the learning hyperparameters and of the game. | 翻訳日:2024-05-31 23:52:32 公開日:2024-05-30 |
# ランダムな平滑化による潜在的にロバストなコスト感学習
Provably Robust Cost-Sensitive Learning via Randomized Smoothing ( http://arxiv.org/abs/2310.08732v2 ) ライセンス: Link先を確認 | Yuan Xin, Michael Backes, Xiao Zhang, | (参考訳) 本研究では,異なる種類の誤分類の潜在的な害をコストマトリックスにエンコードする,コスト感受性シナリオ下での対向的摂動に対する堅牢な学習問題について検討する。
既存のアプローチは経験的であり、堅牢性を証明できないか、固有のスケーラビリティの問題に悩まされる。
本研究では、ロバストネス認定のためのスケーラブルなフレームワークであるランダム化スムーシングが、コスト感受性のロバストネスの認定とトレーニングに活用できるかどうかを検討する。
コスト依存型認定半径の概念に基づいて、まずランダム化平滑化の標準的な認証アルゴリズムを適用して、任意のバイナリコスト行列に対して厳密な堅牢性証明を生成する方法と、モデル全体の精度を維持しながら、認証されたコスト依存型堅牢性を促進するための堅牢なトレーニング手法を開発する方法について説明する。
画像ベンチマークの広範な実験を通じて,様々なコスト依存シナリオ下で提案した認証アルゴリズムとトレーニング手法の優位性を実証する。
私たちの実装は、https://github.com/TrustMLRG/CS-RSでオープンソースとして公開されています。
We study the problem of robust learning against adversarial perturbations under cost-sensitive scenarios, where the potential harm of different types of misclassifications is encoded in a cost matrix. Existing approaches are either empirical and cannot certify robustness or suffer from inherent scalability issues. In this work, we investigate whether randomized smoothing, a scalable framework for robustness certification, can be leveraged to certify and train for cost-sensitive robustness. Built upon the notion of cost-sensitive certified radius, we first illustrate how to adapt the standard certification algorithm of randomized smoothing to produce tight robustness certificates for any binary cost matrix, and then develop a robust training method to promote certified cost-sensitive robustness while maintaining the model's overall accuracy. Through extensive experiments on image benchmarks, we demonstrate the superiority of our proposed certification algorithm and training method under various cost-sensitive scenarios. Our implementation is available as open source code at: https://github.com/TrustMLRG/CS-RS. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# ChatKBQA: 微調整大言語モデルを用いた知識ベース質問応答のための生成候補検索フレームワーク
ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models ( http://arxiv.org/abs/2310.08975v2 ) ライセンス: Link先を確認 | Haoran Luo, Haihong E, Zichen Tang, Shiyao Peng, Yikai Guo, Wentai Zhang, Chenghao Ma, Guanting Dong, Meina Song, Wei Lin, Yifan Zhu, Luu Anh Tuan, | (参考訳) Knowledge Base Question Answering (KBQA)は、知識検索と意味解析の2つの重要なステップにまとめられる、大規模知識ベース(KB)に関する自然言語質問に答えることを目的としている。
しかし、非効率な知識検索、意味解析に悪影響を及ぼす検索ミス、従来のKBQA手法の複雑さの3つが主要な課題である。
これらの課題に対処するために、我々はChatKBQAフレームワークを紹介した。このフレームワークは、まず、微調整 LLM を用いて論理形式を生成し、次にエンティティとリレーションを教師なしの検索手法で検索・置換し、生成と検索の両方をより直接的に改善する。
実験結果から,ChatKBQAは標準KBQAデータセット,WebQSP,CWQに対して,新たな最先端性能を実現することがわかった。
この研究は、LLMと知識グラフ(KG)を組み合わせるための新しいパラダイムとして、解釈可能および知識要求型質問応答のパラダイムと見なすこともできる。
私たちのコードは公開されています。
Knowledge Base Question Answering (KBQA) aims to answer natural language questions over large-scale knowledge bases (KBs), which can be summarized into two crucial steps: knowledge retrieval and semantic parsing. However, three core challenges remain: inefficient knowledge retrieval, mistakes of retrieval adversely impacting semantic parsing, and the complexity of previous KBQA methods. To tackle these challenges, we introduce ChatKBQA, a novel and simple generate-then-retrieve KBQA framework, which proposes first generating the logical form with fine-tuned LLMs, then retrieving and replacing entities and relations with an unsupervised retrieval method, to improve both generation and retrieval more directly. Experimental results show that ChatKBQA achieves new state-of-the-art performance on standard KBQA datasets, WebQSP, and CWQ. This work can also be regarded as a new paradigm for combining LLMs with knowledge graphs (KGs) for interpretable and knowledge-required question answering. Our code is publicly available. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# 大規模言語モデルを用いた効率的かつ高能率なゼロショットランク付けの一検討
A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models ( http://arxiv.org/abs/2310.09497v2 ) ライセンス: Link先を確認 | Shengyao Zhuang, Honglei Zhuang, Bevan Koopman, Guido Zuccon, | (参考訳) 本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。
我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
一貫した実験フレームワークにおける一貫した比較評価を通じて、モデルサイズ、トークン消費、レイテンシなどの要因を考慮し、既存のアプローチは、有効性と効率のトレードオフによって本質的に特徴付けられることを示す。
ポイントワイズアプローチは効率を高く評価する一方で、効果の低下に悩まされていることがわかった。
逆に、Pairwiseアプローチは優れた効果を示すが、高い計算オーバーヘッドをもたらす。
我々のSetwiseアプローチは、従来の手法に比べてLCM推論の数とランキング手順中のトークン消費量を減らす。
これにより、LLMベースのゼロショットランキングの効率が大幅に向上し、高いゼロショットランキングの有効性が保たれる。
コードと結果は、 \url{https://github.com/ielab/llm-rankers} で公開しています。
We propose a novel zero-shot document ranking approach based on Large Language Models (LLMs): the Setwise prompting approach. Our approach complements existing prompting approaches for LLM-based zero-shot ranking: Pointwise, Pairwise, and Listwise. Through the first-of-its-kind comparative evaluation within a consistent experimental framework and considering factors like model size, token consumption, latency, among others, we show that existing approaches are inherently characterised by trade-offs between effectiveness and efficiency. We find that while Pointwise approaches score high on efficiency, they suffer from poor effectiveness. Conversely, Pairwise approaches demonstrate superior effectiveness but incur high computational overhead. Our Setwise approach, instead, reduces the number of LLM inferences and the amount of prompt token consumption during the ranking procedure, compared to previous methods. This significantly improves the efficiency of LLM-based zero-shot ranking, while also retaining high zero-shot ranking effectiveness. We make our code and results publicly available at \url{https://github.com/ielab/llm-rankers}. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# プロンプトインジェクション攻撃と防御の形式化とベンチマーク
Formalizing and Benchmarking Prompt Injection Attacks and Defenses ( http://arxiv.org/abs/2310.12815v2 ) ライセンス: Link先を確認 | Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong, | (参考訳) プロンプトインジェクション攻撃は、悪意のあるインストラクション/データを LLM-Integrated Application の入力に注入することを目的としており、攻撃者の欲求として結果を生成する。
現存する作品はケーススタディに限られている。
その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。
私たちはこの仕事のギャップを埋めることを目指しています。
特に,プロンプトインジェクション攻撃を形式化するフレームワークを提案する。
既存の攻撃は私たちのフレームワークで特別なケースです。
さらに,我々のフレームワークをベースとして,既存の攻撃と組み合わせて新たな攻撃を設計する。
筆者らは,本フレームワークを用いて,5つのインジェクション攻撃と10個のLDMと7つのタスクからなる10個のディフェンスに対して,系統的評価を行った。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
このトピックについての研究を容易にするため、私たちはhttps://github.com/liu00222/Open-Prompt-Injection.comでプラットフォームを公開しています。
A prompt injection attack aims to inject malicious instruction/data into the input of an LLM-Integrated Application such that it produces results as an attacker desires. Existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a framework to formalize prompt injection attacks. Existing attacks are special cases in our framework. Moreover, based on our framework, we design a new attack by combining existing ones. Using our framework, we conduct a systematic evaluation on 5 prompt injection attacks and 10 defenses with 10 LLMs and 7 tasks. Our work provides a common benchmark for quantitatively evaluating future prompt injection attacks and defenses. To facilitate research on this topic, we make our platform public at https://github.com/liu00222/Open-Prompt-Injection. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# リカレントニューラルネットワークモデルの表現能力について
On the Representational Capacity of Recurrent Neural Language Models ( http://arxiv.org/abs/2310.12942v5 ) ライセンス: Link先を確認 | Franz Nowak, Anej Svete, Li Du, Ryan Cotterell, | (参考訳) 本研究では、リカレントニューラルネットワーク(RNN)に基づく言語モデル(LM)の計算表現性について検討する。
Siegelmann and Sontag (1992) は、合理的な重みと隠れた状態と非有界な計算時間を持つ RNN がチューリング完全であることを示した。
しかし、文字列の重み付けは、単に(重み付けされていない)言語のメンバーシップに加えて定義されており、RNN LM(RLM)の計算能力の分析もこれを反映すべきである。
我々は、チューリング完全性の結果を確率的ケースに拡張し、有界な計算時間を持つ有理重み付き RLM が、有理重み付き遷移を持つ決定論的確率的チューリングマシン (PTM) をどのようにシミュレートできるかを示す。
実のところ、RLMはリアルタイムに動作し、各ステップでシンボルを処理するので、上記の結果をRLMの表現性上の上限として扱う。
また, 実時間計算の制約下では, 決定論的実時間有理PTMをシミュレートできることを示した。
This work investigates the computational expressivity of language models (LMs) based on recurrent neural networks (RNNs). Siegelmann and Sontag (1992) famously showed that RNNs with rational weights and hidden states and unbounded computation time are Turing complete. However, LMs define weightings over strings in addition to just (unweighted) language membership and the analysis of the computational power of RNN LMs (RLMs) should reflect this. We extend the Turing completeness result to the probabilistic case, showing how a rationally weighted RLM with unbounded computation time can simulate any deterministic probabilistic Turing machine (PTM) with rationally weighted transitions. Since, in practice, RLMs work in real-time, processing a symbol at every time step, we treat the above result as an upper bound on the expressivity of RLMs. We also provide a lower bound by showing that under the restriction to real-time computation, such models can simulate deterministic real-time rational PTMs. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# 絶対的政策最適化
Absolute Policy Optimization ( http://arxiv.org/abs/2310.13230v5 ) ライセンス: Link先を確認 | Weiye Zhao, Feihan Li, Yifan Sun, Rui Chen, Tianhao Wei, Changliu Liu, | (参考訳) 近年,信頼領域の政治強化学習は,複雑な制御タスクやゲームシナリオに対処する上で,目覚ましい成果を上げている。
しかし、このカテゴリの現代の最先端のアルゴリズムは、期待されるパフォーマンスの改善を強調し、最悪のパフォーマンス結果を制御する能力が欠如している。
この制限に対処するために,信頼性の高い低い性能の確率境界における単調な改善が保証されるような,新たな目的関数を導入する。
この画期的な理論的進歩を基盤として、絶対的政策最適化(Absolute Policy Optimization、APO)と呼ばれる実用的なソリューションをさらに導入する。
本実験は,連続制御ベンチマークタスクにおけるアプローチの有効性を実証し,Atariゲームへの適用性を拡張した。
以上の結果から,APOとPAPOの効率性は,最先端のポリシー勾配アルゴリズムよりも著しく優れており,最悪の性能と期待される性能が大幅に向上していることが明らかとなった。
In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function, optimizing which leads to guaranteed monotonic improvement in the lower probability bound of performance with high confidence. Building upon this groundbreaking theoretical advancement, we further introduce a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO as well as its efficient variation Proximal Absolute Policy Optimization (PAPO) significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in worst-case performance, as well as expected performance. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# OTMatch: 最適輸送による半教師付き学習の改善
OTMatch: Improving Semi-Supervised Learning with Optimal Transport ( http://arxiv.org/abs/2310.17455v2 ) ライセンス: Link先を確認 | Zhiquan Tan, Kaipeng Zheng, Weiran Huang, | (参考訳) 半教師付き学習は,ラベル付きデータに含まれる豊富な情報を利用して,限られた量のラベル付きデータを効果的に活用することで,顕著な進歩を遂げてきた。
しかし、現在のアルゴリズムは、自己学習技術によって生成された特定のクラスとの整合性画像予測を優先し、これらのクラスに存在する固有の関係を無視することが多い。
本稿では,クラス間の意味的関係を利用したOTMatchという新しい手法を提案する。
多くの標準的なビジョンと言語データセットの実験を行います。
実験結果から,本手法のベースライン上における改善が示され,半教師付き環境での学習性能向上に意味的関係を活用する上でのアプローチの有効性と優位性が示された。
Semi-supervised learning has made remarkable strides by effectively utilizing a limited amount of labeled data while capitalizing on the abundant information present in unlabeled data. However, current algorithms often prioritize aligning image predictions with specific classes generated through self-training techniques, thereby neglecting the inherent relationships that exist within these classes. In this paper, we present a new approach called OTMatch, which leverages semantic relationships among classes by employing an optimal transport loss function to match distributions. We conduct experiments on many standard vision and language datasets. The empirical results show improvements in our method above baseline, this demonstrates the effectiveness and superiority of our approach in harnessing semantic relationships to enhance learning performance in a semi-supervised setting. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# 固体ネオン表面上の量子環状態に基づく単一電子量子ビット
Single-electron qubits based on quantum ring states on solid neon surface ( http://arxiv.org/abs/2311.02501v2 ) ライセンス: Link先を確認 | Toshiaki Kanai, Dafei Jin, Wei Guo, | (参考訳) 固体ネオン表面(eNe)に閉じ込められた単一電子は、電荷量子ビットのための有望なプラットフォームとして最近出現している。
実験の結果、非常に長いコヒーレンス時間が明らかになっているが、これらの捕獲された電子の実際の量子状態は、おそらく不完全な平らなネオン表面にある。
本稿では,電子とネオン表面のトポグラフィー(バンプや谷など)の相互作用について検討する。
電子によって誘導される表面電荷を評価することにより、ネオン表面への強い垂直結合を示す。
曲線された2次元表面上の電子の側方運動に対するSchr\"{o}dinger方程式は、広範な地形変化のために解かれる。
この結果から、表面のバンプは自然に電子に結合し、実験的な観測と一致したユニークな量子リング状態を形成することが明らかとなった。
また、電子の励起エネルギーを極小磁場で調整し、量子ビット演算を容易にすることも示している。
本研究は、eNe量子ビット特性の理解を深め、電荷ノイズを最小化し、量子コンピューティングアーキテクチャを前進させるためにシステムをスケールするための戦略的洞察を提供する。
Single electrons trapped on solid neon surfaces (eNe) have recently emerged as a promising platform for charge qubits. Experimental results have revealed their exceptionally long coherence times, yet the actual quantum states of these trapped electrons, presumably on imperfectly flat neon surfaces, remain elusive. In this paper, we examine the electron's interactions with neon surface topography, such as bumps and valleys. By evaluating the surface charges induced by the electron, we demonstrate its strong perpendicular binding to the neon surface. The Schr\"{o}dinger equation for the electron's lateral motion on the curved 2D surface is then solved for extensive topographical variations. Our results reveal that surface bumps can naturally bind an electron, forming unique quantum ring states that align with experimental observations. We also show that the electron's excitation energy can be tuned using a modest magnetic field to facilitate qubit operation. This study offers a leap in our understanding of eNe qubit properties and provides strategic insights on minimizing charge noise and scaling the system to propel forward quantum computing architectures. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# Tighter Bayesian Regret bounds を用いた後方サンプリングに基づくベイズ最適化
Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds ( http://arxiv.org/abs/2311.03760v2 ) ライセンス: Link先を確認 | Shion Takeno, Yu Inatsu, Masayuki Karasuyama, Ichiro Takeuchi, | (参考訳) ベイズ最適化 (BO) における様々な獲得関数 (AF) のうち、ガウス過程上信頼境界 (GP-UCB) とトンプソンサンプリング (TS) はベイズ累積後悔 (BCR) に関する確立された理論的性質を持つよく知られた選択肢である。
近年,GP-UCBの無作為な変種はGP-UCBよりも厳密なBCRを達成できることが示されている。
この研究にインスパイアされたこの論文は、まずTSがより厳密なBCR境界を達成することを示す。
一方、GP-UCBとTSは、それぞれ手動のハイパーパラメータチューニングと過剰探索の問題に悩まされることが多い。
そこで本研究では,サンプルパス(PIMS)の最大値から改善の確率という別のAFを解析した。
GP-UCBとは異なり,PIMSはより厳密なBCR境界を実現し,ハイパーパラメータチューニングを回避する。
さらに,GP-UCB と TS の実践的問題を緩和する PIMS の有効性に着目し,幅広い実験を行った。
Among various acquisition functions (AFs) in Bayesian optimization (BO), Gaussian process upper confidence bound (GP-UCB) and Thompson sampling (TS) are well-known options with established theoretical properties regarding Bayesian cumulative regret (BCR). Recently, it has been shown that a randomized variant of GP-UCB achieves a tighter BCR bound compared with GP-UCB, which we call the tighter BCR bound for brevity. Inspired by this study, this paper first shows that TS achieves the tighter BCR bound. On the other hand, GP-UCB and TS often practically suffer from manual hyperparameter tuning and over-exploration issues, respectively. Therefore, we analyze yet another AF called a probability of improvement from the maximum of a sample path (PIMS). We show that PIMS achieves the tighter BCR bound and avoids the hyperparameter tuning, unlike GP-UCB. Furthermore, we demonstrate a wide range of experiments, focusing on the effectiveness of PIMS that mitigates the practical issues of GP-UCB and TS. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# PrivLM-Bench: 言語モデルのための多レベルプライバシ評価ベンチマーク
PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models ( http://arxiv.org/abs/2311.04044v2 ) ライセンス: Link先を確認 | Haoran Li, Dadi Guo, Donghao Li, Wei Fan, Qi Hu, Xin Liu, Chunkit Chan, Duanyi Yao, Yuan Yao, Yangqiu Song, | (参考訳) 言語モデル(LM)の急速な開発は、モデルとユーザの両方に前例のないアクセシビリティと利用をもたらす。
一方、強力なLMは、多くの下流NLPタスクに対して最先端のパフォーマンスを達成する。
一方で、データ漏洩の悪意のあるプライバシーリスクを引き起こす可能性のある、制限のないモデルアクセスに対して、ますます多くの注意が払われています。
これらの問題に対処するため、近年の多くの研究で、差分プライバシー(DP)を用いたプライバシー保護言語モデル(PPLM)が提案されている。
残念ながら、異なるDP実装は既存のPPLMと公正な比較を困難にしている。
本稿では,マルチパースペクティブなプライバシ評価ベンチマークであるPrivLM-Benchを紹介し,LMのプライバシリークを経験的かつ直観的に定量化する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
PrivLM-Benchはまず、多面的なプライバシーの目的を明確に定義している。
次にPrivLM-Benchは、プライベートな微調整を行うための統一パイプラインを構築する。
最後に、PrivLM-Benchは、経験的評価結果として、予め定義されたプライバシー目標を持つLMに対して、既存のプライバシ攻撃を行う。
様々なPPLMのプライバシー漏洩を公平かつ直感的に評価するために,経験的攻撃結果を用いている。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
The rapid development of language models (LMs) brings unprecedented accessibility and usage for both models and users. On the one hand, powerful LMs achieve state-of-the-art performance over numerous downstream NLP tasks. On the other hand, more and more attention is paid to unrestricted model accesses that may bring malicious privacy risks of data leakage. To address these issues, many recent works propose privacy-preserving language models (PPLMs) with differential privacy (DP). Unfortunately, different DP implementations make it challenging for a fair comparison among existing PPLMs. In this paper, we present PrivLM-Bench, a multi-perspective privacy evaluation benchmark to empirically and intuitively quantify the privacy leakage of LMs. Instead of only reporting DP parameters, PrivLM-Bench sheds light on the neglected inference data privacy during actual usage. PrivLM-Bench first clearly defines multi-faceted privacy objectives. Then, PrivLM-Bench constructs a unified pipeline to perform private fine-tuning. Lastly, PrivLM-Bench performs existing privacy attacks on LMs with pre-defined privacy objectives as the empirical evaluation results. The empirical attack results are used to fairly and intuitively evaluate the privacy leakage of various PPLMs. We conduct extensive experiments on three datasets of GLUE for mainstream LMs. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# SMSフィッシング検出の定量的検討
A Quantitative Study of SMS Phishing Detection ( http://arxiv.org/abs/2311.06911v4 ) ライセンス: Link先を確認 | Daniel Timko, Daniel Hernandez Castillo, Muhammad Lutfor Rahman, | (参考訳) スマートフォンの人気が高まっている中、これらのデバイスに関する脅威はますます高まっている。
SMS(Short Message Service)とフィッシングの組み合わせであるSmishingは、悪意あるアクターがユーザーを欺くために使う危険なサイバー脅威として現れ、機密情報やお金、マルウェアをモバイルデバイスにインストールすることを目的としている。
近年のスマイシング攻撃の増加にもかかわらず、ユーザーが偽メッセージと現実を区別する能力に寄与する要因を理解することを目的とした研究はほとんどない。
このような知識のギャップに対処するため,我々は187名の参加者を対象に,スマイシング検出に関するオンライン調査を行った。
本研究では,16個のSMSスクリーンショットを提示し,異なる要因がスマイシング検出における意思決定プロセスに与える影響を評価した。
次に,参加者のセキュリティ態度,行動,知識に関する情報を収集するための調査後調査を行った。
その結果, 注意行動スコアとセキュリティ行動スコアは, スマイシングメッセージの同定における参加者の精度に有意な影響を及ぼすことがわかった。
参加者は、偽メッセージで67.1%、本物メッセージで43.6%の精度で、偽メッセージから本物のメッセージを見つけるのが困難であることが判明した。
我々の研究は、スマイシング攻撃に遭遇し軽減するための積極的な戦略の開発に不可欠である。
スマイシング検出に影響を与える要因を理解することによって、このような脅威に対するユーザのレジリエンスを高め、より安全なデジタル環境を構築することを目指している。
With the booming popularity of smartphones, threats related to these devices are increasingly on the rise. Smishing, a combination of SMS (Short Message Service) and phishing has emerged as a treacherous cyber threat used by malicious actors to deceive users, aiming to steal sensitive information, money or install malware on their mobile devices. Despite the increase in smishing attacks in recent years, there are very few studies aimed at understanding the factors that contribute to a user's ability to differentiate real from fake messages. To address this gap in knowledge, we have conducted an online survey on smishing detection with 187 participants. In this study, we presented them with 16 SMS screenshots and evaluated how different factors affect their decision making process in smishing detection. Next, we conducted a post-survey to garner information on the participants' security attitudes, behavior and knowledge. Our results highlighted that attention and security behavioral scores had a significant impact on participants' accuracy in identifying smishing messages. We found that participants had more difficulty identifying real messages from fake ones, with an accuracy of 67.1% with fake messages and 43.6% with real messages. Our study is crucial in developing proactive strategies to encounter and mitigate smishing attacks. By understanding what factors influence smishing detection, we aim to bolster users' resilience against such threats and create a safer digital environment for all. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# 呼吸音分類のためのマルチビュースペクトログラム変換器
Multi-View Spectrogram Transformer for Respiratory Sound Classification ( http://arxiv.org/abs/2311.09655v3 ) ライセンス: Link先を確認 | Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang, | (参考訳) 深部ニューラルネットワークは、呼吸音分類のためのオーディオスペクトログラムに応用されている。
既存のモデルは、しばしば分光図を合成画像として扱い、物理特性を見下ろしている。
本稿では、視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
提案したMVSTは, メリースペクトルを異なる大きさのパッチに分割し, 呼吸音の多視点音響特性を表す。
これらのパッチと位置埋め込みをトランスフォーマーエンコーダに入力し、自己保持機構を通じてパッチ間の注意情報を抽出する。
最後に、ゲート融合スキームは、特定のシナリオで最良のものを強調するために、マルチビュー機能を自動的に評価するように設計されている。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
Deep neural networks have been applied to audio spectrograms for respiratory sound classification. Existing models often treat the spectrogram as a synthetic image while overlooking its physical characteristics. In this paper, a Multi-View Spectrogram Transformer (MVST) is proposed to embed different views of time-frequency characteristics into the vision transformer. Specifically, the proposed MVST splits the mel-spectrogram into different sized patches, representing the multi-view acoustic elements of a respiratory sound. These patches and positional embeddings are then fed into transformer encoders to extract the attentional information among patches through a self-attention mechanism. Finally, a gated fusion scheme is designed to automatically weigh the multi-view features to highlight the best one in a specific scenario. Experimental results on the ICBHI dataset demonstrate that the proposed MVST significantly outperforms state-of-the-art methods for classifying respiratory sounds. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# 多分解能データに対する個人化動的潜在因子モデルとモバイルヘルスへの応用
Individualized Dynamic Latent Factor Model for Multi-resolutional Data with Application to Mobile Health ( http://arxiv.org/abs/2311.12392v4 ) ライセンス: Link先を確認 | Jiuchen Zhang, Fei Xue, Qi Xu, Jung-Ah Lee, Annie Qu, | (参考訳) モバイル健康は、スマートフォンやウェアラブルデバイスの人気とパワーのために、個人の健康状態を追跡する上で大きな成功を収めている。
これはまた、個人から収集された不規則な多変量測定により、モバイルの健康に至るところで発生する不均一で多分解能データを扱う際にも大きな課題をもたらした。
本稿では,不規則なマルチレゾリューション時系列データに対する個人化動的潜在因子モデルを提案する。
提案手法の1つの大きな利点は、多重解像度データを潜在空間にマッピングすることで、複数の不規則時系列と複数の主題を統合する能力である。
さらに,提案した動的潜伏因子モデルを用いて不均一な長手情報を取得する。
我々の理論は、B-スプライン近似法における積分補間誤差と収束率に制限を与える。
シミュレーションとスマートウォッチデータへの適用は,既存手法と比較して,提案手法の優れた性能を示すものである。
Mobile health has emerged as a major success for tracking individual health status, due to the popularity and power of smartphones and wearable devices. This has also brought great challenges in handling heterogeneous, multi-resolution data which arise ubiquitously in mobile health due to irregular multivariate measurements collected from individuals. In this paper, we propose an individualized dynamic latent factor model for irregular multi-resolution time series data to interpolate unsampled measurements of time series with low resolution. One major advantage of the proposed method is the capability to integrate multiple irregular time series and multiple subjects by mapping the multi-resolution data to the latent space. In addition, the proposed individualized dynamic latent factor model is applicable to capturing heterogeneous longitudinal information through individualized dynamic latent factors. Our theory provides a bound on the integrated interpolation error and the convergence rate for B-spline approximation methods. Both the simulation studies and the application to smartwatch data demonstrate the superior performance of the proposed method compared to existing methods. | 翻訳日:2024-05-31 23:42:43 公開日:2024-05-30 |
# Sibyl:視覚コモンセンス知識を用いた感性共感対話生成
Sibyl: Sensible Empathetic Dialogue Generation with Visionary Commonsense Knowledge ( http://arxiv.org/abs/2311.15316v2 ) ライセンス: Link先を確認 | Lanrui Wang, Jiangnan Li, Chenxu Yang, Zheng Lin, Hongyin Tang, Huan Liu, Xiaolei Huang, Yanan Cao, Jingang Wang, Weiping Wang, | (参考訳) 近年,多言語モデル(LLM)に基づくチャットボット構築への関心が高まっている。
会話の文脈の心理的側面や因果関係をよりよく理解するために常識的知識にアクセスできるにもかかわらず、これらの強力なLLMでさえ共感と感情的支援の目標を達成するのに苦労している。
現在のアプローチは対話の未来を十分に予測していないため、共感と感情的支援の複雑な対話目標を無視する言語モデルを誤解させ、共感の欠如を招きかねない応答をもたらす可能性がある。
この問題に対処するために,視覚コモンセンス知識を用いた感性共感対話生成(Sibyl)という革新的なフレームワークを提案する。
差し迫った対話の未来に集中するために設計されたこのパラダイムは、LLMを会話の暗黙の要求に向け、より賢明な応答を提供することを目的としている。
実験結果から,LLMにコモンセンス知識を習得するためのパラダイムを取り入れることで,その応答の質を総合的に向上することが示された。
Recently, there has been a heightened interest in building chatbots based on Large Language Models (LLMs) to emulate human-like qualities in dialogues, including expressing empathy and offering emotional support. Despite having access to commonsense knowledge to better understand the psychological aspects and causality of dialogue context, even these powerful LLMs struggle to achieve the goals of empathy and emotional support. As current approaches do not adequately anticipate dialogue future, they may mislead language models to ignore complex dialogue goals of empathy and emotional support, resulting in unsupportive responses lacking empathy. To address this issue, we present an innovative framework named Sensible Empathetic Dialogue Generation with Visionary Commonsense Knowledge (Sibyl). Designed to concentrate on the imminent dialogue future, this paradigm directs LLMs toward the implicit requirements of the conversation, aiming to provide more sensible responses. Experimental results demonstrate that incorporating our paradigm for acquiring commonsense knowledge into LLMs comprehensively enhances the quality of their responses. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# ガウシアンヘッド:学習可能なガウシアン誘導体を用いた高忠実ヘッドアバター
GaussianHead: High-fidelity Head Avatars with Learnable Gaussian Derivation ( http://arxiv.org/abs/2312.01632v4 ) ライセンス: Link先を確認 | Jie Wang, Jiu-Cheng Xie, Xianyan Li, Feng Xu, Chi-Man Pun, Hao Gao, | (参考訳) 被験者のための鮮やかな3Dヘッドアバターの構築とアニメーションのシリーズの実現は、価値はあるが難しい。
本稿では,行動的頭部と異方性3Dガウスをモデル化したガウス的頭部について述べる。
本フレームワークでは, 頭部の動的形状と複雑なテクスチャに対処するため, 運動変形場と多分解能三面体をそれぞれ構築する。
特に、位置変換のための学習可能なパラメータの集合を通じて、複数のドッペルガンガーを生成するガウス系に排他的導出スキームを課す。
この設計により、ガウスの外観情報をコンパクトかつ正確に符号化することができる。
また、新たに加えたガウス人の継承派生戦略が採用され、訓練の加速が促進される。
広汎な実験により,本手法は高忠実なレンダリング,再現における最先端のアプローチ,クロスアイデンティティの再現,新しいビュー合成タスクを実現できることが示された。
私たちのコードは、https://github.com/chiehwangs/gaussian-head.comで利用可能です。
Constructing vivid 3D head avatars for given subjects and realizing a series of animations on them is valuable yet challenging. This paper presents GaussianHead, which models the actional human head with anisotropic 3D Gaussians. In our framework, a motion deformation field and multi-resolution tri-plane are constructed respectively to deal with the head's dynamic geometry and complex texture. Notably, we impose an exclusive derivation scheme on each Gaussian, which generates its multiple doppelgangers through a set of learnable parameters for position transformation. With this design, we can compactly and accurately encode the appearance information of Gaussians, even those fitting the head's particular components with sophisticated structures. In addition, an inherited derivation strategy for newly added Gaussians is adopted to facilitate training acceleration. Extensive experiments show that our method can produce high-fidelity renderings, outperforming state-of-the-art approaches in reconstruction, cross-identity reenactment, and novel view synthesis tasks. Our code is available at: https://github.com/chiehwangs/gaussian-head. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# 因果ダイヤモンドの熱場二重状態の経路積分による導出
Path integral derivation of the thermofield double state in causal diamonds ( http://arxiv.org/abs/2312.03541v2 ) ライセンス: Link先を確認 | Abhijit Chakraborty, Carlos R. Ordóñez, Gustavo Valdivia-Mera, | (参考訳) 本稿では、R. Laflamme の論文 {\it Physica A}, \textbf{158}, pg 58-63 (1989) で与えられた枠組みに従い、ユークリッド経路積分形式を用いた因果ダイヤモンドの熱場二重状態の導出を行い、その後、因果ダイヤモンド温度を導出する。
熱場二重状態における物理的および架空の系の解釈は、円筒背景幾何学のユークリッド区間で定義される場の境界条件$S^{1}_{\beta}\times \mathbb{R}$から自然に生じ、$\beta$はユークリッド時間座標の周期性を定義する。
静的ダイヤモンド観測者によって検出された温度は、この経路積分法によって導出される熱場二重温度と一致する。
In this article, we follow the framework given in the article {\it Physica A}, \textbf{158}, pg 58-63 (1989) by R. Laflamme to derive the thermofield double state for a causal diamond using the Euclidean path integral formalism, and subsequently derive the causal diamond temperature. The interpretation of the physical and fictitious system in the thermofield double state arises naturally from the boundary conditions of the fields defined on the Euclidean sections of the cylindrical background geometry $S^{1}_{\beta}\times \mathbb{R}$, where $\beta$ defines the periodicity of the Euclidean time coordinate and $S^{1}_{\beta}$ is a circumference of length $\beta$. The temperature detected by a static diamond observer at $x=0$ matches with the thermofield double temperature derived via this path integral procedure. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# 予測的アレタリック不確かさのドライバの同定
Identifying Drivers of Predictive Aleatoric Uncertainty ( http://arxiv.org/abs/2312.07252v2 ) ライセンス: Link先を確認 | Pascal Iversen, Simon Witzke, Katharina Baum, Bernhard Y. Renard, | (参考訳) 説明可能性と不確実性の定量化は、信頼できる人工知能の2つの柱である。
しかし、不確実性推定の背後にある理由については、概して説明がつかない。
不確実性の要因を特定することは、モデル制限を認識する際のポイント予測の説明を補完し、決定とそのコミュニケーションに対する信頼を高める。
これまでのところ、不確実性の説明はめったに研究されていない。
少数の例外はベイズニューラルネットワークや補助生成モデルのような技術的に複雑なアプローチに依存しており、それによって広く採用されるのを妨げている。
本稿では,予測的アレタリック不確実性を説明するための簡単なアプローチを提案する。
我々は、ガウス出力分布にニューラルネットワークを適用することにより、不確実性を予測分散として推定する。
その後、モデルの分散出力にアウト・オブ・ボックスの説明器を適用する。
この手法は文献ベースラインよりも不確実性の影響を確実に説明することができ、既知のデータ生成プロセスによる合成環境で評価する。
我々は、従来のXAI研究から不確実性の説明まで、複数のメトリクスを適応させる。
我々は、実世界のデータセットを含むニュアンスなベンチマーク分析を用いて、この結果の定量化を行う。
最後に、年齢回帰モデルにアプローチを適用し、妥当な不確実性の原因を発見する。
全体として、モデルアーキテクチャにほとんど変更を加えることなく不確実性推定を説明し、我々のアプローチがより複雑な手法と効果的に競合することを実証する。
Explainability and uncertainty quantification are two pillars of trustable artificial intelligence. However, the reasoning behind uncertainty estimates is generally left unexplained. Identifying the drivers of uncertainty complements explanations of point predictions in recognizing model limitations and enhances trust in decisions and their communication. So far, explanations of uncertainties have been rarely studied. The few exceptions rely on Bayesian neural networks or technically intricate approaches, such as auxiliary generative models, thereby hindering their broad adoption. We present a simple approach to explain predictive aleatoric uncertainties. We estimate uncertainty as predictive variance by adapting a neural network with a Gaussian output distribution. Subsequently, we apply out-of-the-box explainers to the model's variance output. This approach can explain uncertainty influences more reliably than literature baselines, which we evaluate in a synthetic setting with a known data-generating process. We further adapt multiple metrics from conventional XAI research to uncertainty explanations. We quantify our findings with a nuanced benchmark analysis that includes real-world datasets. Finally, we apply our approach to an age regression model and discover reasonable sources of uncertainty. Overall, we explain uncertainty estimates with little modifications to the model architecture and demonstrate that our approach competes effectively with more intricate methods. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# SimAC: 拡散モデルのテキスト対画像合成に対する顔のプライバシ保護のための簡易なアンチカスタマイズ手法
SimAC: A Simple Anti-Customization Method for Protecting Face Privacy against Text-to-Image Synthesis of Diffusion Models ( http://arxiv.org/abs/2312.07865v3 ) ライセンス: Link先を確認 | Feifei Wang, Zhentao Tan, Tianyi Wei, Yue Wu, Qidong Huang, | (参考訳) 視覚コンテンツ作成における拡散に基づくカスタマイズ手法の成功にもかかわらず、プライバシーと政治の両面から、このような技術に対する懸念が高まっている。
この問題に対処するために、敵の攻撃に主に根ざした、いくつかのアンチ・カストマイズ法が近年提案されている。
残念なことに、これらの手法の多くは、元のトレーニング損失を逆向きに最大化し、拡散モデルに固有の微妙な内部特性を無視し、また、いくつかの拡散時間ステップにおいて非効率な最適化に至るような単純な設計を採用しており、本稿では、これらの特性を包括的に探索することにより、このギャップを埋め、現在のアンチ・カストマイゼーション・アプローチの性能を高めることに努めている。
特性の2つの側面について検討する。
1) 画像の周波数領域における時間ステップ選択とモデル知覚の関係について検討し, より低い時間ステップが対向雑音にさらに寄与することを示した。
これにより,既存のアンチ・カストマイゼーション手法とシームレスに統合された最適時間ステップの適応的欲求探索を提案することができる。
2) 顔認証による評価実験により, ユーザのプライバシーと著作権を保護し, アイデンティティの破壊を著しく増大させることが実証された。
私たちのコードは、https://github.com/somuchtome/SimAC.comで利用可能です。
Despite the success of diffusion-based customization methods on visual content creation, increasing concerns have been raised about such techniques from both privacy and political perspectives. To tackle this issue, several anti-customization methods have been proposed in very recent months, predominantly grounded in adversarial attacks. Unfortunately, most of these methods adopt straightforward designs, such as end-to-end optimization with a focus on adversarially maximizing the original training loss, thereby neglecting nuanced internal properties intrinsic to the diffusion model, and even leading to ineffective optimization in some diffusion time steps.In this paper, we strive to bridge this gap by undertaking a comprehensive exploration of these inherent properties, to boost the performance of current anti-customization approaches. Two aspects of properties are investigated: 1) We examine the relationship between time step selection and the model's perception in the frequency domain of images and find that lower time steps can give much more contributions to adversarial noises. This inspires us to propose an adaptive greedy search for optimal time steps that seamlessly integrates with existing anti-customization methods. 2) We scrutinize the roles of features at different layers during denoising and devise a sophisticated feature-based optimization framework for anti-customization.Experiments on facial benchmarks demonstrate that our approach significantly increases identity disruption, thereby protecting user privacy and copyright. Our code is available at: https://github.com/somuchtome/SimAC. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# アルゴリズム決定における予測の相対値
The Relative Value of Prediction in Algorithmic Decision Making ( http://arxiv.org/abs/2312.08511v2 ) ライセンス: Link先を確認 | Juan Carlos Perdomo, | (参考訳) アルゴリズムによる予測は、公共領域における商品や介入の割り当てを知らせるために、ますます使われてきている。
これらの領域では、予測は終わりの手段となる。
彼らは、意思決定の質を改善し、社会福祉を強化する手段として、将来の出来事の可能性に関する洞察をステークホルダーに提供する。
しかし、福祉の最大化が究極の目標であるならば、予測はパズルのごく一部にすぎない。
ソーシャルプランナーは、利用可能な商品へのアクセスを拡大したり、介入の効果の大きさを増大させるなど、ボトムラインの成果を改善するために、様々な政策レバーを追求する。
アルゴリズムによる意思決定における予測の相対的な価値は何か?
より良い予測による福祉改善は、他の政策レバーと比べてどうか。
私たちの研究の目標は、これらの質問の正式な研究を開始することです。
我々の主な成果は自然理論である。
定量的社会科学者の間で人気があるいくつかの統計モデルにおいて、予測 vis-\<a-vis> の相対値を決定する単純で鋭い条件を同定する。
さらに、これらの理論的洞察を用いて、実際に行われているアルゴリズム決定システムの設計を導く方法について述べる。
Algorithmic predictions are increasingly used to inform the allocations of goods and interventions in the public sphere. In these domains, predictions serve as a means to an end. They provide stakeholders with insights into likelihood of future events as a means to improve decision making quality, and enhance social welfare. However, if maximizing welfare is the ultimate goal, prediction is only a small piece of the puzzle. There are various other policy levers a social planner might pursue in order to improve bottom-line outcomes, such as expanding access to available goods, or increasing the effect sizes of interventions. Given this broad range of design decisions, a basic question to ask is: What is the relative value of prediction in algorithmic decision making? How do the improvements in welfare arising from better predictions compare to those of other policy levers? The goal of our work is to initiate the formal study of these questions. Our main results are theoretical in nature. We identify simple, sharp conditions determining the relative value of prediction vis-\`a-vis expanding access, within several statistical models that are popular amongst quantitative social scientists. Furthermore, we illustrate how these theoretical insights may be used to guide the design of algorithmic decision making systems in practice. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# LVLMはチャートを理解しているか? チャートキャプションにおける実際のエラーの分析と修正
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning ( http://arxiv.org/abs/2312.10160v2 ) ライセンス: Link先を確認 | Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung, Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji, | (参考訳) 近年の大規模視覚言語モデル(LVLM)の進歩により、視覚コンテンツのための自然言語記述の生成が著しく進歩し、様々な応用が進んでいる。
これらの強力なモデルの1つの問題は、時に視覚的な入力と現実的に矛盾するテキストを生成することである。
自然画像のキャプションにおけるこのような矛盾を緩和する努力はいくつかあるが、チャートなどの構造化文書画像のキャプション生成の事実は、あまり精査されておらず、重要なアプリケーションにおける情報信頼性への潜在的な脅威となっている。
この研究は、生成されたチャートキャプションに事実エラーの包括的型付けを導入することで、事実性の側面を掘り下げるものである。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作成されたキャプションのエラーパターンと頻度に関する洞察を与え、最終的には新しいデータセットであるCHOCOLATEの基礎を形成する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
この課題に対応するために、我々はChart Caption Factual Error Correctionの新たなタスクを確立し、実際の一貫性を評価するために、プロプライエタリでオープンソースのLVLMよりも優れた視覚的エンタテインメントモデルCHARTVEを導入する。
さらに,事実誤りの訂正に優れた解釈可能な2段階のフレームワークであるC2TFECを提案する。
本研究は, グラフキャプションの誤り訂正に新たな領域を見出し, 新たな評価機構を示し, 生成したチャートキャプションの事実性を確保するための効果的なアプローチを示す。
コードとデータを継続的に更新するベンチマークは、https://khuangaf.github.io/CHOCOLATE/.com/で見ることができる。
Recent advancements in large vision-language models (LVLMs) have led to significant progress in generating natural language descriptions for visual content and thus enhancing various applications. One issue with these powerful models is that they sometimes produce texts that are factually inconsistent with the visual input. While there has been some effort to mitigate such inconsistencies in natural image captioning, the factuality of generated captions for structured document images, such as charts, has not received as much scrutiny, posing a potential threat to information reliability in critical applications. This work delves into the factuality aspect by introducing a comprehensive typology of factual errors in generated chart captions. A large-scale human annotation effort provides insight into the error patterns and frequencies in captions crafted by various chart captioning models, ultimately forming the foundation of a novel dataset, CHOCOLATE. Our analysis reveals that even state-of-the-art models, including GPT-4V, frequently produce captions laced with factual inaccuracies. In response to this challenge, we establish the new task of Chart Caption Factual Error Correction and introduce CHARTVE, a model for visual entailment that outperforms proprietary and open-source LVLMs in evaluating factual consistency. Furthermore, we propose C2TFEC, an interpretable two-stage framework that excels at correcting factual errors. This work inaugurates a new domain in factual error correction for chart captions, presenting a novel evaluation mechanism, and demonstrating an effective approach to ensuring the factuality of generated chart captions. The code and data as well as the continuously updated benchmark can be found at: https://khuangaf.github.io/CHOCOLATE/. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# Opara:GPU上のDNN推論を高速化する演算子並列処理
Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs ( http://arxiv.org/abs/2312.10351v2 ) ライセンス: Link先を確認 | Aodong Chen, Fei Xu, Li Han, Yuan Dong, Li Chen, Zhi Zhou, Fangming Liu, | (参考訳) GPUは、Deep Neural Network(DNN)推論ワークロードを加速するための、‘emph{defacto’ハードウェアデバイスになった。
しかし、DNN演算子の従来の 'emph{sequential execution mode} は、モデル構造が複雑化し、演算子の多様性が増すため、演算子融合が有効であったとしても、GPUリソースを十分に活用できない。
さらに、並列実行シナリオにおける \emph{inadequate operator launch order} は、GPUリソースの浪費と演算子間の予期しないパフォーマンス干渉につながる可能性がある。
本稿では、GPU上でのDNN推論を高速化するために、リソースと干渉を意識したDNN \underline{Op}erator \underline{para}llel スケジューリングフレームワークである \emph{Opara} を提案する。
具体的には、最初に \emph{Opara} は、複数の演算子の自動実行に \texttt{CUDA Streams} と \texttt{CUDA Graph} を使用します。
DNN推論をさらに高速にするために、 \emph{Opara} は演算子のリソース要求を利用してGPU上の演算子起動順序を任意に調整し、計算集約演算子とメモリ集約演算子の実行を重複させる。
我々は PyTorch に基づいた \emph{Opara} のプロトタイプを \emph{non-intrusive} 形式で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによる大規模なプロトタイプ実験では、PyTorchのデフォルトのシーケンシャルな \texttt{CUDA Graph} と、最先端の演算子並列処理システムをそれぞれ1.68\times$と1.29\times$で上回っているが、ランタイムオーバーヘッドは許容できる。
GPUs have become the \emph{defacto} hardware devices for accelerating Deep Neural Network (DNN) inference workloads. However, the conventional \emph{sequential execution mode of DNN operators} in mainstream deep learning frameworks cannot fully utilize GPU resources, even with the operator fusion enabled, due to the increasing complexity of model structures and a greater diversity of operators. Moreover, the \emph{inadequate operator launch order} in parallelized execution scenarios can lead to GPU resource wastage and unexpected performance interference among operators. In this paper, we propose \emph{Opara}, a resource- and interference-aware DNN \underline{Op}erator \underline{para}llel scheduling framework to accelerate DNN inference on GPUs. Specifically, \emph{Opara} first employs \texttt{CUDA Streams} and \texttt{CUDA Graph} to \emph{parallelize} the execution of multiple operators automatically. To further expedite DNN inference, \emph{Opara} leverages the resource demands of operators to judiciously adjust the operator launch order on GPUs, overlapping the execution of compute-intensive and memory-intensive operators. We implement and open source a prototype of \emph{Opara} based on PyTorch in a \emph{non-intrusive} manner. Extensive prototype experiments with representative DNN and Transformer-based models demonstrate that \emph{Opara} outperforms the default sequential \texttt{CUDA Graph} in PyTorch and the state-of-the-art operator parallelism systems by up to $1.68\times$ and $1.29\times$, respectively, yet with acceptable runtime overhead. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# 多様性最適化のための密度勾配
Density Descent for Diversity Optimization ( http://arxiv.org/abs/2312.11331v2 ) ライセンス: Link先を確認 | David H. Lee, Anishalakshmi V. Palaparthi, Matthew C. Fontaine, Bryon Tjanaka, Stefanos Nikolaidis, | (参考訳) 多様性の最適化は、多様な特徴を引き出す一連のソリューションを見つけ出そうとする。
以前の研究では、現在の解の集合が与えられたノベルティ探索 (NS) が提案されており、特徴空間の低密度領域の点を見つけることによって集合を拡張しようとしている。
しかし、密度を推定するためには、NSは特徴空間の探索点の k-アネレス近傍を考えるヒューリスティックに依存し、より弱い安定性を保証する。
本稿では,CMA-ESを用いて特徴空間を探索するアルゴリズムである密度 Descent Search (DDS)を提案する。
我々は、DDSとカーネル密度推定(KDE)と連続正規化フロー(CNF)の2つの密度推定法を実験した。
いくつかの標準多様性最適化ベンチマークでは、DDSはNS、最近提案されたMAP-Annealingアルゴリズム、その他の最先端のベースラインよりも優れている。
さらに、KDE を用いた DDS が NS よりも強い安定性を保証することを示し、適応型オプティマイザにより適していることを示す。
さらに、NS は特徴空間の KDE を下降させる DDS の特別な場合であることを示す。
Diversity optimization seeks to discover a set of solutions that elicit diverse features. Prior work has proposed Novelty Search (NS), which, given a current set of solutions, seeks to expand the set by finding points in areas of low density in the feature space. However, to estimate density, NS relies on a heuristic that considers the k-nearest neighbors of the search point in the feature space, which yields a weaker stability guarantee. We propose Density Descent Search (DDS), an algorithm that explores the feature space via CMA-ES on a continuous density estimate of the feature space that also provides a stronger stability guarantee. We experiment with DDS and two density estimation methods: kernel density estimation (KDE) and continuous normalizing flow (CNF). On several standard diversity optimization benchmarks, DDS outperforms NS, the recently proposed MAP-Annealing algorithm, and other state-of-the-art baselines. Additionally, we prove that DDS with KDE provides stronger stability guarantees than NS, making it more suitable for adaptive optimizers. Furthermore, we prove that NS is a special case of DDS that descends a KDE of the feature space. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク
Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy ( http://arxiv.org/abs/2312.12728v3 ) ライセンス: Link先を確認 | Yao Zhao, Zhitian Xie, Chen Liang, Chenyi Zhuang, Jinjie Gu, | (参考訳) 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。
しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。
そこで本稿では,LLMをベースとしたシナリオの高速化とコスト削減を実現し,生成精度を損なうことなく,推論プロセスを高速化する汎用フレームワークを提案する。
従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。
このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しています。
一つのトークンを一度に生成するのではなく,先進的なステップで複数のトークンを受信可能なTrieベースの検索・検証機構を提案する。
提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。
我々は、推論加速フレームワークの適用によって達成された顕著な改善を実証するために、広範囲な実験を行う。
当社のフレームワークは2023年4月からAlipayに広くデプロイされており、注目すべき2.66倍から6.26倍のスピードアップを実現しています。
私たちのコードはhttps://github.com/alipay/PainlessInferenceAccelerationで利用可能です。
As Large Language Models (LLMs) have made significant advancements across various tasks, such as question answering, translation, text summarization, and dialogue systems, the need for accuracy in information becomes crucial, especially for serious financial products serving billions of users like Alipay. However, for a real-world product serving millions of users, the inference speed of LLMs becomes a critical factor compared to a mere experimental model. Hence, this paper presents a generic framework for accelerating the inference process, resulting in a substantial increase in speed and cost reduction for our LLM-based scenarios, with lossless generation accuracy. In the traditional inference process, each token is generated sequentially by the LLM, leading to a time consumption proportional to the number of generated tokens. To enhance this process, our framework, named \textit{lookahead}, introduces a \textit{multi-branch} strategy. Instead of generating a single token at a time, we propose a Trie-based retrieval and verification mechanism to be able to accept several tokens at a forward step. Our strategy offers two distinct advantages: (1) it guarantees absolute correctness of the output, avoiding any approximation algorithms, and (2) the worst-case performance of our approach is equivalent to the conventional process. We conduct extensive experiments to demonstrate the significant improvements achieved by applying our inference acceleration framework. Our framework is widely deployed in Alipay since April 2023, and obtain remarkable 2.66x to 6.26x speedup. Our code is available at https://github.com/alipay/PainlessInferenceAcceleration. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# 磁気トンネル接合を用いたランダムアクセスメモリの実証実験
Experimental demonstration of magnetic tunnel junction-based computational random-access memory ( http://arxiv.org/abs/2312.14264v3 ) ライセンス: Link先を確認 | Yang Lv, Brandon R. Zink, Robert P. Bloom, Hüsrev Cılasun, Pravin Khanal, Salonik Resch, Zamshed Chowdhury, Ali Habiboglu, Weigang Wang, Sachin S. Sapatnekar, Ulya Karpuzcu, Jian-Ping Wang, | (参考訳) 従来のコンピューティングパラダイムは、ロジックとメモリモジュール間の一定のデータ転送によって電力とエネルギーが消費されるため、新興アプリケーション、特にマシンインテリジェンスに対する要求が急速に増大するのに苦労している。
計算ランダムアクセスメモリ (Computational random- Access memory, CRAM) と呼ばれる新しいパラダイムが、この基本的な制限に対処するために登場した。
CRAMは、データがメモリを離れることなく、メモリセルを直接使用するロジック操作を実行する。
従来のCRAMと先進的なアプリケーションの両方において,CRAMのエネルギと性能の利点は,従来の数値研究によってよく確立されている。
しかし、CRAMの計算精度を評価するための実験的な実証や研究は欠けており、これはその技術的実現可能性と競争性のための現実的でアプリケーションクリティカルな指標である。
本研究では,磁気トンネル接合(MTJ)に基づくCRAMアレイ実験を行った。
まず, 2-, 3-, 5-インプット論理演算と同様に, 基本的なメモリ演算について検討する。
次に、2つの異なる設計の1ビットフル加算器を示す。
実験結果に基づいて,CRAM計算の精度を特徴付けるためのモデリングスイートが開発された。
従来のインテリジェンスアプリケーションやマシンインテリジェンスアプリケーションにおいて重要なビルディングブロックであるスカラ加算,乗算,行列乗算が評価され,有望な精度性能を示す。
MTJベースのCRAMの精度の確認により、この技術が機械知能の電力およびエネルギー需要の応用に大きな影響を与えるという強いケースがある。
Conventional computing paradigm struggles to fulfill the rapidly growing demands from emerging applications, especially those for machine intelligence, because much of the power and energy is consumed by constant data transfers between logic and memory modules. A new paradigm, called "computational random-access memory (CRAM)" has emerged to address this fundamental limitation. CRAM performs logic operations directly using the memory cells themselves, without having the data ever leave the memory. The energy and performance benefits of CRAM for both conventional and emerging applications have been well established by prior numerical studies. However, there lacks an experimental demonstration and study of CRAM to evaluate its computation accuracy, which is a realistic and application-critical metrics for its technological feasibility and competitiveness. In this work, a CRAM array based on magnetic tunnel junctions (MTJs) is experimentally demonstrated. First, basic memory operations as well as 2-, 3-, and 5-input logic operations are studied. Then, a 1-bit full adder with two different designs is demonstrated. Based on the experimental results, a suite of modeling has been developed to characterize the accuracy of CRAM computation. Scalar addition, multiplication, and matrix multiplication, which are essential building blocks for many conventional and machine intelligence applications, are evaluated and show promising accuracy performance. With the confirmation of MTJ-based CRAM's accuracy, there is a strong case that this technology will have a significant impact on power- and energy-demanding applications of machine intelligence. | 翻訳日:2024-05-31 23:32:48 公開日:2024-05-30 |
# マルチビューデカップリングによる低リソース関係表現の強化
Enhancing Low-Resource Relation Representations through Multi-View Decoupling ( http://arxiv.org/abs/2312.17267v4 ) ライセンス: Link先を確認 | Chenghao Fan, Wei Wei, Xiaoye Qu, Zhenyi Lu, Wenfeng Xie, Yu Cheng, Dangyang Chen, | (参考訳) 近年,プレトレーニング言語モデル (PLM) を用いたプロンプトチューニングにより,関係抽出(RE)タスクの大幅な向上が示されている。
しかし、利用可能なトレーニングデータが不足している低リソースのシナリオでは、従来のプロンプトベースの手法は、その関係を表面的に理解しているため、プロンプトベースの表現学習では依然として不十分である。
そこで我々は,REの低リソースシナリオにおける高品質な関係表現の学習の重要性を強調し,低リソースのプロンプトチューニングパラダイムにおけるREの性能向上のために,PLMのキャパシティを向上するために,MVRE(\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction)と呼ばれる新しいプロンプトベースの関係表現手法を提案する。
具体的には、MVREは各関係を異なる視点に分離し、関係推論における可能性の最大化のための多視点関係表現を包含する。
さらに,最適化学習過程と初期化過程における関係ラベルのセマンティクスを含む,多視点関係表現仮想単語のアライメントを改善するためのグローバルローカロスと動的初期化手法も設計する。
3つのベンチマークデータセットの大規模な実験により、我々の手法は低リソース環境で最先端を達成できることが示されている。
Recently, prompt-tuning with pre-trained language models (PLMs) has demonstrated the significantly enhancing ability of relation extraction (RE) tasks. However, in low-resource scenarios, where the available training data is scarce, previous prompt-based methods may still perform poorly for prompt-based representation learning due to a superficial understanding of the relation. To this end, we highlight the importance of learning high-quality relation representation in low-resource scenarios for RE, and propose a novel prompt-based relation representation method, named MVRE (\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction), to better leverage the capacity of PLMs to improve the performance of RE within the low-resource prompt-tuning paradigm. Specifically, MVRE decouples each relation into different perspectives to encompass multi-view relation representations for maximizing the likelihood during relation inference. Furthermore, we also design a Global-Local loss and a Dynamic-Initialization method for better alignment of the multi-view relation-representing virtual words, containing the semantics of relation labels during the optimization learning process and initialization. Extensive experiments on three benchmark datasets show that our method can achieve state-of-the-art in low-resource settings. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# LLaMA Pro: ブロック拡張によるプログレッシブなLLaMA
LLaMA Pro: Progressive LLaMA with Block Expansion ( http://arxiv.org/abs/2401.02415v2 ) ライセンス: Link先を確認 | Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ying Shan, Ping Luo, | (参考訳) 人間は一般に古いスキルを損なうことなく新しいスキルを身につけるが、LLaMAからCodeLLaMAへのLarge Language Models(LLMs)は逆である。
そこで本稿では,Transformer ブロックの拡張による LLM の事前学習手法を提案する。
我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。
本稿では,LLaMA2-7Bから初期化した汎用基盤モデルであるLLaMA Pro-8.3Bをコードと数学のコーパスとして提案する。
LLaMA Proとその命令追従系(LLaMA Pro-Instruct)は、LLaMAファミリーの既存のオープンモデルよりも優れた性能を示し、知的エージェントとして様々なタスクを推論し対処する大きな可能性を示している。
本研究は、自然言語とプログラミング言語の統合に関する貴重な知見を提供し、様々な環境で効果的に機能する高度な言語エージェントを開発するための基盤を築き上げている。
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 空中画像におけるCLIP-Guided Source-Free Object Detection
CLIP-Guided Source-Free Object Detection in Aerial Images ( http://arxiv.org/abs/2401.05168v2 ) ライセンス: Link先を確認 | Nanqing Liu, Xun Xu, Yongyi Su, Chengxin Liu, Peiliang Gong, Heng-Chao Li, | (参考訳) これらの画像の視覚的表現は、地理的な位置、時間、気象条件などによって大きく異なるため、航空画像においてはドメイン適応が不可欠である。
加えて、高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
これらの課題に対処するため、我々は新しいソースフリーオブジェクト検出法(SFOD)を提案する。
具体的には,本手法は,ベースライン手法の性能を大幅に向上させる自己学習フレームワークから始める。
自己学習における雑音ラベルを緩和するため,CLIP-guided Aggregation(CGA)と呼ばれる擬似ラベルの生成をCLIP(Contrastive Language- Image Pre-training)を用いて指導する。
CLIPのゼロショット分類機能を利用することで、そのスコアを予測された元のバウンディングボックスに集約し、擬似ラベルの洗練されたスコアを得ることができる。
提案手法の有効性を検証するため,DIOR-C と DIOR-Cloudy という,DIOR データセットに基づく2つの新しいデータセットを構築した。
実験により,本手法は他の比較アルゴリズムよりも優れていることが示された。
コードはhttps://github.com/Lans1ng/SFOD-RSで公開されている。
Domain adaptation is crucial in aerial imagery, as the visual representation of these images can significantly vary based on factors such as geographic location, time, and weather conditions. Additionally, high-resolution aerial images often require substantial storage space and may not be readily accessible to the public. To address these challenges, we propose a novel Source-Free Object Detection (SFOD) method. Specifically, our approach begins with a self-training framework, which significantly enhances the performance of baseline methods. To alleviate the noisy labels in self-training, we utilize Contrastive Language-Image Pre-training (CLIP) to guide the generation of pseudo-labels, termed CLIP-guided Aggregation (CGA). By leveraging CLIP's zero-shot classification capability, we aggregate its scores with the original predicted bounding boxes, enabling us to obtain refined scores for the pseudo-labels. To validate the effectiveness of our method, we constructed two new datasets from different domains based on the DIOR dataset, named DIOR-C and DIOR-Cloudy. Experimental results demonstrate that our method outperforms other comparative algorithms. The code is available at https://github.com/Lans1ng/SFOD-RS. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# Patchscopes: 隠れた言語モデルの表現を検査するための統一フレームワーク
Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models ( http://arxiv.org/abs/2401.06102v3 ) ライセンス: Link先を確認 | Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva, | (参考訳) 大きな言語モデル(LLM)の内部表現を理解することは、モデルの振る舞いを説明し、人間の値との整合性を検証するのに役立つ。
人間の理解可能なテキストを生成する上でのLLMの能力を考えると,モデル自体を自然言語で内部表現を説明するために活用することを提案する。
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,従来の表現を語彙空間に投影し,LLM計算に介入する手法の多くを,このフレームワークの例とみなすことができることを示す。
さらに、初期層検査の失敗や表現力の欠如といった欠点を、パッチスコープによって緩和することができる。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明する、マルチホップ推論エラー修正などの新しい可能性も開放している。
Understanding the internal representations of large language models (LLMs) can help explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of questions about an LLM's computation. We show that many prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation can be viewed as instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by Patchscopes. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and multihop reasoning error correction. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 薄膜ニオブ酸リチウムをドープした希土類イオンを用いたキャビティ増幅狭帯域スペクトルフィルタ
Cavity-enhanced narrowband spectral filters using rare-earth ions doped in thin-film lithium niobate ( http://arxiv.org/abs/2401.09655v2 ) ライセンス: Link先を確認 | Yuqi Zhao, Dylan Renaud, Demitry Farfurnik, Yuxi Jiang, Subhojit Dutta, Neil Sinclair, Marko Loncar, Edo Waks, | (参考訳) オンチップ光フィルタは光信号処理の基本的なコンポーネントである。
希土類イオンドープ結晶は、スペクトルホールバーニングによる超狭光フィルタリングを提供するが、その用途は主にバルク結晶の使用に限られており、実用性は制限されている。
本研究では, 非線形光学プラットフォームにおいて, 希土類イオンを用いた共振器型スペクトルフィルタリングを実演する。
希土類イオンを薄膜ニオブ酸リチウムにパターン化した高品質のリング共振器に組み込んだ。
臨界結合共鳴モードでのスペクトルホールバーニングにより、7MHzの線幅、13.0dBの13.0dBから24MHzの線幅、20.4dBの20.4dBまでの帯域通過フィルタを実現する。
フォノン拡張を除去するために温度を100mKに下げることで、681kHzのより狭い線幅を実現した。
さらに、キャビティ結合率を変化させることで、再構成可能なフィルタリングを可能にする。
例えば、帯域通過フィルタとは対照的に、アンダーカップリングリング共振器を用いた帯域通過フィルタを実演する。
このような多用途統合スペクトルフィルタは、光信号処理や光メモリのオン・ア・チップの基本的な構成要素として機能する。
On-chip optical filters are fundamental components in optical signal processing. While rare-earth ion-doped crystals offer ultra-narrow optical filtering via spectral hole burning, their applications have primarily been limited to those using bulk crystals, restricting their utility. In this work, we demonstrate cavity-enhanced spectral filtering based on rare-earth ions in an integrated nonlinear optical platform. We incorporate rare-earth ions into high quality-factor ring resonators patterned in thin-film lithium niobate. By spectral hole burning at 4K in a critically coupled resonance mode, we achieve bandpass filters ranging from 7 MHz linewidth, with 13.0 dB of extinction, to 24 MHz linewidth, with 20.4 dB of extinction. By reducing the temperature to 100 mK to eliminate phonon broadening, we achieve an even narrower linewidth of 681 kHz, which is comparable to the narrowest filter linewidth demonstrated in an integrated photonic device, while only requiring a small device footprint. Moreover, the cavity enables reconfigurable filtering by varying the cavity coupling rate. For instance, as opposed to the bandpass filter, we demonstrate a bandstop filter utilizing an under-coupled ring resonator. Such versatile integrated spectral filters with high extinction ratio and narrow linewidth could serve as fundamental components for optical signal processing and optical memories on-a-chip. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 議論論における抽象重み付き直交意味論
Abstract Weighted Based Gradual Semantics in Argumentation Theory ( http://arxiv.org/abs/2401.11472v2 ) ライセンス: Link先を確認 | Assaf Libman, Nir Oren, Bruno Yun, | (参考訳) 重み付けされた漸進的意味論は、議論の強さを表す各議論に対して受け入れ可能性の度合いを与え、議論の背景証拠を含む要因に基づいて計算され、この議論と他の議論の間の相互作用を考慮に入れている。
段階的意味論と受容可能性度を結びつける4つの重要な問題を導入する。
まず、逆問題を再検討し、議論フレームワークの引数重みを特定して、特定の最終的な受容可能性の度合いを導いた。
第二に、議論重みと受理度の間の関数写像がその像に対して射影的あるいは同型であるかどうかを問う。
第三に、議論の受理度が考慮されるのではなく、選好時に議論の重みが見つかるかどうかを問う。
第4に、この空間に「ギャップ」が存在するかどうかを問う、有効な受容可能性次数の空間の位相を考える。
文献では異なる段階的意味論が提案されているが、本論文では、抽象的重み付けに基づく段階的意味論と呼ばれる、重み付けされた段階的意味論の大きなファミリーを特定する。
これらのことは既存の意味論の多くを一般化し、一意の固定点への収束のような望ましい性質を維持している。
また、抽象重み付け(L^p,\lambda,\mu)に基づく漸進的意味論と呼ばれる、重み付けされた漸進的意味論のサブファミリーが、上記の4つの問題を全て解決していることを示す。
Weighted gradual semantics provide an acceptability degree to each argument representing the strength of the argument, computed based on factors including background evidence for the argument, and taking into account interactions between this argument and others. We introduce four important problems linking gradual semantics and acceptability degrees. First, we reexamine the inverse problem, seeking to identify the argument weights of the argumentation framework which lead to a specific final acceptability degree. Second, we ask whether the function mapping between argument weights and acceptability degrees is injective or a homeomorphism onto its image. Third, we ask whether argument weights can be found when preferences, rather than acceptability degrees for arguments are considered. Fourth, we consider the topology of the space of valid acceptability degrees, asking whether "gaps" exist in this space. While different gradual semantics have been proposed in the literature, in this paper, we identify a large family of weighted gradual semantics, called abstract weighted based gradual semantics. These generalise many of the existing semantics while maintaining desirable properties such as convergence to a unique fixed point. We also show that a sub-family of the weighted gradual semantics, called abstract weighted (L^p,\lambda,\mu)-based gradual semantics and which include well-known semantics, solve all four of the aforementioned problems. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# CodeTailor:LLMを利用したパーソナライズされたパーソンがプログラミングを学習しながらサポートを拡大
CodeTailor: LLM-Powered Personalized Parsons Puzzles for Engaging Support While Learning Programming ( http://arxiv.org/abs/2401.12125v3 ) ライセンス: Link先を確認 | Xinying Hou, Zihan Wu, Xu Wang, Barbara J. Ericson, | (参考訳) プログラムを学ぶことは難しく、大規模に高品質でタイムリーなサポートを提供することは難しい。
生成AIとその製品であるChatGPTは、ほとんどのイントロレベルのプログラミング問題に対するソリューションを作成することができる。
しかし、学生はこれらのツールを使ってコードを生成するだけで、エンゲージメントが減り、学習が制限される。
本稿では,大規模言語モデル(LLM)を活用しながら,学生にパーソナライズされた支援を提供するシステムであるCodeTailorを提案する。
CodeTailorは、苦労している学生を支援するパーソンズパズルをパーソナライズする。
パーソンズパズルでは、生徒は正しい順序で混合コードブロックを配置し、問題を解く。
以前の不正な学生コードスニペットによる技術的評価は、CodeTailorが不正なコードに基づいて、高品質な(正確でパーソナライズされ、簡潔な)パーソンズパズルを提供できることを示した。
初心者プログラマ18名を対象に本研究を行った。
参加者は、CodeTailorを単にLLM生成ソリューション(ベースライン条件)を受け取るよりも、より活発だと感じた。
さらに、参加者は、ベースラインよりもCodeTailorを使用する場合、足場付きプラクティスからポストテストにより多くのサポートされた要素を適用しました。
全体として、ほとんどの参加者は、学習のためにLLM生成コードを受け取ることよりもCodeTailorを使うことを好みました。
質的な観察とインタビューは、ソリューション構築についてもっと考えること、学習の連続性を育むこと、反射を促進すること、信頼を高めることなど、CodeTailorの利点を示す証拠も提供した。
我々は、生成AI技術によるアクティブな学習機会を促進するために、将来のデザインアイデアを提案する。
Learning to program can be challenging, and providing high-quality and timely support at scale is hard. Generative AI and its products, like ChatGPT, can create a solution for most intro-level programming problems. However, students might use these tools to just generate code for them, resulting in reduced engagement and limited learning. In this paper, we present CodeTailor, a system that leverages a large language model (LLM) to provide personalized help to students while still encouraging cognitive engagement. CodeTailor provides a personalized Parsons puzzle to support struggling students. In a Parsons puzzle, students place mixed-up code blocks in the correct order to solve a problem. A technical evaluation with previous incorrect student code snippets demonstrated that CodeTailor could deliver high-quality (correct, personalized, and concise) Parsons puzzles based on their incorrect code. We conducted a within-subjects study with 18 novice programmers. Participants perceived CodeTailor as more engaging than just receiving an LLM-generated solution (the baseline condition). In addition, participants applied more supported elements from the scaffolded practice to the posttest when using CodeTailor than baseline. Overall, most participants preferred using CodeTailor versus just receiving the LLM-generated code for learning. Qualitative observations and interviews also provided evidence for the benefits of CodeTailor, including thinking more about solution construction, fostering continuity in learning, promoting reflection, and boosting confidence. We suggest future design ideas to facilitate active learning opportunities with generative AI techniques. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 不確かさを意識した言語エージェントを目指して
Towards Uncertainty-Aware Language Agent ( http://arxiv.org/abs/2401.14016v3 ) ライセンス: Link先を確認 | Jiuzhou Han, Wray Buntine, Ehsan Shareghi, | (参考訳) 言語エージェントは、外界と動的に相互作用するより汎用的な設計の中核に大規模言語モデルを置くことで、有望な成功を収めてきたが、既存のアプローチはこれらの相互作用の間に不確実性の概念を無視している。
不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。
ReActのような他のよく知られたものと比較して、我々の3つの代表的なタスク(HotpotQA、StrategyQA、MMLU)と様々なLLMサイズにわたる広範な実験は、UALAがパフォーマンスを大幅に改善する一方で、外部世界(ツールコールやトークンの削減など)への依存が著しく低いことを示している。
本分析は, エージェント微調整と比較して, UALA の大きな可能性を含む様々な知見を提供し, 不確実性の指標として, LLM の言語的信頼の信頼性の欠如を浮き彫りにしている。
While Language Agents have achieved promising success by placing Large Language Models at the core of a more versatile design that dynamically interacts with the external world, the existing approaches neglect the notion of uncertainty during these interactions. We present the Uncertainty-Aware Language Agent (UALA), a framework that orchestrates the interaction between the agent and the external world using uncertainty quantification. Compared with other well-known counterparts like ReAct, our extensive experiments across 3 representative tasks (HotpotQA, StrategyQA, MMLU) and various LLM sizes demonstrate that UALA brings a significant improvement of performance, while having a substantially lower reliance on the external world (i.e., reduced number of tool calls and tokens). Our analyses provide various insights including the great potential of UALA compared with agent fine-tuning, and underscore the unreliability of verbalised confidence of LLMs as a proxy for uncertainty. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# CaRiNG:非可逆生成過程における時間的因果表現の学習
CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process ( http://arxiv.org/abs/2401.14535v2 ) ライセンス: Link先を確認 | Guangyi Chen, Yifan Shen, Zhenhao Chen, Xiangchen Song, Yuewen Sun, Weiran Yao, Xiao Liu, Kun Zhang, | (参考訳) 時系列データにおける時間遅延因果過程の同定は、時間的ダイナミクスの把握と下流の推論に不可欠である。
最近の手法ではこれらの潜伏因果変数を頑健に識別できるが、潜伏変数から観測データへの可逆生成過程に関する厳密な仮定に依存している。
しかし、これらの仮定は情報損失を含む現実世界のアプリケーションでは満たせないことが多い。
例えば、視覚知覚プロセスは3次元空間を2次元画像に変換する。
この課題に対処するために、非線形かつ非可逆混合から来る場合でも独立な潜伏成分の回復を可能にする識別可能性理論を確立する。
本研究では, この理論を基礎として, 非可逆生成時間データのCAusal RepresentatIonを同一性保証付きで学習するためのCaRiNGを提案する。
具体的には、時間的文脈を利用して失われた潜伏情報を復元し、この理論の条件を適用してトレーニングプロセスの指導を行う。
合成データセットを用いた実験により,生成プロセスが非可逆である場合でも,CaRiNG法が因果過程を確実に同定できることを確認した。
さらに,本手法は,実践的応用における時間的理解と推論を大幅に改善することを示した。
Identifying the underlying time-delayed latent causal processes in sequential data is vital for grasping temporal dynamics and making downstream reasoning. While some recent methods can robustly identify these latent causal variables, they rely on strict assumptions about the invertible generation process from latent variables to observed data. However, these assumptions are often hard to satisfy in real-world applications containing information loss. For instance, the visual perception process translates a 3D space into 2D images, or the phenomenon of persistence of vision incorporates historical data into current perceptions. To address this challenge, we establish an identifiability theory that allows for the recovery of independent latent components even when they come from a nonlinear and non-invertible mix. Using this theory as a foundation, we propose a principled approach, CaRiNG, to learn the CAusal RepresentatIon of Non-invertible Generative temporal data with identifiability guarantees. Specifically, we utilize temporal context to recover lost latent information and apply the conditions in our theory to guide the training process. Through experiments conducted on synthetic datasets, we validate that our CaRiNG method reliably identifies the causal process, even when the generation process is non-invertible. Moreover, we demonstrate that our approach considerably improves temporal understanding and reasoning in practical applications. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 視覚検出モデルによる多モーダル大言語モデルの強化:実証的研究
Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study ( http://arxiv.org/abs/2401.17981v2 ) ライセンス: Link先を確認 | Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen, | (参考訳) テキストと画像のモダリティの統合におけるMLLM(Multimodal Large Language Models)の印象的な機能にもかかわらず、詳細なビジュアル要素を正確に解釈することは困難である。
本稿では,SOTA(State-of-the-art Object Detection)モデルとOCR(Optical Character Recognition)モデルを用いてMLLMの高機能化に関する実証的研究を行った。
本稿では,テキスト検出情報の埋め込みによる注入,MLLMの本来の能力への影響,検出モデルの交換性について検討する。
LLaVA-1.5, DINO, PaddleOCRv2, Grounding DINOなどの代表モデルを用いた系統的, 広範囲な実験を行い, 我々の単純かつ汎用的なアプローチは, きめ細かい視覚タスクにおけるMLLMの性能を洗練させるだけでなく, 元の強みも維持することを示した。
強化されたLLaVA-1.5は、オリジナルの7B/13Bモデルを10ベンチマークすべてで上回り、正規化平均スコアで最大12.5%向上した。
我々は、MLLMの細粒度マルチモーダル能力のさらなる探索を容易にするために、コードをリリースする。
Despite the impressive capabilities of Multimodal Large Language Models (MLLMs) in integrating text and image modalities, challenges remain in accurately interpreting detailed visual elements. This paper presents an empirical study on enhancing MLLMs with state-of-the-art (SOTA) object detection and Optical Character Recognition (OCR) models to improve fine-grained understanding and reduce hallucination in responses. We investigate the embedding-based infusion of textual detection information, the impact of such infusion on MLLMs' original abilities, and the interchangeability of detection models. We conduct systematic and extensive experiments with representative models such as LLaVA-1.5, DINO, PaddleOCRv2, and Grounding DINO, revealing that our simple yet general approach not only refines MLLMs' performance in fine-grained visual tasks but also maintains their original strengths. Notably, the enhanced LLaVA-1.5 outperforms its original 7B/13B models on all 10 benchmarks, achieving an improvement of up to 12.5% on the normalized average score. We release our codes to facilitate further exploration into the fine-grained multimodal capabilities of MLLMs. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# シングル・デモレーション・イミテーション・ラーニングのためのサロゲート・リワードとしてのエキスパート・プロクシミティ
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning ( http://arxiv.org/abs/2402.01057v2 ) ライセンス: Link先を確認 | Chia-Cheng Chiang, Li-Cheng Lan, Wei-Fang Sun, Chien Feng, Cho-Jui Hsieh, Chun-Yi Lee, | (参考訳) 本稿では,複数の専門家による実演の獲得にコストがかかるか不可能であり,基礎的真理報酬関数が利用できない実世界のアプリケーションのための実践的アプローチである,単項模擬学習(IL)に焦点を当てる。
複数のデモンストレーションを持つ典型的なIL設定とは対照的に、単一のデモストレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
TDILは、環境力学を考慮したより高密度なサロゲート報酬関数を導入することで、報酬空間に対処するために設計されたIRL手法である。
この代理報酬関数は、エージェントが専門家状態に近い状態に向かうことを促す。
実際には、TDILは、ある環境における有効な遷移と非無効な遷移を区別するために遷移判別器を訓練し、サロゲート報酬を計算する。
実験は、TDILが既存のILアプローチより優れており、広く採用されている5つの MuJoCo ベンチマークと "Adroit Door" ロボット環境のシングルデモ IL設定において、専門家レベルのパフォーマンスを実現していることを示した。
In this paper, we focus on single-demonstration imitation learning (IL), a practical approach for real-world applications where acquiring multiple expert demonstrations is costly or infeasible and the ground truth reward function is not available. In contrast to typical IL settings with multiple demonstrations, single-demonstration IL involves an agent having access to only one expert trajectory. We highlight the issue of sparse reward signals in this setting and propose to mitigate this issue through our proposed Transition Discriminator-based IL (TDIL) method. TDIL is an IRL method designed to address reward sparsity by introducing a denser surrogate reward function that considers environmental dynamics. This surrogate reward function encourages the agent to navigate towards states that are proximal to expert states. In practice, TDIL trains a transition discriminator to differentiate between valid and non-valid transitions in a given environment to compute the surrogate rewards. The experiments demonstrate that TDIL outperforms existing IL approaches and achieves expert-level performance in the single-demonstration IL setting across five widely adopted MuJoCo benchmarks as well as the "Adroit Door" robotic environment. | 翻訳日:2024-05-31 23:23:04 公開日:2024-05-30 |
# 回答を超えて:大規模言語モデルの評価のための複数質問回答の合理性の検討
Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models ( http://arxiv.org/abs/2402.01349v2 ) ライセンス: Link先を確認 | Haochun Wang, Sendong Zhao, Zewen Qiang, Nuwa Xi, Bing Qin, Ting Liu, | (参考訳) 自然言語処理(NLP)の分野では、Large Language Models(LLM)がパラダイムシフトを引き起こし、自然言語生成タスクのパフォーマンスが著しく向上した。
これらの進歩にもかかわらず、LLMの総合的な評価は、コミュニティにとって必然的な課題である。
近年,LLMのベンチマークとしてMultiple Choice Question Answering (MCQA) が注目されている。
本研究はまず, MCQAの限界をLCMの評価方法として検討し, MCQAの限界の根本的な理由を解析する。
最後に, MCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案し, モデルの性能をより正確に反映し, LLMの性能を評価する上で, より堅牢な評価機構の必要性を浮き彫りにしている。
In the field of natural language processing (NLP), Large Language Models (LLMs) have precipitated a paradigm shift, markedly enhancing performance in natural language generation tasks. Despite these advancements, the comprehensive evaluation of LLMs remains an inevitable challenge for the community. Recently, the utilization of Multiple Choice Question Answering (MCQA) as a benchmark for LLMs has gained considerable traction. This study first investigates the limitations of MCQA as an evaluation method for LLMs and then analyzes the fundamental reason for the limitations of MCQA, that while LLMs may select the correct answers, it is possible that they also recognize other wrong options as correct. Finally, we propose a dataset augmenting method for Multiple-Choice Questions (MCQs), MCQA+, that can more accurately reflect the performance of the model, which underscores the need for more robust evaluation mechanisms in assessing the performance of LLMs. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# アップデートのオンライン学習を通じてAdam Optimizerを理解する:AdamはFTRLである
Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise ( http://arxiv.org/abs/2402.01567v2 ) ライセンス: Link先を確認 | Kwangjun Ahn, Zhiyu Zhang, Yunbum Kook, Yan Dai, | (参考訳) アダム・オプティマイザが実際に成功したにも拘わらず、アルゴリズムの構成要素に関する理論的理解は依然として限られている。
特に、Adamの既存の分析のほとんどは、SGDのような非適応的アルゴリズムによって簡単に達成できる収束率を示している。
本研究では,Adamのアルゴリズム的コンポーネントの重要性を浮き彫りにするオンライン学習に基づく異なる視点を提供する。
Cutkoskyらにインスパイアされた2023年、我々はオンライン学習と呼ばれるフレームワークを検討し、オンライン学習者に基づいて最適化者の更新/増分を選択する。
このフレームワークにより、優れたオプティマイザの設計は、優れたオンライン学習者の設計に還元される。
我々は、AdamがFTRL(Follow-the-Regularized-Leader)と呼ばれる原則付きオンライン学習フレームワークに対応していると考えている。
この観察に基づいて,オンライン学習の観点からアルゴリズム成分の利点を考察する。
Despite the success of the Adam optimizer in practice, the theoretical understanding of its algorithmic components still remains limited. In particular, most existing analyses of Adam show the convergence rate that can be simply achieved by non-adative algorithms like SGD. In this work, we provide a different perspective based on online learning that underscores the importance of Adam's algorithmic components. Inspired by Cutkosky et al. (2023), we consider the framework called online learning of updates/increments, where we choose the updates/increments of an optimizer based on an online learner. With this framework, the design of a good optimizer is reduced to the design of a good online learner. Our main observation is that Adam corresponds to a principled online learning framework called Follow-the-Regularized-Leader (FTRL). Building on this observation, we study the benefits of its algorithmic components from the online learning perspective. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# InferCept: 拡張された大言語モデル推論のための効率的なインターセプションサポート
InferCept: Efficient Intercept Support for Augmented Large Language Model Inference ( http://arxiv.org/abs/2402.01869v2 ) ライセンス: Link先を確認 | Reyna Abhyankar, Zijian He, Vikranth Srivatsa, Hao Zhang, Yiying Zhang, | (参考訳) 大きな言語モデルは、言語中心のタスクを超えて機能を拡張するために、ChatGPTプラグインのような外部環境、ツール、エージェントとますます統合されています。
しかし、今日のLLM推論システムはスタンドアロンのLLM向けに設計されている。
彼らは、それぞれの外部相互作用をLCM生成の終端として扱い、相互作用が終了すると新しい要求を形成し、既に計算済みのコンテキストを不必要に再計算し、これは全体のモデル転送時間の37-40%を占める。
本稿では,拡張LDMを対象とした最初のLLM推論フレームワークであるInferCeptについて述べる。
InferCeptは、LLMインターセプションによるGPUリソースの無駄を最小化し、より多くのリクエストを処理するために保存されたメモリを割り当てる。
InferCeptはサービス全体のスループットを1.6x-2x改善し、最先端のLCM推論システムと比較して毎秒2倍のリクエストを処理します。
Large language models are increasingly integrated with external environments, tools, and agents like ChatGPT plugins to extend their capability beyond language-centric tasks. However, today's LLM inference systems are designed for standalone LLMs. They treat each external interaction as the end of LLM generation and form a new request when the interaction finishes, causing unnecessary recomputation of already computed contexts, which accounts for 37-40% of total model forwarding time. This paper presents InferCept, the first LLM inference framework targeting augmented LLMs and supporting the efficient interception of LLM generation. InferCept minimizes the GPU resource waste caused by LLM interceptions and dedicates saved memory for serving more requests. InferCept improves the overall serving throughput by 1.6x-2x and completes 2x more requests per second compared to the state-of-the-art LLM inference systems. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# データセットのポリトープ構造によるニューラルネットワークアーキテクチャの定義
Defining Neural Network Architecture through Polytope Structures of Dataset ( http://arxiv.org/abs/2402.02407v2 ) ライセンス: Link先を確認 | Sangmin Lee, Abbas Mammadov, Jong Chul Ye, | (参考訳) ニューラルネットワークにおける現在の理論的および実証的研究は、複雑なデータセットは完全な分類のために大規模なネットワークアーキテクチャを必要とすることを示唆しているが、この関係の正確な性質はいまだ不明である。
本稿では、ニューラルネットワーク幅の上下境界を定義することでこの問題に対処し、問題となるデータセットのポリトープ構造から情報を得る。
また、これらの原理を単純な複素数や特定の多様体形状に適用し、データセットの幾何学的複雑さに応じてネットワーク幅の要求がどう変化するかを説明する。
さらに,学習したニューラルネットワークからデータセットのポリトープ構造を推定できる逆条件を探索するアルゴリズムを開発した。
本アルゴリズムにより,MNIST,Fashion-MNIST,CIFAR10などの一般的なデータセットを,顔数が少ない2つのポリトープで効率的にカプセル化できることが確認された。
Current theoretical and empirical research in neural networks suggests that complex datasets require large network architectures for thorough classification, yet the precise nature of this relationship remains unclear. This paper tackles this issue by defining upper and lower bounds for neural network widths, which are informed by the polytope structure of the dataset in question. We also delve into the application of these principles to simplicial complexes and specific manifold shapes, explaining how the requirement for network width varies in accordance with the geometric complexity of the dataset. Moreover, we develop an algorithm to investigate a converse situation where the polytope structure of a dataset can be inferred from its corresponding trained neural networks. Through our algorithm, it is established that popular datasets such as MNIST, Fashion-MNIST, and CIFAR10 can be efficiently encapsulated using no more than two polytopes with a small number of faces. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# DeepLag: 直観的流体予測のためのディープラグランジアンダイナミクスの発見
DeepLag: Discovering Deep Lagrangian Dynamics for Intuitive Fluid Prediction ( http://arxiv.org/abs/2402.02425v2 ) ライセンス: Link先を確認 | Qilong Ma, Haixu Wu, Lanxiang Xing, Shangchen Miao, Mingsheng Long, | (参考訳) 将来の流体を正確に予測することは、気象学、海洋学、空気力学など幅広い分野において不可欠である。
しかしながら、流体は通常ユーレウスの視点で観測されるため、その動きと複雑なダイナミクスは深刻な曖昧さと静的な格子にまとめられ、予測に厄介な挑戦をもたらす。
本稿では, タングルサム流体力学に対処する新しいラグランジアン・ユーレリア複合パラダイムを提案する。
ユーレアン観測に基づいて未来を予測するのではなく、適応的にサンプリングされた鍵粒子の動きを追跡することによって流体中の隠れたラグランジアンダイナミクスを発見するディープラグを提案する。
DeepLagは、追跡された粒子のラグランジアン運動をユーレアン観測から推定し、その蓄積したラグランジアンダイナミクス情報を、それぞれ将来の予測を導くためにグローバルユーレアン進化特徴に組み込むという提案を利用している。
キー粒子の追跡は、流体力学の透明かつ解釈可能な手がかりを提供するだけでなく、我々のモデルは、大規模グリッド間の複雑な相関をモデル化することなく、効率を向上する。
実験では、DeepLagは2Dと3D、シミュレートされた実世界の流体をカバーする3つの挑戦的な流体予測タスクに優れています。
Accurately predicting the future fluid is vital to extensive areas such as meteorology, oceanology, and aerodynamics. However, since the fluid is usually observed from an Eulerian perspective, its moving and intricate dynamics are seriously obscured and confounded in static grids, bringing thorny challenges to the prediction. This paper introduces a new Lagrangian-Eulerian combined paradigm to tackle the tanglesome fluid dynamics. Instead of solely predicting the future based on Eulerian observations, we propose DeepLag to discover hidden Lagrangian dynamics within the fluid by tracking the movements of adaptively sampled key particles. DeepLag utilizes the proposed where the Lagrangian movement of the tracked particles is inferred from Eulerian observations, and their accumulated Lagrangian dynamics information is incorporated into global Eulerian evolving features to guide future prediction respectively. Tracking key particles not only provides a transparent and interpretable clue for fluid dynamics but also makes our model free from modeling complex correlations among massive grids for better efficiency. Experimentally, DeepLag excels in three challenging fluid prediction tasks covering 2D and 3D, simulated and real-world fluids. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# LQER:LLMの低域量子化誤差再構成
LQER: Low-Rank Quantization Error Reconstruction for LLMs ( http://arxiv.org/abs/2402.02446v3 ) ライセンス: Link先を確認 | Cheng Zhang, Jianyi Cheng, George A. Constantinides, Yiren Zhao, | (参考訳) 大規模言語モデル(LLM)の学習後の量子化は困難である。
本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。
LQERは、アクティベーション誘起スケール行列を利用して量子化誤差の特異値分布を所望の分布に向けて駆動し、知識蒸留、グリッド探索、勾配ベース反復最適化を必要とせずに、様々なLLMおよび下流タスクにおけるほぼ無数のW4A8量子化を可能にする。
既存の方法とは異なり、LQERの計算パターンは、不規則なメモリ位置から高精度な重みを収集する特別なScatterおよびGatherプロセスを必要としない。
我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為なパフォーマンスを実現し、一方1.36$\times$のハードウェアリソースは最先端の最先端手法よりも少ない。
私たちはフレームワークをhttps://github.com/ChengZhang-98/lqerでオープンソース化しました。
Post-training quantization of Large Language Models (LLMs) is challenging. In this work, we introduce Low-rank Quantization Error Reduction (LQER), which combines quantization and low-rank approximation to recover the model capability. LQER leverages an activation-induced scale matrix to drive the singular value distribution of quantization error towards a desirable distribution, which enables nearly-lossless W4A8 quantization on various LLMs and downstream tasks without the need for knowledge distillation, grid search, or gradient-base iterative optimization. Unlike existing methods, the computation pattern of LQER eliminates the need for specialized Scatter and Gather processes to collect high-precision weights from irregular memory locations. Our W4A8 LLMs achieve near-lossless performance on six popular downstream tasks, while using 1.36$\times$ fewer hardware resources than the leading state-of-the-art method. We open-source our framework at https://github.com/ChengZhang-98/lqer | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# マルチリージョンマルコフガウス過程:複数の脳領域にわたる指向性コミュニケーションを効果的に発見する方法
Multi-Region Markovian Gaussian Process: An Efficient Method to Discover Directional Communications Across Multiple Brain Regions ( http://arxiv.org/abs/2402.02686v3 ) ライセンス: Link先を確認 | Weihan Li, Chengrui Li, Yule Wang, Anqi Wu, | (参考訳) 異なる脳領域間の複雑な相互作用を研究することは神経科学において重要である。
様々な統計的手法が複数の脳領域にわたる潜伏通信を調査している。
主なカテゴリはガウス過程(GP)と線形力学系(LDS)である。
GPに基づくアプローチは、周波数帯域と通信方向を持つ潜伏変数を効果的に発見する。
逆に、LDSベースのアプローチは計算効率が良いが、潜在表現には強力な表現力がない。
本研究では,Multi-Region Markovian Gaussian Process (MRM-GP) と呼ばれる多出力GPをミラーするLSDを作成することにより,両手法をマージする。
我々の研究は、LDSとマルチ出力GPの接続を確立し、ニューラル記録の潜在空間内の周波数と位相遅延を明示的にモデル化する。
その結果、モデルは時間点よりも線形推論コストを達成し、解釈可能な低次元表現を提供し、脳領域間の通信方向を明らかにし、発振通信を異なる周波数帯域に分離する。
Studying the complex interactions between different brain regions is crucial in neuroscience. Various statistical methods have explored the latent communication across multiple brain regions. Two main categories are the Gaussian Process (GP) and Linear Dynamical System (LDS), each with unique strengths. The GP-based approach effectively discovers latent variables with frequency bands and communication directions. Conversely, the LDS-based approach is computationally efficient but lacks powerful expressiveness in latent representation. In this study, we merge both methodologies by creating an LDS mirroring a multi-output GP, termed Multi-Region Markovian Gaussian Process (MRM-GP). Our work establishes a connection between an LDS and a multi-output GP that explicitly models frequencies and phase delays within the latent space of neural recordings. Consequently, the model achieves a linear inference cost over time points and provides an interpretable low-dimensional representation, revealing communication directions across brain regions and separating oscillatory communications into different frequency bands. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# 思考の不確実性:不確実性を考慮した計画は大規模言語モデルにおける情報探索を促進する
Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models ( http://arxiv.org/abs/2402.03271v2 ) ライセンス: Link先を確認 | Zhiyuan Hu, Chumin Liu, Xidong Feng, Yilun Zhao, See-Kiong Ng, Anh Tuan Luu, Junxian He, Pang Wei Koh, Bryan Hooi, | (参考訳) 不確実性に直面している場合、情報を見る能力*は基本的な重要性です。
医療診断やトラブルシューティングなどの多くの実践的応用において、この課題を解決するために必要な情報は、当初は提供されず、フォローアップ質問(例えば、患者に症状の詳細を尋ねる医師)によって積極的に探さなければならない。
本研究では,大規模言語モデルを拡張するアルゴリズムであるUncertainty of Thoughts(UoT)を紹介する。
UoTが組み合わさる
1) *不確実性を考慮したシミュレーションアプローチ*により、モデルが将来のシナリオをシミュレートし、それがどの程度起こりうるかをシミュレートすることができる。
2)*不確実性に基づく報奨* 情報ゲインによって動機づけられたモデルに情報を求める動機を与え、
3) 期待される報酬を最大化する方法で質問する最適な質問を選択するための* 逆伝搬方式* である。
医療診断、トラブルシューティング、そして『20の質問』ゲームの実験において、UoTは、直接的プロンプトと比較すると、複数のLSMでタスク完了を成功させる確率が平均38.1%向上し、効率も向上する(すなわち、タスク完了に必要な質問数)。
私たちのコードはリリースされました(https://github.com/zhiyuanhubj/UoT)。
In the face of uncertainty, the ability to *seek information* is of fundamental importance. In many practical applications, such as medical diagnosis and troubleshooting, the information needed to solve the task is not initially given and has to be actively sought by asking follow-up questions (for example, a doctor asking a patient for more details about their symptoms). In this work, we introduce Uncertainty of Thoughts (UoT), an algorithm to augment large language models with the ability to actively seek information by asking effective questions. UoT combines 1) an *uncertainty-aware simulation approach* which enables the model to simulate possible future scenarios and how likely they are to occur, 2) *uncertainty-based rewards* motivated by information gain which incentivizes the model to seek information, and 3) a *reward propagation scheme* to select the optimal question to ask in a way that maximizes the expected reward. In experiments on medical diagnosis, troubleshooting, and the `20 Questions` game, UoT achieves an average performance improvement of 38.1% in the rate of successful task completion across multiple LLMs compared with direct prompting and also improves efficiency (i.e., the number of questions needed to complete the task). Our code has been released [here](https://github.com/zhiyuanhubj/UoT) | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# トレーニングフリーのテキスト・ツー・イメージ生成
Training-Free Consistent Text-to-Image Generation ( http://arxiv.org/abs/2402.03286v3 ) ライセンス: Link先を確認 | Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon, | (参考訳) テキスト・ツー・イメージのモデルは、ユーザーが自然言語を通じて画像生成プロセスをガイドできるようにすることで、新しいレベルの創造的柔軟性を提供する。
しかし、これらのモデルを用いて様々なプロンプトで同じ主題を一貫して表現することは依然として困難である。
既存のアプローチでは、モデルを微調整して、特定のユーザが提供する対象を記述した新しい単語を教えたり、モデルにイメージコンディショニングを追加する。
これらの手法には、オブジェクトごとの長い最適化や大規模な事前学習が必要である。
さらに、生成した画像をテキストプロンプトと整合させるのに苦労し、複数の主題を描くのに困難に直面した。
本稿では、事前訓練されたモデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
本稿では、画像間の主観的一貫性を促進するために、主観駆動型共有注意ブロックと対応型特徴注入を導入する。
さらに,主観的整合性を維持しつつ,レイアウトの多様性を促進する戦略も開発している。
ConsiStoryをさまざまなベースラインと比較し、単一の最適化ステップを必要とせずに、主題の一貫性とテキストアライメントに対する最先端のパフォーマンスを実証する。
最後に、ConsiStoryは自然にマルチオブジェクトのシナリオに拡張でき、一般的なオブジェクトに対するトレーニング不要のパーソナライズも可能である。
Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# コールドスタート初級インクリメンタルラーニングのための弾性的特徴統合
Elastic Feature Consolidation for Cold Start Exemplar-Free Incremental Learning ( http://arxiv.org/abs/2402.03917v3 ) ライセンス: Link先を確認 | Simone Magistri, Tomaso Trinci, Albin Soutif-Cormerais, Joost van de Weijer, Andrew D. Bagdanov, | (参考訳) Exemplar-Free Class Incremental Learning (EFCIL) は、タスクのシーケンスから以前のタスクデータにアクセスすることなく学習することを目的としている。
本稿では,高品質なバックボーンを学習する最初のタスクにおいて,不十分なデータが利用できるという,コールドスタートの難しさについて考察する。
これはEFCILにとって特に困難である。これは高可塑性を必要とするためであり、結果として特徴のドリフトが生じ、非現代的な環境では補うのが困難である。
この問題に対処するために,従来のタスクに強く関連する方向のドリフトを規則化し,特徴表現を統合するための簡易かつ効果的な手法を提案する。
提案手法は,EFC (Elastic Feature Consolidation) と呼ばれ,経験的特徴行列 (EFM) に基づく特徴ドリフトの抽出可能な2次近似を利用する。
EFMは、重要な方向における特徴ドリフトの正則化や、新しい非対称なクロスエントロピー損失に使用されるガウスプロトタイプの更新に使用する擬似的特徴空間を誘導し、新しいタスクのデータとプロトタイプのリハーサルを効果的にバランスさせる。
CIFAR-100、Tiny-ImageNet、ImageNet-Subset、ImageNet-1Kの実験結果から、弾性的特徴統合は、モデルの可塑性を維持し、最先端技術を大幅に上回ることによって、新しいタスクを学習できることを示した。
Exemplar-Free Class Incremental Learning (EFCIL) aims to learn from a sequence of tasks without having access to previous task data. In this paper, we consider the challenging Cold Start scenario in which insufficient data is available in the first task to learn a high-quality backbone. This is especially challenging for EFCIL since it requires high plasticity, which results in feature drift which is difficult to compensate for in the exemplar-free setting. To address this problem, we propose a simple and effective approach that consolidates feature representations by regularizing drift in directions highly relevant to previous tasks and employs prototypes to reduce task-recency bias. Our method, called Elastic Feature Consolidation (EFC), exploits a tractable second-order approximation of feature drift based on an Empirical Feature Matrix (EFM). The EFM induces a pseudo-metric in feature space which we use to regularize feature drift in important directions and to update Gaussian prototypes used in a novel asymmetric cross entropy loss which effectively balances prototype rehearsal with data from new tasks. Experimental results on CIFAR-100, Tiny-ImageNet, ImageNet-Subset and ImageNet-1K demonstrate that Elastic Feature Consolidation is better able to learn new tasks by maintaining model plasticity and significantly outperform the state-of-the-art. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# Tag-LLM:特殊ドメインのための汎用LLMの再利用
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains ( http://arxiv.org/abs/2402.05140v2 ) ライセンス: Link先を確認 | Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi, | (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
しかし、その能力は、身体科学や生物医学など、事前訓練されたコーパスにおいて、高度に専門化された領域において低下した。
本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
LLMの埋め込み層に付加される連続ベクトルとしてパラメータ化されるカスタム入力タグを学習するための,新しいモデルに依存しないフレームワークを提案する。
ドメインタグは、特殊表現(例えば、化学式)を分離し、ドメイン関連コンテキストを提供するのに使われ、関数タグは特定の関数(例えば、分子特性の予測)を表現し、関数解決命令を圧縮するために使用される。
補助データとドメイン知識を用いて,これらのタグを学習するための3段階のプロトコルを開発した。
タスクドメインをタスク関数から明示的に切り離すことにより、入力タグの多種多様な組み合わせによってゼロショットの一般化による問題発見を可能にする。
また、タンパク質や化学的性質の予測や薬物と標的の相互作用のモデリングなど、様々な専門分野におけるLLMのパフォーマンスも向上し、これらのタスクに適した専門家モデルよりも優れています。
Large Language Models (LLMs) have demonstrated remarkable proficiency in understanding and generating natural language. However, their capabilities wane in highly specialized domains underrepresented in the pretraining corpus, such as physical and biomedical sciences. This work explores how to repurpose general LLMs into effective task solvers for specialized domains. We introduce a novel, model-agnostic framework for learning custom input tags, which are parameterized as continuous vectors appended to the LLM's embedding layer, to condition the LLM. We design two types of input tags: domain tags are used to delimit specialized representations (e.g., chemical formulas) and provide domain-relevant context; function tags are used to represent specific functions (e.g., predicting molecular properties) and compress function-solving instructions. We develop a three-stage protocol to learn these tags using auxiliary data and domain knowledge. By explicitly disentangling task domains from task functions, our method enables zero-shot generalization to unseen problems through diverse combinations of the input tags. It also boosts LLM's performance in various specialized domains, such as predicting protein or chemical properties and modeling drug-target interactions, outperforming expert models tailored to these tasks. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-30 |
# 離散化と特徴選択による表データの解釈可能な分類器
Interpretable classifiers for tabular data via discretization and feature selection ( http://arxiv.org/abs/2402.05680v2 ) ライセンス: Link先を確認 | Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander, | (参考訳) 表データから人間の解釈可能かつ正確な分類器を即座に計算する手法を提案する。
得られた分類器は短いブール式であり、最初に元のデータを離散化して計算し、それから非常に高速なアルゴリズムと組み合わせて設定のための最良のブール分類器を生成する。
この手法を13の実験によって実証し、ランダムな森林、XGBoost、および文献における同じデータセットに対する既存の結果と同等の精度で結果を得る。
ほとんどの場合、本研究の主な目的は分類器の即時解釈可能性であるにもかかわらず、本手法の精度は参照手法の精度と実際に類似している。
また、実生活データから得られる分類器が、そのデータから得られる背景分布に対して理想的に最良の分類器に対応する確率について、新しい結果を示す。
We introduce a method for computing immediately human interpretable yet accurate classifiers from tabular data. The classifiers obtained are short Boolean formulas, computed via first discretizing the original data and then using feature selection coupled with a very fast algorithm for producing the best possible Boolean classifier for the setting. We demonstrate the approach via 13 experiments, obtaining results with accuracies comparable to ones obtained via random forests, XGBoost, and existing results for the same datasets in the literature. In most cases, the accuracy of our method is in fact similar to that of the reference methods, even though the main objective of our study is the immediate interpretability of our classifiers. We also prove a new result on the probability that the classifier we obtain from real-life data corresponds to the ideally best classifier with respect to the background distribution the data comes from. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 依存学習理論におけるシャープレート:正方形損失に対するサンプルサイズデフレを回避する
Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss ( http://arxiv.org/abs/2402.05928v2 ) ライセンス: Link先を確認 | Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni, | (参考訳) 本研究では、仮説クラス$\mathscr{F}\subset L_{\Psi_p}$において、従属する(\beta$-mixing)データと平方損失を持つ統計学習について研究する。そこで、$\Psi_p$はノルム$\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$である。
本研究の動機は, 依存データを用いた学習において, シャープノイズ相互作用項, 分散プロキシを探索することにある。
任意の実現可能性の仮定を欠いて、典型的な非漸近的な結果は、基礎となる共変量過程の混合時間によって重畳される分散プロキシを示す。
L^2$ と $\Psi_p$ の位相が我々の仮説類 $\mathscr{F}$ -- つまり、$\mathscr{F}$ は弱準ガウス類であることを示す: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- 経験的リスク最小化は、その先行項におけるクラスと二階統計の複雑さにのみ依存する率を達成する。
混合への直接的な依存は加法的高次項に還元されるので、この問題は実現可能かどうかを判断し、これを 'emph{near mix-free rate} と呼ぶ。
我々は上記の弱準ガウス類の概念と混合テール一般連鎖を組み合わせることで結果に到達する。
この組み合わせにより、幅広い問題に対するシャープでインスタンス-最適率を計算することができます。
我々のフレームワークを満たす例としては、準ガウス線型回帰、より一般的なスムーズなパラメータ化関数クラス、有限仮説クラス、有界滑らか性クラスがある。
In this work, we study statistical learning with dependent ($\beta$-mixing) data and square loss in a hypothesis class $\mathscr{F}\subset L_{\Psi_p}$ where $\Psi_p$ is the norm $\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$. Our inquiry is motivated by the search for a sharp noise interaction term, or variance proxy, in learning with dependent data. Absent any realizability assumption, typical non-asymptotic results exhibit variance proxies that are deflated multiplicatively by the mixing time of the underlying covariates process. We show that whenever the topologies of $L^2$ and $\Psi_p$ are comparable on our hypothesis class $\mathscr{F}$ -- that is, $\mathscr{F}$ is a weakly sub-Gaussian class: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- the empirical risk minimizer achieves a rate that only depends on the complexity of the class and second order statistics in its leading term. Our result holds whether the problem is realizable or not and we refer to this as a \emph{near mixing-free rate}, since direct dependence on mixing is relegated to an additive higher order term. We arrive at our result by combining the above notion of a weakly sub-Gaussian class with mixed tail generic chaining. This combination allows us to compute sharp, instance-optimal rates for a wide range of problems. Examples that satisfy our framework include sub-Gaussian linear regression, more general smoothly parameterized function classes, finite hypothesis classes, and bounded smoothness classes. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# より説得力のあるLLMによる議論は、より真に答える
Debating with More Persuasive LLMs Leads to More Truthful Answers ( http://arxiv.org/abs/2402.06782v3 ) ライセンス: Link先を確認 | Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez, | (参考訳) 大規模言語モデル(LLM)を望ましい振る舞いと整合させる一般的な方法は、人間のラベル付きデータに大きく依存する。
しかし、モデルが高度化するにつれて、彼らは人間の専門知識を超越し、人間の評価の役割は専門家を監督する非専門家へと進化する。
より弱いモデルはより強いモデルの正しさを評価することができるか?
より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。
LLMの専門家2人がそれぞれ異なる解答を主張し、非専門家が解答を選択する。
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で答えるのに一貫して役立ちます。
さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 遠絡型遅延エネルギーベース型翻訳:画像レベル構造MRI高調波化フレームワーク
Disentangled Latent Energy-Based Style Translation: An Image-Level Structural MRI Harmonization Framework ( http://arxiv.org/abs/2402.06875v2 ) ライセンス: Link先を確認 | Mengqi Wu, Lintao Zhang, Pew-Thian Yap, Hongtu Zhu, Mingxia Liu, | (参考訳) 脳MRI(Brain Magnetic resonance Imaging)は、臨床および研究分野で広く用いられているが、多くの場合、磁場強度とスキャナーベンダーの違いなどの非生物学的変異に起因する部位効果に対する感受性を示す。
多数の振り返りMRIハーモニゼーション技術は、画像レベルでのサイト効果の低減に励む結果を示している。
しかし、既存の手法は一般に高い計算要求と限定的な一般化性に悩まされ、その適用性は見えないMRIに制限される。
本稿では,非対位画像レベルのMRIハーモニゼーションのための非対角型遅延エネルギーベース型翻訳(DLEST)フレームワークを設計する。
(a)サイト不変画像生成(SIG)
(b)サイト固有のスタイル翻訳(SST)、及び
(c)部位特異的MRI合成(SMS)
具体的には、SIGは潜時オートエンコーダを使用して、MRIを低次元の潜時空間にエンコードし、潜時符号からMRIを再構成する。
SSTは、エネルギーベースのモデルを用いて、ターゲットドメインのグローバル潜時分布を理解し、ソース潜時コードをターゲットドメインに翻訳する。
遅延空間における画像生成とスタイル翻訳を両立させることにより、DLESTは効率的なスタイル翻訳を実現することができる。
提案手法は,T1強調MRI(3,984名,58件の取得サイト/セットセット)を用いてトレーニングし,独立したデータセット(11箇所/セットセットで9名)を用いて,ヒストグラムと特徴可視化,部位分類,脳組織セグメンテーション,部位特異的構造MRI合成の4つのタスクで検証した。
定性的かつ定量的な結果は、いくつかの最先端技術に対する我々の手法の優位性を示している。
Brain magnetic resonance imaging (MRI) has been extensively employed across clinical and research fields, but often exhibits sensitivity to site effects arising from non-biological variations such as differences in field strength and scanner vendors. Numerous retrospective MRI harmonization techniques have demonstrated encouraging outcomes in reducing the site effects at the image level. However, existing methods generally suffer from high computational requirements and limited generalizability, restricting their applicability to unseen MRIs. In this paper, we design a novel disentangled latent energy-based style translation (DLEST) framework for unpaired image-level MRI harmonization, consisting of (a) site-invariant image generation (SIG), (b) site-specific style translation (SST), and (c) site-specific MRI synthesis (SMS). Specifically, the SIG employs a latent autoencoder to encode MRIs into a low-dimensional latent space and reconstruct MRIs from latent codes. The SST utilizes an energy-based model to comprehend the global latent distribution of a target domain and translate source latent codes toward the target domain, while SMS enables MRI synthesis with a target-specific style. By disentangling image generation and style translation in latent space, the DLEST can achieve efficient style translation. Our model was trained on T1-weighted MRIs from a public dataset (with 3,984 subjects across 58 acquisition sites/settings) and validated on an independent dataset (with 9 traveling subjects scanned in 11 sites/settings) in four tasks: histogram and feature visualization, site classification, brain tissue segmentation, and site-specific structural MRI synthesis. Qualitative and quantitative results demonstrate the superiority of our method over several state-of-the-arts. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# Instruct Once, Chat Consistently in multiple Rounds: a Efficient Tuning Framework for Dialogue
Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning Framework for Dialogue ( http://arxiv.org/abs/2402.06967v2 ) ライセンス: Link先を確認 | Jian Wang, Chak Tou Leong, Jiashuo Wang, Dongding Lin, Wenjie Li, Xiao-Yong Wei, | (参考訳) 対話生成のためのチューニング言語モデルは、有能な対話エージェントを構築するための主要なパラダイムである。
しかし、従来のチューニングでは、対話生成は他の言語生成タスクと似ており、2人の話者と対話するべきマルチラウンドの対話プロセスとの間の役割の相違を無視している。
このような方法では、構築されたエージェントに対する不満足なチャット一貫性につながることが多い。
本研究では対話の対話的・コミュニケーション的性質を強調し、エージェントとユーザの役割を個別にモデル化することはより容易であり、エージェントがその役割に一貫して従うことができると主張している。
そこで本研究では,マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
アダプタは、各発話を交互にラウンド単位で使用し、ラウンドレベルのメモリキャッシュ機構を介して調整する。
大規模な実験により、我々のフレームワークは従来の微調整よりも優れていることが示され、対話の整合性を改善する大きな可能性を秘めている。
Tuning language models for dialogue generation has been a prevalent paradigm for building capable dialogue agents. Yet, traditional tuning narrowly views dialogue generation as resembling other language generation tasks, ignoring the role disparities between two speakers and the multi-round interactive process that dialogues ought to be. Such a manner often leads to unsatisfactory chat consistency for the built agent. In this work, we emphasize the interactive, communicative nature of dialogue and argue that it is more feasible to model the speaker roles of agent and user separately, enabling the agent to adhere to its role consistently. With this in mind, we propose an efficient Multi-round Interactive Dialogue Tuning (Midi-Tuning) framework. It models the agent and user individually with two adapters built upon large language models. The adapters make use of respective utterances round by round in alternating order and they are tuned via a round-level memory caching mechanism. Extensive experiments demonstrate that, our framework performs superior to traditional fine-tuning and harbors the tremendous potential for improving dialogue consistency. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# スパースPCAのためのOjaのアルゴリズム
Oja's Algorithm for Sparse PCA ( http://arxiv.org/abs/2402.07240v3 ) ライセンス: Link先を確認 | Syamantak Kumar, Purnamrita Sarkar, | (参考訳) Oja's algorithm for streaming principal Component Analysis (PCA) for $n$ datapoints in a $d$ dimensional space achieves the same sin-squared error $O(r_\mathsf{eff}/n)$ as the offline algorithm in $O(d)$ space and $O(nd)$ time and a single pass the datapoints。
ここで、$r_\mathsf{eff}$ は有効ランクである(トレースの比と集団共分散行列 $\Sigma$ の主固有値)。
この計算予算の下では、$\Sigma$の固有ベクトルが$s$-sparseであり、$r_\mathsf{eff}$が大きければ、スパースPCAの問題を考える。
この設定では、我々の知る限り、$O(d)$ space と $O(nd)$ time のミニマックス誤差を強い初期化条件を必要とせず、あるいは共分散行列のさらなる構造(例えば、スパイク)を仮定することなく達成できるような、既知のシングルパスアルゴリズムは存在しない。
我々は、Ojaのアルゴリズム(Ojaベクトル)の出力をしきい値にする単純なシングルパス手順が、$O(d)$ space と $O(nd)$time を$r_\mathsf{eff}=O(n/\log n)$ の正規性条件下で有界なミニマックス誤差を達成することを示す。
ランダム初期ベクトル上の独立確率行列の積の射影を含む非正規化 Oja ベクトルの成分の非自明で斬新な解析を行う。
これは、$r_\mathsf{eff}$が有界であるときになされたOjaのアルゴリズムと行列積の以前の分析とは全く異なる。
Oja's algorithm for streaming Principal Component Analysis (PCA) for $n$ datapoints in a $d$ dimensional space achieves the same sin-squared error $O(r_\mathsf{eff}/n)$ as the offline algorithm in $O(d)$ space and $O(nd)$ time and a single pass through the datapoints. Here $r_\mathsf{eff}$ is the effective rank (ratio of the trace and the principal eigenvalue of the population covariance matrix $\Sigma$). Under this computational budget, we consider the problem of sparse PCA, where the principal eigenvector of $\Sigma$ is $s$-sparse, and $r_\mathsf{eff}$ can be large. In this setting, to our knowledge, \textit{there are no known single-pass algorithms} that achieve the minimax error bound in $O(d)$ space and $O(nd)$ time without either requiring strong initialization conditions or assuming further structure (e.g., spiked) of the covariance matrix. We show that a simple single-pass procedure that thresholds the output of Oja's algorithm (the Oja vector) can achieve the minimax error bound under some regularity conditions in $O(d)$ space and $O(nd)$ time as long as $r_\mathsf{eff}=O(n/\log n)$. We present a nontrivial and novel analysis of the entries of the unnormalized Oja vector, which involves the projection of a product of independent random matrices on a random initial vector. This is completely different from previous analyses of Oja's algorithm and matrix products, which have been done when the $r_\mathsf{eff}$ is bounded. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# Prismatic VLMs: 視覚的に記述された言語モデルの設計空間の検討
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models ( http://arxiv.org/abs/2402.07865v2 ) ライセンス: Link先を確認 | Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh, | (参考訳) 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用され、LLaVa、InstructBLIP、PaLI-3といった多くの新しいモデルが採用されている。
新たなリリースの量にもかかわらず、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査であり、客観的で一貫した評価の欠如によってさらに複雑な課題として、どの要因がモデルパフォーマンスに寄与するかを理解することは困難である。
これらのギャップに対処するために、まず視覚的質問応答、オブジェクトの局所化、幻覚などの特性を探索するチャレンジセット、微妙な洞察型VLM能力を提供する評価など、標準化された評価スイートをコンパイルする。
第2に、事前訓練された視覚表現やベース対インストラクション学習言語モデルからのトレーニングを含む、キー設計軸に沿ったVLMを厳格に調査する。
1)VLMの評価のための統一的なフレームワーク,(2)最適化されたフレキシブルなトレーニングコード,(3)オープンなVLMの最先端であるInstructBLIPとLLaVa v1.5を厳格に上回る7-13BスケールのVLMのファミリーを含むすべてのモデルのチェックポイント。
Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance $-$ a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization, and challenge sets that probe properties such as hallucination; evaluations that provide fine-grained insight VLM capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and training from base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible training code, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open VLMs. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 位置: トポロジカルディープラーニングは関係学習の新しいフロンティアである
Position: Topological Deep Learning is the New Frontier for Relational Learning ( http://arxiv.org/abs/2402.08871v2 ) ライセンス: Link先を確認 | Theodore Papamarkou, Tolga Birdal, Michael Bronstein, Gunnar Carlsson, Justin Curry, Yue Gao, Mustafa Hajij, Roland Kwitt, Pietro Liò, Paolo Di Lorenzo, Vasileios Maroulas, Nina Miolane, Farzana Nasrin, Karthikeyan Natesan Ramamurthy, Bastian Rieck, Simone Scardapane, Michael T. Schaub, Petar Veličković, Bei Wang, Yusu Wang, Guo-Wei Wei, Ghada Zamzmi, | (参考訳) トポロジカルディープラーニング(TDL)は、トポロジカルな特徴を用いてディープラーニングモデルを理解し設計する、急速に進化する分野である。
本稿では,TDLがリレーショナル学習の新たなフロンティアであることを示す。
TDLは、トポロジ的概念を取り入れたグラフ表現学習と幾何学的深層学習を補完し、様々な機械学習設定に対して自然な選択を与えることができる。
そこで本研究では,実用的メリットから理論的基礎まで,TDLのオープンな問題について論じる。
それぞれの問題に対して、潜在的な解決策と将来の研究機会を概説する。
同時に、本論文は、この新興分野の可能性を解き明かすため、TDL研究に積極的に参加するため、科学界への招待として役立ちます。
Topological deep learning (TDL) is a rapidly evolving field that uses topological features to understand and design deep learning models. This paper posits that TDL is the new frontier for relational learning. TDL may complement graph representation learning and geometric deep learning by incorporating topological concepts, and can thus provide a natural choice for various machine learning settings. To this end, this paper discusses open problems in TDL, ranging from practical benefits to theoretical foundations. For each problem, it outlines potential solutions and future research opportunities. At the same time, this paper serves as an invitation to the scientific community to actively participate in TDL research to unlock the potential of this emerging field. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 分布予測リワードモデリングによる群集フィードバックの調整
Aligning Crowd Feedback via Distributional Preference Reward Modeling ( http://arxiv.org/abs/2402.09764v3 ) ライセンス: Link先を確認 | Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang, Yong Liu, | (参考訳) 深層強化学習(Deep Reinforcement Learning)は、大規模言語モデル(LLM)と人間の嗜好の整合に広く用いられている。
しかし、従来の報酬モデリングは、個人の選択したコホートによって提供される人間のアノテーションに大きく依存している。
このような依存は、これらのアノテータの傾きを反映した歪んだモデルに意図しない結果をもたらす可能性があり、それによってより広い人口の期待を適切に表現できない。
本研究では,大規模言語モデルを多種多様な人的嗜好と整合させるシンプルなフレームワークDPRMを提案する。
この目的のために、複数の選好をカテゴリー分布で特徴付け、シフトまたは新しい選好に対応するベイズ更新器を導入する。
その上で, DPRMを校正し, 選好分布に適合させる最適輸送に基づく損失を設計する。
最後に, LLM ポリシーを微調整し, 住民に好まれる応答を生成するために, 期待される報酬を利用する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
Deep Reinforcement Learning is widely used for aligning Large Language Models (LLM) with human preference. However, the conventional reward modelling is predominantly dependent on human annotations provided by a select cohort of individuals. Such dependence may unintentionally result in skewed models that reflect the inclinations of these annotators, thereby failing to adequately represent the wider population's expectations. We propose the Distributional Preference Reward Model (DPRM), a simple yet effective framework to align large language models with diverse human preferences. To this end, we characterize multiple preferences by a categorical distribution and introduce a Bayesian updater to accommodate shifted or new preferences. On top of that, we design an optimal-transportation-based loss to calibrate DPRM to align with the preference distribution. Finally, the expected reward is utilized to fine-tune an LLM policy to generate responses favoured by the population. Our experiments show that DPRM significantly enhances the alignment of LLMs with population preference, yielding more accurate, unbiased, and contextually appropriate responses. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 関数呼び出しによるゼロショット対話状態追跡器としての大規模言語モデル
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling ( http://arxiv.org/abs/2402.10466v4 ) ライセンス: Link先を確認 | Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook, | (参考訳) 大きな言語モデル(LLM)は、一般的な文脈における高度な理解と生成能力のため、会話システムにおいてますます普及している。
しかし、タスク指向対話(TOD)の有効性は、応答生成だけでなく、特定のタスクやドメイン内での効果的な対話状態追跡(DST)も必要としている。
本研究では,関数呼び出しによるDSTをLLMで解くための新しいアプローチFnCTODを提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,ChatGPTが達成した従来のSOTA(State-of-the-art (SOTA))を7Bまたは13Bパラメータモデルで上回り,平均目標精度(JGA)を5.6%上回るChatGPTの性能向上を実現している。
GPT-3.5とGPT-4はそれぞれ4.8%、GPT-4は14%増加した。
また,多種多様なタスク指向対話を微調整することで,チャット機能を維持しながら,関数呼び出し機能とチャット機能に匹敵するDST性能を備えた13BパラメータLLaMA2-Chatモデルを実現することができることを示す。
コードをhttps://github.com/facebookresearch/FnCTODで公開しました。
Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% average joint goal accuracy (JGA). Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modestly sized models, specifically a 13B parameter LLaMA2-Chat model, with function-calling capabilities and DST performance comparable to ChatGPT while maintaining their chat capabilities. We have made the code publicly available at https://github.com/facebookresearch/FnCTOD | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 不均一タスクとクライアントリソースによる大規模言語モデルのフェデレーション微調整
Federated Fine-tuning of Large Language Models under Heterogeneous Tasks and Client Resources ( http://arxiv.org/abs/2402.11505v2 ) ライセンス: Link先を確認 | Jiamu Bai, Daoyuan Chen, Bingchen Qian, Liuyi Yao, Yaliang Li, | (参考訳) Federated Learning (FL) は、最近、LLM(Large Language Models)のパラメータ効率の高い微調整に応用されている。
有望ではあるが、クライアントの不均一なリソースとデータ分散のために、大きな課題を提起する。
本研究では,LLMファインチューニングのための簡易かつ効果的なアグリゲーションスキームであるFlexLoRAを紹介した。これは従来のFLの'bucket effect'を緩和し,最小リソースの参加者の能力に結びつけることで,クライアントの可能性を制限する。
FlexLoRAはローカルなLoRAランクの動的調整を可能にし、より広範でタスク固有の知識の少ないグローバルモデルの開発を促進する。
個々のクライアントからのコントリビューションからフルサイズのLoRA重みを合成し、重量再分配にSingular Value Decomposition(SVD)を採用することで、FlexLoRAは異種クライアントリソースを完全に活用する。
不均一なNLPタスクとクライアントリソースを実行する何千ものクライアントを巻き込み、この実験はFlexLoRAの有効性を検証し、フェデレートされたグローバルモデルにより、様々な異種分布にわたる下流NLPタスク性能において、SOTA FLメソッドよりも一貫して改善された。
FlexLoRAの実用性は、我々の理論的分析と既存のLoRAベースのFLメソッドとのシームレスな統合によってさらに強調され、LCMのクロスデバイス、プライバシ保護フェデレーション付きチューニングへの道を提供する。
Federated Learning (FL) has recently been applied to the parameter-efficient fine-tuning of Large Language Models (LLMs). While promising, it raises significant challenges due to the heterogeneous resources and data distributions of clients. This study introduces FlexLoRA, a simple yet effective aggregation scheme for LLM fine-tuning, which mitigates the ``bucket effect'' in traditional FL that restricts the potential of clients with ample resources by tying them to the capabilities of the least-resourced participants. FlexLoRA allows for dynamic adjustment of local LoRA ranks, fostering the development of a global model imbued with broader, less task-specific knowledge. By synthesizing a full-size LoRA weight from individual client contributions and employing Singular Value Decomposition (SVD) for weight redistribution, FlexLoRA fully leverages heterogeneous client resources. Involving thousands of clients performing heterogeneous NLP tasks and client resources, our experiments validate the efficacy of FlexLoRA, with the federated global model achieving consistently better improvement over SOTA FL methods in downstream NLP task performance across various heterogeneous distributions. FlexLoRA's practicality is further underscored by our theoretical analysis and its seamless integration with existing LoRA-based FL methods, offering a path toward cross-device, privacy-preserving federated tuning for LLMs. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 小さなモデルとビッグインサイト:スリムなプロキシモデルを活用してLLMをいつ、何を検索すべきかを決定
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs ( http://arxiv.org/abs/2402.12052v3 ) ライセンス: Link先を確認 | Jiejun Tan, Zhicheng Dou, Yutao Zhu, Peidong Guo, Kun Fang, Ji-Rong Wen, | (参考訳) 大規模言語モデル(LLM)と検索エンジンの統合は,知識獲得手法の大幅な進化を示唆している。
しかし、LLMがすでに持っている知識と検索エンジンの助けを必要とする知識は未解決のままである。
既存のほとんどの手法は、LCM自体による予備的な答えや推論の結果によってこの問題を解決するが、計算コストが過度に高い。
本稿では,LLMの知識獲得プロセスを強化するために,スリムプロキシモデルを用いてLLMの知識不足を検出する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、その回答をヒューリスティックな回答とする。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
我々はLLMが知らない質問において、不足した知識の検索を行うのみである。
2つのLLMを持つ5つのデータセットの大規模な実験結果から、質問応答タスクにおけるLLMのエンドツーエンド性能が顕著に向上し、LLM推論コストの低い現在の最先端モデルを達成または超えた。
The integration of large language models (LLMs) and search engines represents a significant evolution in knowledge acquisition methodologies. However, determining the knowledge that an LLM already possesses and the knowledge that requires the help of a search engine remains an unresolved issue. Most existing methods solve this problem through the results of preliminary answers or reasoning done by the LLM itself, but this incurs excessively high computational costs. This paper introduces a novel collaborative approach, namely SlimPLM, that detects missing knowledge in LLMs with a slim proxy model, to enhance the LLM's knowledge acquisition process. We employ a proxy model which has far fewer parameters, and take its answers as heuristic answers. Heuristic answers are then utilized to predict the knowledge required to answer the user question, as well as the known and unknown knowledge within the LLM. We only conduct retrieval for the missing knowledge in questions that the LLM does not know. Extensive experimental results on five datasets with two LLMs demonstrate a notable improvement in the end-to-end performance of LLMs in question-answering tasks, achieving or surpassing current state-of-the-art models with lower LLM inference costs. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# BIDER: キー・サポート・エビデンスによる効率的に検索可能なLLMのための知識の不整合のブリッジ
BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence ( http://arxiv.org/abs/2402.12174v2 ) ライセンス: Link先を確認 | Jiajie Jin, Yutao Zhu, Yujia Zhou, Zhicheng Dou, | (参考訳) Retrieval-augmented large language model (LLMs)は、オープンドメインQAのような知識集約的なタスクにおいて、知識更新と事実的不適切性の固有の課題に対処する効果を実証している。
しかし, 検索知識とLLMに必要な知識との矛盾が生じ, LLMの回答品質は低下した。
本稿では、知識合成、教師付き微調整(SFT)、選好アライメントを通じて、検索文書をキーサポートエビデンス(KSE)に洗練する手法であるBIDERを紹介する。
我々はKSEの製作から学習してBIDERを訓練し、その出力を最大化し、強化学習を通してLLMの情報取得嗜好と整合させる。
5つのデータセットで評価したところ、BIDERはLLMの回答品質を7%向上させ、検索文書の入力内容の長さを80%削減し、既存の手法よりも優れていた。
提案したKSEシミュレーションは,LLMに正確な質問応答に必要な情報を与える。
Retrieval-augmented large language models (LLMs) have demonstrated efficacy in knowledge-intensive tasks such as open-domain QA, addressing inherent challenges in knowledge update and factual inadequacy. However, inconsistencies between retrieval knowledge and the necessary knowledge for LLMs, leading to a decline in LLM's answer quality. This paper introduces BIDER, an approach that refines retrieval documents into Key Supporting Evidence (KSE) through knowledge synthesis, supervised fine-tuning (SFT), and preference alignment. We train BIDER by learning from crafting KSE, while maximizing its output to align with LLM's information acquisition preferences through reinforcement learning. Evaluations across five datasets show BIDER boosts LLMs' answer quality by 7% while reducing input content length in retrieval documents by 80%, outperforming existing methods. The proposed KSE simulation effectively equips LLMs with essential information for accurate question answering. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 音声対話における大規模言語モデルによる発話スタイルの獲得と応答性の向上
Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations ( http://arxiv.org/abs/2402.12786v2 ) ライセンス: Link先を確認 | Guan-Ting Lin, Cheng-Han Chiang, Hung-yi Lee, | (参考訳) 音声対話では、2つの現行の旋回が同じ文であっても、その応答は異なるスタイルで話されるときでも異なる可能性がある。
パラ言語的および韻律的な情報を含む音声スタイルは、テキストと音声のモダリティの最も重要な違いを示す。
テキストのみのLLMを用いて音声対話をモデル化する場合、テキストのみのLLMは現在のターンの発声スタイルに基づいて異なる応答を与えることはできない。
本稿では,LLMが話し方に耳を傾けるようにし,適切な応答を可能にすることに焦点を当てる。
我々の目標は、LLMに「異なるスタイルで話されている文が同一であっても、対応する応答が異なるかもしれない」と教えることです。
この目標を達成するための適切なデータセットが存在しないため、現在2つの発話が同じ内容であるが異なるスタイルで話されている場合、その応答は異なるという望ましい特徴を持つ音声合成データセットであるStyleTalkを収集する。
そこで本研究では,LLMに対して,言語内容と話し言葉スタイルをモデル化するスポンケン・LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、2段階のトレーニングパイプラインを作成し、Spoken-LLMが話し方を学ぶのに役立つようにします。
広範に実験を行った結果,Spoken-LLMはテキストのみのベースラインと先行音声LLMよりも優れていた。
In spoken dialogue, even if two current turns are the same sentence, their responses might still differ when they are spoken in different styles. The spoken styles, containing paralinguistic and prosodic information, mark the most significant difference between text and speech modality. When using text-only LLMs to model spoken dialogue, text-only LLMs cannot give different responses based on the speaking style of the current turn. In this paper, we focus on enabling LLMs to listen to the speaking styles and respond properly. Our goal is to teach the LLM that "even if the sentences are identical if they are spoken in different styles, their corresponding responses might be different". Since there is no suitable dataset for achieving this goal, we collect a speech-to-speech dataset, StyleTalk, with the following desired characteristics: when two current speeches have the same content but are spoken in different styles, their responses will be different. To teach LLMs to understand and respond properly to the speaking styles, we propose the Spoken-LLM framework that can model the linguistic content and the speaking styles. We train Spoken-LLM using the StyleTalk dataset and devise a two-stage training pipeline to help the Spoken-LLM better learn the speaking styles. Based on extensive experiments, we show that Spoken-LLM outperforms text-only baselines and prior speech LLMs methods. | 翻訳日:2024-05-31 21:05:54 公開日:2024-05-30 |
# 大規模言語モデルにおける言語領域の展開
Unveiling Linguistic Regions in Large Language Models ( http://arxiv.org/abs/2402.14700v3 ) ライセンス: Link先を確認 | Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
現在の研究は主にLLMの言語間一般化能力の改善に焦点を当てている。
しかし、LLMが言語間アライメントを実現するための本質的なメカニズムについてはまだ研究されていない。
本稿では,地域分割の観点から,LLMの言語能力に関するいくつかの調査を行う。
我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占める。
パラメータをゼロにすることでコア領域を取り除いた結果、30の異なる言語で大幅にパフォーマンスが低下する。
さらに、この中核領域は、言語能力の喪失につながる特定の次元上の1つのパラメータでさえも、大きな次元依存、摂動を示す。
さらに、異なる言語に対して異なる単言語領域が存在することが分かり、これらの特定領域の破壊は、対応する言語におけるLLMの習熟度を大幅に低下させる。
また,本研究は,LLMのさらなる事前訓練中に観察される共通現象である,破滅的忘れ (CF) の問題を緩和する上で,コア言語領域の凍結が重要であることも示唆した。
全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。
Large Language Models (LLMs) have demonstrated considerable cross-lingual alignment and generalization ability. Current research primarily focuses on improving LLMs' cross-lingual generalization capabilities. However, there is still a lack of research on the intrinsic mechanisms of how LLMs achieve cross-lingual alignment. From the perspective of region partitioning, this paper conducts several investigations on the linguistic competence of LLMs. We discover a core region in LLMs that corresponds to linguistic competence, accounting for approximately 1% of the total model parameters. Removing this core region by setting parameters to zero results in a significant performance decrease across 30 different languages. Furthermore, this core region exhibits significant dimensional dependence, perturbations to even a single parameter on specific dimensions leading to a loss of linguistic competence. Moreover, we discover that distinct monolingual regions exist for different languages, and disruption to these specific regions substantially reduces the LLMs' proficiency in those corresponding languages. Our research also indicates that freezing the core linguistic region during further pre-training can mitigate the issue of catastrophic forgetting (CF), a common phenomenon observed during further pre-training of LLMs. Overall, exploring the LLMs' functional regions provides insights into the foundation of their intelligence. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# すべてのエキスパートが平等であるとは限らない: エキスパートの効率的なプルーニングとスキャッピング
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models ( http://arxiv.org/abs/2402.14800v2 ) ライセンス: Link先を確認 | Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang, Bo Zhang, Junchi Yan, Hongsheng Li, | (参考訳) 大規模言語モデル (LLM) の進展における重要な進展は、Mixture-of-Experts (MoE) LLM の出現である。
従来のLLMと比較して、MoE LLMはより少ないパラメータで高い性能を達成できるが、パラメータサイズが大きいためデプロイは困難である。
本論文は,特定の設計ハードウェアに依存した従来の重み付け法とは違って,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率の向上を主目的とする。
具体的には,タスク非依存およびタスク特化の専門家による,MoE LLMのプルーニングとスキップのための学習後アプローチを,我々の最も優れた知識に対して初めて提案する。
実験の結果,提案手法はモデルサイズを同時に削減し,推論速度を向上し,良好な性能を保ちながら実現可能であることがわかった。
データとコードはhttps://github.com/Lucky-Lance/Expert_Sparsity.comで入手できる。
A pivotal advancement in the progress of large language models (LLMs) is the emergence of the Mixture-of-Experts (MoE) LLMs. Compared to traditional LLMs, MoE LLMs can achieve higher performance with fewer parameters, but it is still hard to deploy them due to their immense parameter sizes. Different from previous weight pruning methods that rely on specifically designed hardware, this paper mainly aims to enhance the deployment efficiency of MoE LLMs by introducing plug-and-play expert-level sparsification techniques. Specifically, we propose, for the first time to our best knowledge, post-training approaches for task-agnostic and task-specific expert pruning and skipping of MoE LLMs, tailored to improve deployment efficiency while maintaining model performance across a wide range of tasks. Extensive experiments show that our proposed methods can simultaneously reduce model sizes and increase the inference speed, while maintaining satisfactory performance. Data and code will be available at https://github.com/Lucky-Lance/Expert_Sparsity. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 長いシステムプロンプトを持つ効率的な大言語モデルに対するリレーアテンション
RelayAttention for Efficient Large Language Model Serving with Long System Prompts ( http://arxiv.org/abs/2402.14808v3 ) ライセンス: Link先を確認 | Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W. H. Lau, | (参考訳) 実用的大規模言語モデル(LLM)サービスは、タスクの指示、例、知識文書を指定する長いシステムプロンプトを伴い、リクエスト間で再利用される。
しかし、長いシステムがスループット/レイテンシのボトルネックを引き起こすのは、次のトークンを生成するコストがシーケンスの長さに比例して増加するためである。
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
我々のキーとなる観察は、既存の因果注意計算アルゴリズムにおいて、これらのシステムプロンプトの処理には、冗長なメモリアクセスが必要であることである。
具体的には、バッチ要求に対して、システムプロンプトのキャッシュされた隠された状態(キーと値のペア)をオフチップDRAMからオンチップSRAMに複数回転送し、それぞれが個別の要求に対応する。
このような冗長性を排除するため,DRAMから複数の入力トークンを正確に1回だけ読み取ることができるアテンションアルゴリズムであるRelayAttentionを提案する。
RelayAttentionは無料のランチであり、因果的注意の数学的再構成に基づくため、モデルの再トレーニングを必要とせず、世代品質を維持している。
RelayAttentionとの統合により、プロダクションレベルのシステムであるvLLMの大幅なパフォーマンス向上が観察された。
改善は、より長いシステムプロンプトでさらに深くなっています。
A practical large language model (LLM) service may involve a long system prompt, which specifies the instructions, examples, and knowledge documents of the task and is reused across requests. However, the long system prompt causes throughput/latency bottlenecks as the cost of generating the next token grows w.r.t. the sequence length. This paper aims to improve the efficiency of LLM services that involve long system prompts. Our key observation is that handling these system prompts requires heavily redundant memory accesses in existing causal attention computation algorithms. Specifically, for batched requests, the cached hidden states (\ie, key-value pairs) of system prompts are transferred from off-chip DRAM to on-chip SRAM multiple times, each corresponding to an individual request. To eliminate such a redundancy, we propose RelayAttention, an attention algorithm that allows reading these hidden states from DRAM exactly once for a batch of input tokens. RelayAttention is a free lunch: it maintains the generation quality while requiring no model retraining, as it is based on a mathematical reformulation of causal attention. We have observed significant performance improvements to a production-level system, vLLM, through integration with RelayAttention. The improvements are even more profound with longer system prompts. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 事前学習型大規模言語モデルの機械学習
Machine Unlearning of Pre-trained Large Language Models ( http://arxiv.org/abs/2402.15159v3 ) ライセンス: Link先を確認 | Jin Yao, Eli Chien, Minxin Du, Xinyao Niu, Tianhao Wang, Zezhou Cheng, Xiang Yue, | (参考訳) 本研究では,大規模言語モデル (LLM) の文脈における「忘れられる権利」の概念について検討する。
私たちは機械学習を重要なソリューションとして探求し、事前学習されたモデルに焦点を当てます。
本研究は,7種類の未学習手法の批判的分析を含む,事前学習型LLMにおける機械学習の包括的枠組みを概説する。
arXiv、書籍、GitHubのキュレートされたデータセットを使用した厳密な評価を通じて、未学習のパフォーマンスの堅牢なベンチマークを確立し、これらの手法が再トレーニングよりも10^5$以上の計算効率を持つことを示した。
その結果, 勾配上昇と勾配降下とを分布内データに組み込むことで, 過パラメータロバスト性が向上することが示唆された。
また、未学習プロセスにおける効率的なハイパーパラメータチューニングのための詳細なガイドラインも提供する。
我々の発見は、倫理的AIの実践に関する議論を前進させ、事前訓練されたLLMのための機械学習のメカニズムに関する実質的な洞察を提供し、AI開発に責任がある可能性を裏付けるものである。
This study investigates the concept of the `right to be forgotten' within the context of large language models (LLMs). We explore machine unlearning as a pivotal solution, with a focus on pre-trained models--a notably under-researched area. Our research delineates a comprehensive framework for machine unlearning in pre-trained LLMs, encompassing a critical analysis of seven diverse unlearning methods. Through rigorous evaluation using curated datasets from arXiv, books, and GitHub, we establish a robust benchmark for unlearning performance, demonstrating that these methods are over $10^5$ times more computationally efficient than retraining. Our results show that integrating gradient ascent with gradient descent on in-distribution data improves hyperparameter robustness. We also provide detailed guidelines for efficient hyperparameter tuning in the unlearning process. Our findings advance the discourse on ethical AI practices, offering substantive insights into the mechanics of machine unlearning for pre-trained LLMs and underscoring the potential for responsible AI development. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 実用性保証によるデータの公平性の達成
Achievable Fairness on Your Data With Utility Guarantees ( http://arxiv.org/abs/2402.17106v3 ) ライセンス: Link先を確認 | Muhammad Faaiz Taufiq, Jean-Francois Ton, Yang Liu, | (参考訳) 機械学習のフェアネスでは、異なるセンシティブなグループ間の格差を最小限に抑えるトレーニングモデルはしばしば精度を低下させる。
このトレードオフの深刻さは、本質的にデータセットの不均衡やバイアスといったデータセット特性に依存しているため、多様なデータセット間で均一な公平性要件を使用することは疑問の余地が残る。
これを解決するために、厳密な統計的保証を背景として、個々のデータセットに適合する公平性-正確性トレードオフ曲線を近似する計算効率の良い手法を提案する。
You-Only-Train-Once(YOTO)フレームワークを利用することで、トレードオフ曲線を近似する際に複数のモデルを訓練する際の計算負担を軽減する。
そこで本研究では,推定誤差による誤った結論を避けつつ,モデルフェアネスを監査する堅牢な枠組みを実践者に提供し,評価の不確実性を定量化する手法を提案する。
我々の実験は、表形式(例えば、アダルト)、画像(CelebA)、言語(Jigsaw)データセットにまたがるものであり、我々のアプローチは、様々なデータモダリティで達成可能な最適トレードオフを確実に定量化するだけでなく、SOTAフェアネス法における準最適性の検出にも役立ちます。
In machine learning fairness, training models that minimize disparity across different sensitive groups often leads to diminished accuracy, a phenomenon known as the fairness-accuracy trade-off. The severity of this trade-off inherently depends on dataset characteristics such as dataset imbalances or biases and therefore, using a uniform fairness requirement across diverse datasets remains questionable. To address this, we present a computationally efficient approach to approximate the fairness-accuracy trade-off curve tailored to individual datasets, backed by rigorous statistical guarantees. By utilizing the You-Only-Train-Once (YOTO) framework, our approach mitigates the computational burden of having to train multiple models when approximating the trade-off curve. Crucially, we introduce a novel methodology for quantifying uncertainty in our estimates, thereby providing practitioners with a robust framework for auditing model fairness while avoiding false conclusions due to estimation errors. Our experiments spanning tabular (e.g., Adult), image (CelebA), and language (Jigsaw) datasets underscore that our approach not only reliably quantifies the optimum achievable trade-offs across various data modalities but also helps detect suboptimality in SOTA fairness methods. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# RIME:雑音を考慮したロバスト推論に基づく強化学習
RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences ( http://arxiv.org/abs/2402.17257v3 ) ライセンス: Link先を確認 | Jie Cheng, Gang Xiong, Xingyuan Dai, Qinghai Miao, Yisheng Lv, Fei-Yue Wang, | (参考訳) 嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
しかし、現在のPbRL手法はドメインの専門家からの高品質なフィードバックに過度に依存するため、堅牢性が欠如している。
本稿では,雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
本手法は,雑音を動的に除去し,ロバストなトレーニングを確保するために,サンプル選択に基づく判別器を用いる。
誤り選択から生じる累積誤差に対処するため,PbRLにおける事前学習からオンライントレーニングへの移行に伴うパフォーマンスギャップを埋める報奨モデルの温かい開始を提案する。
ロボット操作と移動タスクに関する実験により、RIMEは最先端PbRL法のロバスト性を大幅に向上させることが示された。
コードはhttps://github.com/CJReinforce/RIME_ICML2024で公開されている。
Preference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method utilizes a sample selection-based discriminator to dynamically filter out noise and ensure robust training. To counteract the cumulative error stemming from incorrect selection, we suggest a warm start for the reward model, which additionally bridges the performance gap during the transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the state-of-the-art PbRL method. Code is available at https://github.com/CJReinforce/RIME_ICML2024. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 自己と他者の信念を表す言語モデル
Language Models Represent Beliefs of Self and Others ( http://arxiv.org/abs/2402.18496v3 ) ライセンス: Link先を確認 | Wentao Zhu, Zhining Zhang, Yizhou Wang, | (参考訳) 心の理論 (ToM) として知られる精神状態の理解と帰属は、人間の社会的推論の基本的な能力として現れる。
LLM(Large Language Models)は特定のToM能力を持っているように見えるが、これらの能力の基盤となるメカニズムはいまだ解明されていない。
本研究では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの視点から信念の状態を線形に復号し,自己や他者の信念の内部表現の存在を示唆することを発見した。
これらの表現を操作することで,モデルのToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を明らかにする。
さらに,本研究は,様々な因果推論パターンを含む多様な社会的推論タスクにまで拡張し,これらの表現の一般化可能性について示唆した。
Understanding and attributing mental states, known as Theory of Mind (ToM), emerges as a fundamental capability for human social reasoning. While Large Language Models (LLMs) appear to possess certain ToM abilities, the mechanisms underlying these capabilities remain elusive. In this study, we discover that it is possible to linearly decode the belief status from the perspectives of various agents through neural activations of language models, indicating the existence of internal representations of self and others' beliefs. By manipulating these representations, we observe dramatic changes in the models' ToM performance, underscoring their pivotal role in the social reasoning process. Additionally, our findings extend to diverse social reasoning tasks that involve different causal inference patterns, suggesting the potential generalizability of these representations. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# Point Cloud Mamba: 状態空間モデルによるポイントクラウド学習
Point Cloud Mamba: Point Cloud Learning via State Space Model ( http://arxiv.org/abs/2403.00762v3 ) ライセンス: Link先を確認 | Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, Shuicheng Yan, | (参考訳) 近年、状態空間モデルは、変換器とは対照的に、強力な大域的モデリング能力と線形計算複雑性を示した。
この研究は、ポイントクラウド分析にそのようなアーキテクチャを適用することに焦点を当てている。
特に,マンバをベースとしたポイントクラウド法は,トランスフォーマーや多層パーセプトロン(MLP)をベースとした従来手法よりも優れていることを示す。
そこで本研究では,Mambaが3次元点群データをより効率的に処理できるようにするために,各点群を1次元点列に変換しつつ,隣接点が空間的に近接していることを保証するために,新しい一貫性トラバースシリアライズ手法を提案する。
連続トラバースシリアライゼーションは、x, y, z座標の順序を置換することによって6つの変種を生成する。
さらに,異なる順序の点列の処理において,より効果的にマンバを支援するために,マンバにシーケンスの配列規則を通知する点プロンプトを導入する。
最後に,空間座標マッピングに基づく位置符号化を提案し,位置情報を点雲列によりよく注入する。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanObjectNN、ModelNet40、ShapeNetPart、S3DISデータセット上で新しいSOTAパフォーマンスを達成する。
より強力なローカル特徴抽出モジュールを使用する場合、PCMはS3DIS上で82.6 mIoUを達成し、従来のSOTAモデルであるDeLAとPTv3をそれぞれ8.5 mIoUと7.9 mIoUで大幅に上回ったことに注意する必要がある。
コードとモデルはhttps://github.com/SkyworkAI/PointCloudMamba.comで入手できる。
Recently, state space models have exhibited strong global modeling capabilities and linear computational complexity in contrast to transformers. This research focuses on applying such architecture in point cloud analysis. In particular, for the first time, we demonstrate that Mamba-based point cloud methods can outperform previous methods based on transformer or multi-layer perceptrons (MLPs). To enable Mamba to process 3-D point cloud data more effectively, we propose a novel Consistent Traverse Serialization method to convert point clouds into 1-D point sequences while ensuring that neighboring points in the sequence are also spatially adjacent. Consistent Traverse Serialization yields six variants by permuting the order of x, y, and z coordinates, and the synergistic use of these variants aids Mamba in comprehensively observing point cloud data. Furthermore, to assist Mamba in handling point sequences with different orders more effectively, we introduce point prompts to inform Mamba of the sequence's arrangement rules. Finally, we propose positional encoding based on spatial coordinate mapping to inject positional information into point cloud sequences better. Point Cloud Mamba surpasses the state-of-the-art (SOTA) point-based method PointNeXt and achieves new SOTA performance on the ScanObjectNN, ModelNet40, ShapeNetPart, and S3DIS datasets. It is worth mentioning that when using a more powerful local feature extraction module, our PCM achieves 82.6 mIoU on S3DIS, significantly surpassing the previous SOTA models, DeLA and PTv3, by 8.5 mIoU and 7.9 mIoU, respectively. Code and model are available at https://github.com/SkyworkAI/PointCloudMamba. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 睡眠帯域に対する近接最適パーアクションレグレクト境界
Near-optimal Per-Action Regret Bounds for Sleeping Bandits ( http://arxiv.org/abs/2403.01315v2 ) ライセンス: Link先を確認 | Quan Nguyen, Nishant A. Mehta, | (参考訳) 睡眠中の包帯に対して、各ラウンドで利用可能な武器のセットと損失の両方が敵によって選択される、最も最適な行動毎の後悔境界を導出する。
合計で$K$、各ラウンドで$A$の武器が$T$以上の場合、最もよく知られている上限は$O(K\sqrt{TA\ln{K}})$で、内部の睡眠不足を最小化することで間接的に得られる。
ミニマックス $\Omega(\sqrt{TA})$ 下界と比較して、この上界は$K\ln{K}$の余剰乗算因子を含む。
このギャップは EXP3, EXP3-IX および FTRL の一般化版を Tsallis entropy を用いて直接最小化し、従って位数 $O(\sqrt{TA\ln{K}})$ と $O(\sqrt{T\sqrt{AK}})$ の準最適境界を得る。
本研究は睡眠専門家のアドバイスで盗賊の設定まで拡張し,その過程でEXP4を一般化する。
これは、標準的な非スリーピング帯域に対する多くの既存の適応的および追跡的後悔境界に対する新しい証明につながる。
彼らの自信を報告する専門家の活気あるバージョンに結果を拡張することは、主に専門家の自信の総和に依存する、自信の後悔に対する新たな限界をもたらす。
我々は、任意のミニマックス最適アルゴリズムに対して、後悔が$T$のサブ線形であるが、その活性ラウンドの数に線形な作用が存在することを示す。
We derive near-optimal per-action regret bounds for sleeping bandits, in which both the sets of available arms and their losses in every round are chosen by an adversary. In a setting with $K$ total arms and at most $A$ available arms in each round over $T$ rounds, the best known upper bound is $O(K\sqrt{TA\ln{K}})$, obtained indirectly via minimizing internal sleeping regrets. Compared to the minimax $\Omega(\sqrt{TA})$ lower bound, this upper bound contains an extra multiplicative factor of $K\ln{K}$. We address this gap by directly minimizing the per-action regret using generalized versions of EXP3, EXP3-IX and FTRL with Tsallis entropy, thereby obtaining near-optimal bounds of order $O(\sqrt{TA\ln{K}})$ and $O(\sqrt{T\sqrt{AK}})$. We extend our results to the setting of bandits with advice from sleeping experts, generalizing EXP4 along the way. This leads to new proofs for a number of existing adaptive and tracking regret bounds for standard non-sleeping bandits. Extending our results to the bandit version of experts that report their confidences leads to new bounds for the confidence regret that depends primarily on the sum of experts' confidences. We prove a lower bound, showing that for any minimax optimal algorithms, there exists an action whose regret is sublinear in $T$ but linear in the number of its active rounds. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# ReMatch: LLMとの検索強化スキーママッチング
ReMatch: Retrieval Enhanced Schema Matching with LLMs ( http://arxiv.org/abs/2403.01567v2 ) ライセンス: Link先を確認 | Eitam Sheetrit, Menachem Brief, Moshik Mishaeli, Oren Elisha, | (参考訳) スキーママッチングはデータ統合において重要なタスクであり、ソーススキーマとターゲットスキーマをアライメントすることで、要素間の対応を確立する。
このタスクは、テキストとセマンティックな異質性、およびスキーマサイズの違いによって困難である。
機械学習ベースのソリューションは多くの研究で研究されているが、しばしば低い精度に悩まされ、モデルのトレーニングのためにスキーマを手動でマッピングする必要がある。
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチング手法であるReMatchを提案する。
提案手法では,事前定義されたマッピングやモデルトレーニング,あるいはソースデータベースのデータへのアクセスが不要になる。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
データトレーニングの要件をなくすことで、ReMatchは現実のシナリオで実行可能なソリューションになります。
Schema matching is a crucial task in data integration, involving the alignment of a source schema with a target schema to establish correspondence between their elements. This task is challenging due to textual and semantic heterogeneity, as well as differences in schema sizes. Although machine-learning-based solutions have been explored in numerous studies, they often suffer from low accuracy, require manual mapping of the schemas for model training, or need access to source schema data which might be unavailable due to privacy concerns. In this paper we present a novel method, named ReMatch, for matching schemas using retrieval-enhanced Large Language Models (LLMs). Our method avoids the need for predefined mapping, any model training, or access to data in the source database. Our experimental results on large real-world schemas demonstrate that ReMatch is an effective matcher. By eliminating the requirement for training data, ReMatch becomes a viable solution for real-world scenarios. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 注意の仕組みの数学を再考する
You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism ( http://arxiv.org/abs/2403.01643v2 ) ライセンス: Link先を確認 | Mehran Hosseini, Peyman Hosseini, | (参考訳) Scaled Dot Product Attention (SDPA)は多くの現代のディープラーニングモデルのバックボーンです。
自然言語、視覚、マルチモーダルドメインで使われ、元々の定式化に比べてほとんど変化しないほど多用途である。
本稿では,注意機構の数学的詳細を掘り下げることで,現在の定式化が非効率的である理由を論じる。
そこで我々は,これらの非効率性を緩和する3つの改善点を提案し,最適化,効率,超注意という3つの強化された注意機構を導入した。
最適化された注意と効率的な注意は、それぞれ1頭当たりの行列乗算が1個と2個少なく、25%と50%のパラメータが標準のSDPAよりも少ないが、視覚と自然言語の両方のタスクにおいて標準のSDPAと同様に動作する。
SDPAが使用されるすべてのアプリケーションで、より小さなモデルサイズとより高速なトレーニングと推論を提供しながら、パフォーマンスを著しく損なうことなく使用できる。
Super Attentionは値に新しい線形変換を導入し、それを左から変換する。
視覚と自然言語のタスクにおける標準SPDAを最大17%上回り、1頭当たりの行列乗算が1つ減り、標準SDPAよりも25%低いパラメータを持つ。
したがって、標準のSDPAよりも高速である。
スーパーアテンションは、視覚変換器のような注意層のコンテキスト長が固定されたアプリケーションにおいて理想的である。
数学的推論の他に,MNIST,CIFAR100,ImageNet,IMDB Movie Reviews,Amazon Reviews,EuroparlとAnkiを組み合わせたニューラルマシン翻訳データセットなど,いくつかのデータセットを対象としたアテンションメカニズムの評価を行った。
Scaled Dot Product Attention (SDPA) is the backbone of many modern deep-learning models. It is so versatile that it has been used in natural language, vision, and multi-modal domains with very little change compared to its original formulation. This paper discusses why the current formulation is inefficient by delving into the mathematical details of the attention mechanism. We propose three improvements to mitigate these inefficiencies, thereby, introducing three enhanced attention mechanisms: Optimised, Efficient, and Super Attention. Optimised and Efficient Attention have one and two matrix multiplications fewer per head, respectively, and 25% and 50% fewer parameters, respectively, than standard SDPA, but perform similarly to standard SDPA in both vision and natural language tasks. They can be used in all applications where SDPA is used while offering smaller model sizes and faster training and inference without noticeable loss in performance. Super Attention introduces a new linear transformation on the values, transforming them from the left. It outperforms standard SPDA on vision and natural language tasks by up to 17% while having one fewer matrix multiplication per head and 25% fewer parameters than standard SDPA. Consequently, it is also faster than standard SDPA. Super Attention is ideal in applications where the attention layer's context length is fixed, such as Vision Transformers. In addition to providing mathematical reasoning, we evaluate the presented attention mechanisms on several datasets including MNIST, CIFAR100, ImageNet, IMDB Movie Reviews, and Amazon Reviews datasets, as well as combined Europarl and Anki English-Spanish datasets for neural machine translation. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 一から多へ:言語モデルにおける毒性緩和の範囲を広げる
From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models ( http://arxiv.org/abs/2403.03893v3 ) ライセンス: Link先を確認 | Luiza Pozzobon, Patrick Lewis, Sara Hooker, Beyza Ermis, | (参考訳) これまで、言語モデルにおける毒性の緩和は、ほぼ完全に単一言語設定に焦点が当てられていた。
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。
この研究ギャップを認識し,本手法は,複数の言語が提示する複雑さに対処するため,従来の毒性緩和の範囲を広げるものである。
言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。
また,静的かつ連続的な毒性緩和シナリオにおいて,検索強化手法に対する微調整緩和手法の比較を行った。
これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
また、モデルのサイズとデータ量がこれらの緩和努力の成功にどのように影響するかについても検討する。
本研究は,9つの言語を網羅し,多種多様な言語族と資源利用のレベルを表現している。
総合的な実験を通じて、多言語毒性緩和の複雑さに関する洞察を提供し、価値ある洞察を提供し、このますます重要な分野における将来の研究の道を開く。
コードとデータはhttps://github.com/for-ai/goodtriever.comで公開されている。
To date, toxicity mitigation in language models has almost entirely been focused on single-language settings. As language models embrace multilingual capabilities, it's crucial our safety measures keep pace. Recognizing this research gap, our approach expands the scope of conventional toxicity mitigation to address the complexities presented by multiple languages. In the absence of sufficient annotated datasets across languages, we employ translated data to evaluate and enhance our mitigation techniques. We also compare finetuning mitigation approaches against retrieval-augmented techniques under both static and continual toxicity mitigation scenarios. This allows us to examine the effects of translation quality and the cross-lingual transfer on toxicity mitigation. We also explore how model size and data quantity affect the success of these mitigation efforts. Covering nine languages, our study represents a broad array of linguistic families and levels of resource availability, ranging from high to mid-resource languages. Through comprehensive experiments, we provide insights into the complexities of multilingual toxicity mitigation, offering valuable insights and paving the way for future research in this increasingly important field. Code and data are available at https://github.com/for-ai/goodtriever. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# 電子カルテにおける関節疾患予測のためのマルチタスク自動学習
Automated Multi-Task Learning for Joint Disease Prediction on Electronic Health Records ( http://arxiv.org/abs/2403.04086v2 ) ライセンス: Link先を確認 | Suhan Cui, Prasenjit Mitra, | (参考訳) ビッグデータとデジタルヘルスケアの分野では、Electronic Health Records(EHR)は、患者のケアと医療研究を改善する可能性のある、豊富な情報ソースとなっている。
近年、患者の将来の健康状態を予測するために、EHRデータを分析するための機械学習モデルが増加している。
そのうちの1つはマルチタスク学習(MTL)で、単一のタスク学習よりも予測性能を向上させるために、複数のターゲット疾患を共同で予測することである。
しかしながら、現在のEMHデータのためのMTLフレームワークは、共同トレーニングとデザインモデルアーキテクチャのためのタスクグループを特定するために、人間の専門家に大きく依存しているため、大きな制限がある。
人間の介入を減らし,フレームワーク設計を改善するために,タスクグループとアーキテクチャの最適構成を同時に検索できるAutoDPという自動手法を提案する。
タスクの組み合わせとアーキテクチャを含む膨大な共同探索空間に対処するために,代用モデルに基づく最適化を採用し,最適解を効率的に発見する。
実世界のEHRデータによる実験結果から,提案したAutoDPフレームワークの有効性が示された。
ハンドクラフトと自動化された最先端の手法の両方に対して大幅な性能向上を実現し、同時に検索コストを同時に維持する。
In the realm of big data and digital healthcare, Electronic Health Records (EHR) have become a rich source of information with the potential to improve patient care and medical research. In recent years, machine learning models have proliferated for analyzing EHR data to predict patients future health conditions. Among them, some studies advocate for multi-task learning (MTL) to jointly predict multiple target diseases for improving the prediction performance over single task learning. Nevertheless, current MTL frameworks for EHR data have significant limitations due to their heavy reliance on human experts to identify task groups for joint training and design model architectures. To reduce human intervention and improve the framework design, we propose an automated approach named AutoDP, which can search for the optimal configuration of task grouping and architectures simultaneously. To tackle the vast joint search space encompassing task combinations and architectures, we employ surrogate model-based optimization, enabling us to efficiently discover the optimal solution. Experimental results on real-world EHR data demonstrate the efficacy of the proposed AutoDP framework. It achieves significant performance improvements over both hand-crafted and automated state-of-the-art methods, also maintains a feasible search cost at the same time. | 翻訳日:2024-05-31 20:54:36 公開日:2024-05-30 |
# セグメント情報を用いたエッジ情報学習マシンの画像符号化
Image Coding for Machines with Edge Information Learning Using Segment Anything ( http://arxiv.org/abs/2403.04173v2 ) ライセンス: Link先を確認 | Takahiro Shindo, Kein Yamada, Taiju Watanabe, Hiroshi Watanabe, | (参考訳) Image Coding for Machines (ICM) は画像認識のための画像圧縮技術である。
この技術は、画像認識AIの需要が高まっているため、不可欠である。
本稿では,SA-ICMと呼ぶ画像中の対象部分のエッジ情報のみを符号化・復号するICMの手法を提案する。
これは、Segment Anythingによって生成されたエッジ情報を使用してトレーニングされた、学習された画像圧縮(lic)モデルである。
本手法は,様々なタスクを持つ画像認識モデルに利用できる。
SA-ICMは入力データの変更にも堅牢で、さまざまなユースケースで有効です。
さらに,エンコーダ側の顔情報を取り除き,ユーザのプライバシーを保護することにより,プライバシーの観点からのメリットを提供する。
さらに、ビデオ圧縮モデルであるNeRV(Neural Representations for Videos)のトレーニングにも使用できる。
Segment Anythingによって生成されたエッジ情報を用いてNeRVをトレーニングすることにより、画像認識(SA-NeRV)に有効なNeRVを作成することができる。
実験により,SA-ICMの利点が確認され,画像認識に最適な画像圧縮性能が得られた。
また,SA-NeRVはビデオ圧縮において通常のNeRVよりも優れていることを示す。
Image Coding for Machines (ICM) is an image compression technique for image recognition. This technique is essential due to the growing demand for image recognition AI. In this paper, we propose a method for ICM that focuses on encoding and decoding only the edge information of object parts in an image, which we call SA-ICM. This is an Learned Image Compression (LIC) model trained using edge information created by Segment Anything. Our method can be used for image recognition models with various tasks. SA-ICM is also robust to changes in input data, making it effective for a variety of use cases. Additionally, our method provides benefits from a privacy point of view, as it removes human facial information on the encoder's side, thus protecting one's privacy. Furthermore, this LIC model training method can be used to train Neural Representations for Videos (NeRV), which is a video compression model. By training NeRV using edge information created by Segment Anything, it is possible to create a NeRV that is effective for image recognition (SA-NeRV). Experimental results confirm the advantages of SA-ICM, presenting the best performance in image compression for image recognition. We also show that SA-NeRV is superior to ordinary NeRV in video compression for machines. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# アラビアコールドメインにおける音声認識評価のための新しいベンチマーク
A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain ( http://arxiv.org/abs/2403.04280v2 ) ライセンス: Link先を確認 | Qusai Abo Obaidah, Muhy Eddin Za'ter, Adnan Jaljuli, Ali Mahboub, Asma Hakouz, Bashar Al-Rfooh, Yazan Estaitia, | (参考訳) この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
アラビア語は方言の多様性と音声の複雑さを特徴とし、自動音声認識(ASR)システムに固有の課題を数多く提示している。
これらの課題は、音声品質、背景雑音、会話音声スタイルが認識精度に悪影響を及ぼす電話の領域においてさらに増幅される。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
本ベンチマークは,多様な方言表現を取り入れ,通話記録の変動品質を考慮し,アラビア語音声の複雑度を電話で操作できるASRシステムの開発と評価のための厳密な試験基盤を提供することを目的とする。
この研究は、最先端のASR技術を用いたベースライン性能評価の確立も試みている。
This work is an attempt to introduce a comprehensive benchmark for Arabic speech recognition, specifically tailored to address the challenges of telephone conversations in Arabic language. Arabic, characterized by its rich dialectal diversity and phonetic complexity, presents a number of unique challenges for automatic speech recognition (ASR) systems. These challenges are further amplified in the domain of telephone calls, where audio quality, background noise, and conversational speech styles negatively affect recognition accuracy. Our work aims to establish a robust benchmark that not only encompasses the broad spectrum of Arabic dialects but also emulates the real-world conditions of call-based communications. By incorporating diverse dialectical expressions and accounting for the variable quality of call recordings, this benchmark seeks to provide a rigorous testing ground for the development and evaluation of ASR systems capable of navigating the complexities of Arabic speech in telephonic contexts. This work also attempts to establish a baseline performance evaluation using state-of-the-art ASR technologies. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# 多様性による統一:マルチモーダルVAEにおける表現学習の改善
Unity by Diversity: Improved Representation Learning in Multimodal VAEs ( http://arxiv.org/abs/2403.05300v2 ) ライセンス: Link先を確認 | Thomas M. Sutter, Yang Meng, Andrea Agostini, Daphné Chopard, Norbert Fortin, Julia E. Vogt, Bahbak Shahbaba, Stephan Mandt, | (参考訳) マルチモーダルデータのための変分オートエンコーダは、表現学習、条件生成、計算など、データ分析における多くのタスクを約束する。
現在のアーキテクチャはエンコーダ出力を共有したり、デコーダ入力を共有したり、あるいはモダリティを越えて共有表現を学ぶ。
このようなアーキテクチャは、モデルに厳しい制約を課します。
本研究では,これらの制約をソフト制約に置き換えることで,より優れた潜在表現が得られることを示す。
そこで本研究では,各モータリティの潜在表現を,共有集合部分に対してソフトに導出する,新しい実験混合物を提案する。
このアプローチにより、より優れた潜在表現が得られ、各エンコーディングは、圧縮されていない元の特徴から情報をよりよく保存することができる。
複数のベンチマークデータセットと2つの挑戦的な実世界のデータセットに関する広範な実験では、既存の手法と比較して学習された潜在表現と欠落したデータモダリティの計算が改善された。
Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality's latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information better from its uncompressed original features. In extensive experiments on multiple benchmark datasets and two challenging real-world datasets, we show improved learned latent representations and imputation of missing data modalities compared to existing methods. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# アウト・オブ・ディストリビューション検出による信頼性のある部分ラベル学習
Trustworthy Partial Label Learning with Out-of-distribution Detection ( http://arxiv.org/abs/2403.06681v2 ) ライセンス: Link先を確認 | Jintao Huang, Yiu-Ming Cheung, | (参考訳) 部分ラベル学習(PLL)は、明瞭にラベル付けされたデータから学習し、画像認識などの分野でうまく応用されている。
それでも、従来のPLL法はクローズドワールドの仮定に依存しており、これはオープンワールドのシナリオで制限され、モデルの性能と一般化に悪影響を及ぼす可能性がある。
これらの課題に対処するために,PLLフレームワークにOOD検出を組み込んだ新しい手法であるPLL-OODを紹介した。
PLL-OODは、自己教師付き学習と部分ラベル損失を併用し、OOD検出のための部分エネルギー(PE)スコアを開拓することにより、モデルの適応性と精度を著しく向上させる。
このアプローチはデータ特徴表現を改善し、動的ラベル信頼行列を用いて予測を洗練することにより、候補ラベルを効果的に曖昧にする。
ラベル信頼度によって調整されたPEスコアは、OODインスタンスを正確に識別し、分散データに対するモデルトレーニングを最適化する。
この革新的な手法は、オープンワールド環境でのPLLモデルの堅牢性と性能を著しく向上させる。
我々は,既存のPLLモデルとCIFAR-10およびCIFAR-100データセットの複数のOODスコアを組み合わせた総合的な比較実験を行った。
その結果,提案するPLL-OODフレームワークは有効性が高く,既存のモデルよりも優れており,その優位性と有効性を示している。
Partial Label Learning (PLL) grapples with learning from ambiguously labelled data, and it has been successfully applied in fields such as image recognition. Nevertheless, traditional PLL methods rely on the closed-world assumption, which can be limiting in open-world scenarios and negatively impact model performance and generalization. To tackle these challenges, our study introduces a novel method called PLL-OOD, which is the first to incorporate Out-of-Distribution (OOD) detection into the PLL framework. PLL-OOD significantly enhances model adaptability and accuracy by merging self-supervised learning with partial label loss and pioneering the Partial-Energy (PE) score for OOD detection. This approach improves data feature representation and effectively disambiguates candidate labels, using a dynamic label confidence matrix to refine predictions. The PE score, adjusted by label confidence, precisely identifies OOD instances, optimizing model training towards in-distribution data. This innovative method markedly boosts PLL model robustness and performance in open-world settings. To validate our approach, we conducted a comprehensive comparative experiment combining the existing state-of-the-art PLL model with multiple OOD scores on the CIFAR-10 and CIFAR-100 datasets with various OOD datasets. The results demonstrate that the proposed PLL-OOD framework is highly effective and effectiveness outperforms existing models, showcasing its superiority and effectiveness. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# SPA: 計算フレンドリーなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズジェネレーションを目指して
SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation ( http://arxiv.org/abs/2403.07088v3 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu, Mingbang Wang, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LLMは低リソースデバイスにかなりのメモリストレージを必要とする。
さらに重要なのは、これらのデバイスの計算速度も大幅に制限されていることだ。
本稿では、厳密なオンデバイス計算とメモリ制約の制約に対する高速なオンデバイス推論のための軽量アーキテクチャであるSPA(Side Plugin Adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,クラウド上での事前学習LLMとデバイス上での付加的パラメータとの相互作用を確立し,事前学習LLMの知識と特徴的特徴を両立させることができる。
さらに、SPAは、高次計算装置の一般情報を含むパラメータを残しながら、低次計算装置に特徴ベースパラメータを保持するためのフレームワークを提供する。
Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require substantial memory storage on low-resource devices. More critically, the computational speed on these devices is also severely limited. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and featured personal feature. Further more, SPA provides a framework to keep feature-base parameters on low computational devices while leave the parameters containing general information on the high computational devices. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# A2PO:アドバンテージ・アウェアの観点からの効果的なオフライン強化学習を目指して
A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective ( http://arxiv.org/abs/2403.07262v2 ) ライセンス: Link先を確認 | Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou, Mingli Song, | (参考訳) オフライン強化学習はオフラインデータセットを活用して、オンラインインタラクションなしで効果的なエージェントポリシーを構築するための努力である。
しかしながら、既存の作業は、オフラインデータセットが複数の行動ポリシーから収集される場合、すなわち、異なる行動ポリシーが状態空間をまたいだ異なるリターンを持つ一貫性のない行動を示す場合、制約競合問題に悩まされることが多い。
この問題を解決するため、近年の利便重み付け手法では、行動方針の多様性を必然的に無視しつつ、エージェントトレーニングに高い優位性を持つサンプルを優先している。
本稿では,混合品質データセット下でのオフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
具体的には、A2POは条件付き変分自動エンコーダを用いて、全てのトレーニングデータの利点値を条件変数としてモデル化することにより、相互に絡み合った行動ポリシーの動作分布をアンタングルする。
そして、エージェントはそのような非絡み合いの行動分布制約に従えば、有利な値に対する有利なポリシーを最適化することができる。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された大規模な実験により、A2POがA2POよりも優れた結果が得られることが示された。
私たちのコードは公開されます。
Offline reinforcement learning endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the out-of-distribution problem. However, existing works often suffer from the constraint conflict issue when offline datasets are collected from multiple behavior policies, i.e., different behavior policies may exhibit inconsistent actions with distinct returns across the state space. To remedy this issue, recent advantage-weighted methods prioritize samples with high advantage values for agent training while inevitably ignoring the diversity of behavior policy. In this paper, we introduce a novel Advantage-Aware Policy Optimization (A2PO) method to explicitly construct advantage-aware policy constraints for offline learning under mixed-quality datasets. Specifically, A2PO employs a conditional variational auto-encoder to disentangle the action distributions of intertwined behavior policies by modeling the advantage values of all training data as conditional variables. Then the agent can follow such disentangled action distribution constraints to optimize the advantage-aware policy towards high advantage values. Extensive experiments conducted on both the single-quality and mixed-quality datasets of the D4RL benchmark demonstrate that A2PO yields results superior to the counterparts. Our code will be made publicly available. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# シャッフル法の最後のIterate Convergenceについて
On the Last-Iterate Convergence of Shuffling Gradient Methods ( http://arxiv.org/abs/2403.07723v2 ) ライセンス: Link先を確認 | Zijian Liu, Zhengyuan Zhou, | (参考訳) シャッフル勾配法は、特にRandom Reshuffle (RR)、Shuffle Once (SO)、Incrmental Gradient (IG)の3つの一般的なアルゴリズムを含む、実践的に広く実装されている。
経験的成功と比較して、シャッフル勾配法の理論的保証は長い間十分に理解されていなかった。
最近まで、収束速度は凸関数の平均反復率と強い凸問題(計量として2乗距離を用いる)の最終反復率に対して確立されていた。
しかし、関数値ギャップを収束基準として使う場合、既存の理論では、異なる設定(例えば制約付き最適化)で最後の繰り返しの良好な性能を解釈することはできない。
この実践と理論のギャップを埋めるために、強い凸性をもたずに、目的値に関して勾配法をシャッフルする最初の最終点収束率を証明した。
我々の新しい結果は、(ほぼ)既存の最下限の値と一致するか、あるいは、平均的イテレートの前の最上限の速度に等しいかのどちらかです。
Shuffling gradient methods are widely implemented in practice, particularly including three popular algorithms: Random Reshuffle (RR), Shuffle Once (SO), and Incremental Gradient (IG). Compared to the empirical success, the theoretical guarantee of shuffling gradient methods was not well-understood for a long time. Until recently, the convergence rates had just been established for the average iterate for convex functions and the last iterate for strongly convex problems (using squared distance as the metric). However, when using the function value gap as the convergence criterion, existing theories cannot interpret the good performance of the last iterate in different settings (e.g., constrained optimization). To bridge this gap between practice and theory, we prove the first last-iterate convergence rates for shuffling gradient methods with respect to the objective value even without strong convexity. Our new results either (nearly) match the existing last-iterate lower bounds or are as fast as the previous best upper bounds for the average iterate. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# エントロピーとその生産に関する顕微鏡的研究
Comparative Microscopic Study of Entropies and their Production ( http://arxiv.org/abs/2403.09403v2 ) ライセンス: Link先を確認 | Philipp Strasberg, Joseph Schindler, | (参考訳) 本研究では, ボルツマン表面, ギブス体積, 正準, 粗粒度, 絡み合い, 対角形) と3つの微視的温度定義(ボルツマン, ギブス, 正準エントロピー)の時間進化について検討した。
これは、シュレーディンガー方程式の数値積分に基づいて、ここでランダム行列理論でモデル化されたエネルギーを交換する2つの系の根元的非平衡設定のために行われる。
そこで本研究では,3種類の純初期状態(局所エネルギー固有状態,非相関および絡み合ったマイクロカノニカル状態)と,(A)正規系,(B)常温系,(C)正熱容量系,(C)正熱容量系の3種類のシステムを考える。
1)全ての初期状態が同じマクロ力学を生じさせる。
2) エンタングルメントと対角エントロピーは, 他のすべてのエントロピーとは対照的に, マイクロステートに敏感に依存する。
(3) クラスBとCでは、ギブス体積エントロピーは第二法則に反し、関連する温度は無意味になる。
(4)クラスCの場合、ボルツマン表面のエントロピーは第二の法則に反し、関連する温度は無意味となる。
(5)正準エントロピーはほぼ一定である傾向にある。
(6) ランダムな初期状態の場合、絡み合いや斜めエントロピーは粗い粒状観測エントロピーと同一または同一の振る舞いをする。
We study the time evolution of eleven microscopic entropy definitions (of Boltzmann-surface, Gibbs-volume, canonical, coarse-grained-observational, entanglement and diagonal type) and three microscopic temperature definitions (based on Boltzmann, Gibbs or canonical entropy). This is done for the archetypal nonequilibrium setup of two systems exchanging energy, modeled here with random matrix theory, based on numerical integration of the Schroedinger equation. We consider three types of pure initial states (local energy eigenstates, decorrelated and entangled microcanonical states) and three classes of systems: (A) two normal systems, (B) a normal and a negative temperature system and (C) a normal and a negative heat capacity system. We find: (1) All types of initial states give rise to the same macroscopic dynamics. (2) Entanglement and diagonal entropy sensitively depend on the microstate, in contrast to all other entropies. (3) For class B and C, Gibbs-volume entropies can violate the second law and the associated temperature becomes meaningless. (4) For class C, Boltzmann-surface entropies can violate the second law and the associated temperature becomes meaningless. (5) Canonical entropy has a tendency to remain almost constant. (6) For a Haar random initial state, entanglement or diagonal entropy behave similar or identical to coarse-grained-observational entropy. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# 大規模言語モデルにおける高速投機復号化のための逐次描画法
Recurrent Drafter for Fast Speculative Decoding in Large Language Models ( http://arxiv.org/abs/2403.09919v3 ) ライセンス: Link先を確認 | Aonan Zhang, Chong Wang, Yi Wang, Xuanyu Zhang, Yunfei Cheng, | (参考訳) 本稿では,大規模言語モデルの提供効率向上を目的とした投機的復号法の改良手法を提案する。
提案手法は,古典的2モデル投機的復号法と,より最近の単一モデル法であるMedusaという2つの確立された手法の長所を生かしている。
Medusaからインスピレーションを得た私たちのアプローチでは、投機的復号化のための単一モデル戦略を採用しています。
しかし,本手法は,従来の投機的復号法で使用される小型のドラフトモデルと本質的に類似しているが,完全なトランスフォーマーアーキテクチャの複雑さは伴わない。
そして、繰り返し発生する依存関係のため、ビームサーチを使用して、望ましくない候補をドラフトヘッドで素早くフィルタリングすることができる。
その結果、単一モデル設計の単純さを組み合わせ、Medusaの推論にのみデータ依存のツリーアテンション構造を作成する必要がなくなる。
提案手法がいくつかのポピュラーなオープンソース言語モデルに対して有効であることを実証的に示すとともに,このアプローチの適用に関わるトレードオフを包括的に分析する。
In this paper, we introduce an improved approach of speculative decoding aimed at enhancing the efficiency of serving large language models. Our method capitalizes on the strengths of two established techniques: the classic two-model speculative decoding approach, and the more recent single-model approach, Medusa. Drawing inspiration from Medusa, our approach adopts a single-model strategy for speculative decoding. However, our method distinguishes itself by employing a single, lightweight draft head with a recurrent dependency design, akin in essence to the small, draft model uses in classic speculative decoding, but without the complexities of the full transformer architecture. And because of the recurrent dependency, we can use beam search to swiftly filter out undesired candidates with the draft head. The outcome is a method that combines the simplicity of single-model design and avoids the need to create a data-dependent tree attention structure only for inference in Medusa. We empirically demonstrate the effectiveness of the proposed method on several popular open source language models, along with a comprehensive analysis of the trade-offs involved in adopting this approach. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# 置換対称性を利用した量子対数配置の高濃度不等式
Tight concentration inequalities for quantum adversarial setups exploiting permutation symmetry ( http://arxiv.org/abs/2403.11719v2 ) ライセンス: Link先を確認 | Takaya Matsuura, Shinichiro Yamano, Yui Kuramochi, Toshihiko Sasaki, Masato Koashi, | (参考訳) 我々は,量子状態に対する新しい濃度不等式を$N$-quditシステム上で開発した。
量子状態に対する我々の片側濃度の不等式は、$N$-qudit系は置換不変であり、したがってデ・フィネッティ型である必要があるが、それらは以前に得られたものよりも厳密である。
それぞれのキューディット系が追加の対称性を持つ場合、境界をさらに締め付けることができることを示す。
さらに,N$-qudit量子系における独立および同一の測定結果に対する濃度不等式は,逆量子状態に対する仮定がなく,吾妻の不等式による従来のものよりもはるかに厳密である。
簡単な量子情報処理タスクにおいて,境界の厳密さを数値的に示す。
We developed new concentration inequalities for a quantum state on an $N$-qudit system or measurement outcomes on it that apply to an adversarial setup, where an adversary prepares the quantum state. Our one-sided concentration inequalities for a quantum state require the $N$-qudit system to be permutation invariant and are thus de-Finetti type, but they are tighter than the one previously obtained. We show that the bound can further be tightened if each qudit system has an additional symmetry. Furthermore, our concentration inequality for the outcomes of independent and identical measurements on an $N$-qudit quantum system has no assumption on the adversarial quantum state and is much tighter than the conventional one obtained through Azuma's inequality. We numerically demonstrate the tightness of our bounds in simple quantum information processing tasks. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# CICLe: 大規模多型食品リスク分類のためのコンフォーマル・インコンテクスト学習
CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification ( http://arxiv.org/abs/2403.11904v3 ) ライセンス: Link先を確認 | Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren, | (参考訳) 汚染された食品や成体の食品は、人間の健康に重大なリスクをもたらす。
トレーニング用のラベル付きWebテキストセットが与えられたら、機械学習と自然言語処理を適用して、そのようなリスクを自動的に検出することができる。
我々は,公開食品リコール発表を記述した7,546の短いテキストのデータセットを公開している。
各テキストは、2つの粒度レベル(粗さと微妙さ)で手動でラベル付けされる。
データセットとベンチマークナイーブ、従来型、トランスフォーマーモデルについて説明する。
分析の結果,tf-idf表現に基づくロジスティック回帰は,低サポートのクラスではRoBERTaとXLM-Rより優れていた。
最後に,異なるプロンプト戦略について議論し,コンフォーマル予測に基づくLLM-in-the-loopフレームワークを提案する。
Contaminated or adulterated food poses a substantial risk to human health. Given sets of labeled web texts for training, Machine Learning and Natural Language Processing can be applied to automatically detect such risks. We publish a dataset of 7,546 short texts describing public food recall announcements. Each text is manually labeled, on two granularity levels (coarse and fine), for food products and hazards that the recall corresponds to. We describe the dataset and benchmark naive, traditional, and Transformer models. Based on our analysis, Logistic Regression based on a tf-idf representation outperforms RoBERTa and XLM-R on classes with low support. Finally, we discuss different prompting strategies and present an LLM-in-the-loop framework, based on Conformal Prediction, which boosts the performance of the base classifier while reducing energy consumption compared to normal prompting. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# MTP:マルチタスク事前学習によるリモートセンシング基礎モデルの改善
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining ( http://arxiv.org/abs/2403.13430v2 ) ライセンス: Link先を確認 | Di Wang, Jing Zhang, Minqiang Xu, Lin Liu, Dongsheng Wang, Erzhong Gao, Chengxi Han, Haonan Guo, Bo Du, Dacheng Tao, Liangpei Zhang, | (参考訳) ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
プレトレーニングは、モデルウェイトを効果的に初期化するための教師付きおよび自己監督型学習手法を含む、活発な研究トピックである。
しかし、事前訓練されたモデルを下流タスクに転送することは、画像分類や物体識別タスクとして事前訓練を定式化することによって、タスクの相違に遭遇する可能性がある。
本研究では,RS基盤モデルのマルチタスク事前学習(MTP)パラダイムを考察し,この問題に対処する。
共有エンコーダとタスク固有のデコーダアーキテクチャを用いて、SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクの事前トレーニングを行う。
MTPは3億以上のパラメータを持つ畳み込みニューラルネットワークとビジョントランスフォーマー基盤モデルの両方をサポートしている。
事前訓練されたモデルは、シーン分類、水平および回転オブジェクト検出、セマンティックセグメンテーション、変更検出など、様々なRS下流タスクで微調整される。
14のデータセットにわたる大規模な実験は、我々のモデルが、同じ大きさの既存モデルよりも優れており、その競争性能が、より大きな最先端モデルに比べて優れていることを実証し、MPPの有効性を検証した。
Foundation models have reshaped the landscape of Remote Sensing (RS) by enhancing various image interpretation tasks. Pretraining is an active research topic, encompassing supervised and self-supervised learning methods to initialize model weights effectively. However, transferring the pretrained models to downstream tasks may encounter task discrepancy due to their formulation of pretraining as image classification or object discrimination tasks. In this study, we explore the Multi-Task Pretraining (MTP) paradigm for RS foundation models to address this issue. Using a shared encoder and task-specific decoder architecture, we conduct multi-task supervised pretraining on the SAMRS dataset, encompassing semantic segmentation, instance segmentation, and rotated object detection. MTP supports both convolutional neural networks and vision transformer foundation models with over 300 million parameters. The pretrained models are finetuned on various RS downstream tasks, such as scene classification, horizontal and rotated object detection, semantic segmentation, and change detection. Extensive experiments across 14 datasets demonstrate the superiority of our models over existing ones of similar size and their competitive performance compared to larger state-of-the-art models, thus validating the effectiveness of MTP. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# LLM埋め込みによるテキストクラスタリング
Text clustering with LLM embeddings ( http://arxiv.org/abs/2403.15112v3 ) ライセンス: Link先を確認 | Alina Petukhova, João P. Matos-Carvalho, Nuno Fachada, | (参考訳) テキストクラスタリングは、デジタルコンテンツの増加を組織化する上で重要なアプローチであり、分類されていないデータに隠されたパターンを構造化し見つけるのに役立つ。
しかし、テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存している。
我々は,近年の大規模言語モデル(LLM)の進歩が,この課題を改善する可能性を示唆している。
本研究では、異なるテキスト埋め込み(特にLLMで使用されるもの)とクラスタリングアルゴリズムが、テキストデータセットのクラスタリングに与える影響について検討した。
組込みがクラスタリング結果にどのように影響するか, 要約による次元還元による役割, モデルサイズ調整について, 一連の実験を行った。
LLMの埋め込みは構造化言語の微妙さを捉えるのに優れており、BERTはパフォーマンスの軽量なオプションをリードしている。
さらに,モデル次元の増大と要約手法の活用がクラスタリング効率の向上に一貫した寄与を示さないことから,これらの戦略は実生活モデルでの使用に注意深い分析が必要であることが示唆された。
これらの結果は、洗練されたテキスト表現の必要性と、テキストクラスタリングアプリケーションにおける計算可能性との複雑なバランスを浮き彫りにする。
本研究は,従来のテキストクラスタリングフレームワークを拡張し,LCMからの埋め込みを取り入れ,方法論改善の道筋を提供するとともに,将来的なテキスト解析の手法として新たな道筋を示す。
Text clustering is an important approach for organising the growing amount of digital content, helping to structure and find hidden patterns in uncategorised data. However, the effectiveness of text clustering heavily relies on the choice of textual embeddings and clustering algorithms. We argue that recent advances in large language models (LLMs) can potentially improve this task. In this research, we investigated how different textual embeddings -- particularly those used in LLMs -- and clustering algorithms affect how text datasets are clustered. A series of experiments were conducted to assess how embeddings influence clustering results, the role played by dimensionality reduction through summarisation, and model size adjustment. Findings reveal that LLM embeddings excel at capturing subtleties in structured language, while BERT leads the lightweight options in performance. In addition, we observe that increasing model dimensionality and employing summarization techniques do not consistently lead to improvements in clustering efficiency, suggesting that these strategies require careful analysis to use in real-life models. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by incorporating embeddings from LLMs, providing a path for improved methodologies, while informing new avenues for future research in various types of textual analysis. | 翻訳日:2024-05-31 20:44:52 公開日:2024-05-30 |
# 順序認識参照によるデータ効率のよい3次元視覚グラウンド
Data-Efficient 3D Visual Grounding via Order-Aware Referring ( http://arxiv.org/abs/2403.16539v2 ) ライセンス: Link先を確認 | Tung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang, | (参考訳) 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。
以前の作品は、通常、それに対応する複雑な言語と視覚の関係を利用するために、点の色とその記述に関する重要なデータを必要とする。
本稿では,新しい3次元ビジュアルグラウンドフレームワークであるVigorについて紹介する。
Vigor は LLM を利用して3次元視覚グラウンドの入力記述から望ましい参照順序を生成する。
提案したスタック化されたオブジェクト参照ブロックにより、上記の順序で予測されたアンカーオブジェクトは、アンカーオブジェクトの同一性やアンカー/ターゲットオブジェクト間の正確な関係を監督することなく、ターゲットオブジェクトを徐々に特定できる。
さらに,視覚的接地フレームワークを事前訓練するための参照命令を付加する,注文対応ウォームアップトレーニング戦略を提案する。
これにより、複雑な言語と視覚の関係をよりよく把握し、望ましいデータ効率の学習手法の恩恵を受けることができる。
NR3DおよびScanReferデータセットの実験結果は、低リソースシナリオにおける我々の優位性を実証している。
特に、Vigorは現在の最先端フレームワークを9.3%上回り、7.6%の精度で、それぞれ1%のデータと10%のデータ設定をNR3Dデータセットで下支えしている。
3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. Previous works usually require significant data relating to point color and their descriptions to exploit the corresponding complicated verbo-visual relations. In our work, we introduce Vigor, a novel Data-Efficient 3D Visual Grounding framework via Order-aware Referring. Vigor leverages LLM to produce a desirable referential order from the input description for 3D visual grounding. With the proposed stacked object-referring blocks, the predicted anchor objects in the above order allow one to locate the target object progressively without supervision on the identities of anchor objects or exact relations between anchor/target objects. In addition, we present an order-aware warm-up training strategy, which augments referential orders for pre-training the visual grounding framework. This allows us to better capture the complex verbo-visual relations and benefit the desirable data-efficient learning scheme. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in low-resource scenarios. In particular, Vigor surpasses current state-of-the-art frameworks by 9.3% and 7.6% grounding accuracy under 1% data and 10% data settings on the NR3D dataset, respectively. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# SegICL:医療画像におけるセグメンテーション強化のためのマルチモーダルインコンテキスト学習フレームワーク
SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging ( http://arxiv.org/abs/2403.16578v4 ) ライセンス: Link先を確認 | Lingdong Shen, Fangxin Shang, Xiaoshuang Huang, Yehui Yang, Haifeng Huang, Shiming Xiang, | (参考訳) 医用画像のセグメンテーションの分野では、アウト・オブ・ディストリビューション(OOD)のセグメンテーションタスクを費用対効果で扱うことが大きな課題である。
ユニバーサルセグメンテーションモデル(Universal segmentation model)は、医療画像の様々なモダリティを一般化することを目的としたソリューションである。
少ないショットの学習セグメンテーション法は、典型的にはデータの特定のモダリティのために設計されており、他のモダリティで使用するために直接転送することはできない。
そこで我々は,画像セグメンテーションにIn-Context Learning(ICL)を活用する新しいアプローチであるSegICLを紹介した。
既存の方法とは異なり、SegICLはテキスト誘導セグメンテーションを採用し、小さなイメージマスクペアでコンテキスト内学習を行う機能を備えており、OODタスク(OODモダリティとデータセットを含む)のスクラッチや微調整からモデルをトレーニングする必要がなくなる。
OODタスクにおけるショット数とセグメンテーション性能の正の相関を示す。
ショット供給時のセグメンテーション性能はゼロショット設定時の性能の約1.5倍である。
これは、SegICLがコンテキスト情報に基づく新しいセグメンテーションタスクに効果的に対処していることを示している。
さらに、SegICLはOODおよび分散タスクのメインストリームモデルに匹敵するパフォーマンスを示す。
私たちのコードは、論文レビューの後にリリースされます。
In the field of medical image segmentation, tackling Out-of-Distribution (OOD) segmentation tasks in a cost-effective manner remains a significant challenge. Universal segmentation models is a solution, which aim to generalize across the diverse modality of medical images, yet their effectiveness often diminishes when applied to OOD data modalities and tasks, requiring intricate fine-tuning of model for optimal performance. Few-shot learning segmentation methods are typically designed for specific modalities of data and cannot be directly transferred for use with another modality. Therefore, we introduce SegICL, a novel approach leveraging In-Context Learning (ICL) for image segmentation. Unlike existing methods, SegICL has the capability to employ text-guided segmentation and conduct in-context learning with a small set of image-mask pairs, eliminating the need for training the model from scratch or fine-tuning for OOD tasks (including OOD modality and dataset). Extensive experimental demonstrates a positive correlation between the number of shots and segmentation performance on OOD tasks. The performance of segmentation when provided thre-shots is approximately 1.5 times better than the performance in a zero-shot setting. This indicates that SegICL effectively address new segmentation tasks based on contextual information. Additionally, SegICL also exhibits comparable performance to mainstream models on OOD and in-distribution tasks. Our code will be released after paper review. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# 反復型ニューラルネットワークにおける不確かさ推定
Enabling Uncertainty Estimation in Iterative Neural Networks ( http://arxiv.org/abs/2403.16732v2 ) ライセンス: Link先を確認 | Nikita Durasov, Doruk Oner, Jonathan Donier, Hieu Le, Pascal Fua, | (参考訳) パススルーネットワークアーキテクチャを、自身の出力を入力として使用する反復的なアーキテクチャに変換することは、パフォーマンスを高めるためのよく知られたアプローチである。
本稿では,これらのアーキテクチャが付加的な利点をもたらすことを論じる: 連続する出力の収束率は,収束する値の精度と高い相関関係を持つ。
したがって、収束率を不確実性のための有用なプロキシとして利用することができる。
これは、アンサンブルのような手法よりもはるかに低い計算コストで最先端の見積もりを提供する不確実性推定へのアプローチであり、元の反復モデルを変更する必要はない。
航空画像における道路検出と2次元および3次元形状の空力特性の推定という2つの応用領域に組み込むことで,その実用的価値を実証する。
Turning pass-through network architectures into iterative ones, which use their own output as input, is a well-known approach for boosting performance. In this paper, we argue that such architectures offer an additional benefit: The convergence rate of their successive outputs is highly correlated with the accuracy of the value to which they converge. Thus, we can use the convergence rate as a useful proxy for uncertainty. This results in an approach to uncertainty estimation that provides state-of-the-art estimates at a much lower computational cost than techniques like Ensembles, and without requiring any modifications to the original iterative model. We demonstrate its practical value by embedding it in two application domains: road detection in aerial images and the estimation of aerodynamic properties of 2D and 3D shapes. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# CurbNet: LiDARポイントクラウドセグメンテーションに基づくカーブ検出フレームワーク
CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2403.16794v2 ) ライセンス: Link先を確認 | Guoyang Zhao, Fulong Ma, Weiqing Qi, Yuxuan Liu, Ming Liu, | (参考訳) カーブ検出は知的運転において重要な機能であり、道路上の乾燥可能な地域を決定するのに不可欠である。
しかし,道路環境の複雑化が抑制検出を困難にしている。
本稿では,ポイントクラウドセグメンテーションを利用した検出を抑える新しいフレームワークであるCurbNetを紹介する。
3Dアノテーションによる包括的なストレッチデータセットの欠如に対処するため,現在最大かつ最も多様なストレッチポイントクラウドであるSemanticKITTIに基づく3D-Curbデータセットを開発した。
縁石の主特性が高さ変化であることを認識し, 空間的にリッチな3次元点雲をトレーニングに活用する。
我々は,xy平面上の凹凸特性の不均一分布と,z軸に沿った高周波特性への依存による課題に対処するため,検出性能の最適化を目的としたマルチスケール・チャネルアテンション(MSCA)モジュールを提案する。
さらに, 適応重み付き損失関数群は, 他のカテゴリと比較して, ストレッチ点雲の分布の不均衡に対処するために特別に定式化された。
2つの主要なデータセットで実施された大規模な実験により,本手法はストレッチ検出とポイントクラウドセグメンテーションモデルによって設定された既存のベンチマークを上回っていることが示された。
検出結果の処理後改良により, ストレッチ検出におけるノイズを著しく低減し, 4.5点の精度向上を実現した。
同様に、我々の耐久実験は最先端の結果も達成した。
さらに、実世界の実験とデータセット分析は相互に検証し、CurbNetの優れた検出能力と堅牢な一般化性を補強する。
プロジェクトのWebサイトは、https://github.com/guoyangzhao/CurbNet/.comで公開されている。
Curb detection is a crucial function in intelligent driving, essential for determining drivable areas on the road. However, the complexity of road environments makes curb detection challenging. This paper introduces CurbNet, a novel framework for curb detection utilizing point cloud segmentation. To address the lack of comprehensive curb datasets with 3D annotations, we have developed the 3D-Curb dataset based on SemanticKITTI, currently the largest and most diverse collection of curb point clouds. Recognizing that the primary characteristic of curbs is height variation, our approach leverages spatially rich 3D point clouds for training. To tackle the challenges posed by the uneven distribution of curb features on the xy-plane and their dependence on high-frequency features along the z-axis, we introduce the Multi-Scale and Channel Attention (MSCA) module, a customized solution designed to optimize detection performance. Additionally, we propose an adaptive weighted loss function group specifically formulated to counteract the imbalance in the distribution of curb point clouds relative to other categories. Extensive experiments conducted on 2 major datasets demonstrate that our method surpasses existing benchmarks set by leading curb detection and point cloud segmentation models. Through the post-processing refinement of the detection results, we have significantly reduced noise in curb detection, thereby improving precision by 4.5 points. Similarly, our tolerance experiments also achieved state-of-the-art results. Furthermore, real-world experiments and dataset analyses mutually validate each other, reinforcing CurbNet's superior detection capability and robust generalizability. The project website is available at: https://github.com/guoyangzhao/CurbNet/. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# マルチビュー特徴抽出のための量子加速クロスレグレッションアルゴリズム
Quantum accelerated cross regression algorithm for multiview feature extraction ( http://arxiv.org/abs/2403.17444v3 ) ライセンス: Link先を確認 | Hai-Ling Liu, Ya-Qian Zhao, Ren-Gang Li, Xin Zhang, | (参考訳) マルチビュー特徴抽出(MvFE)は、機械学習、画像処理、その他の分野に広く応用されている。
大規模高次元データを扱う場合、MvFEにより古典コンピュータの性能は深刻な問題に直面し、高価な行列計算を行う。
この課題に対処するために、MvFEのための量子加速クロスレグレッションアルゴリズムを提案する。
1) MvFE の分野における量子コンピューティングのギャップを埋める MvFE の量子バージョンアルゴリズムを提案し、(2) 量子アルゴリズムは対象データ行列のブロックエンコーディングを構築するように設計され、ブロックエンコーディングフレームワークに基づく最適なハミルトンシミュレーション技術を使用して、対象データ行列の量子シミュレーションを効率的に実現することができる。
提案手法は,アルゴリズムのシミュレーション誤差への依存を低減し,アルゴリズム性能を向上させる。(3)古典的アルゴリズムと比較して,提案アルゴリズムは,データ点数,データ点の次元,ビューデータ数において多項式加速度を有する。
Multi-view Feature Extraction (MvFE) has wide applications in machine learning, image processing and other fields. When dealing with massive high-dimensional data, the performance of classical computer faces severe challenges due to MvFE involves expensive matrix calculation. To address this challenge, a quantum-accelerated cross-regression algorithm for MvFE is proposed. The main contributions are as follows:(1) a quantum version algorithm for MvFE is proposed for the first time, filling the gap of quantum computing in the field of MvFE;(2) a quantum algorithm is designed to construct the block-encoding of the target data matrix, so that the optimal Hamiltonian simulation technology based on the block-encoding framework can be used to efficiently realize the quantum simulation of the target data matrix. This approach reduces the dependence of the algorithm's on simulation errors to enhance algorithm performance;(3) compared with the classical counterpart algorithm, the proposed quantum algorithm has a polynomial acceleration in the number of data points, the dimension of data points and the number of view data. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# アラビア語における意味探索の評価とその検索・拡張生成(RAG)における役割
Evaluation of Semantic Search and its Role in Retrieved-Augmented-Generation (RAG) for Arabic Language ( http://arxiv.org/abs/2403.18350v2 ) ライセンス: Link先を確認 | Ali Mahboub, Muhy Eddin Za'ter, Bashar Al-Rfooh, Yazan Estaitia, Adnan Jaljuli, Asma Hakouz, | (参考訳) 機械学習とディープラーニングの最近の進歩は、セマンティックな類似性の概念を生み出した。
しかし、セマンティックな類似性を評価し、様々な文書にまたがる特定のクエリを探索することは、依然として複雑な作業である。
この複雑さは、タスクの多面的な性質、標準ベンチマークの欠如によるものであるが、これらの課題はアラビア語でさらに増幅されている。
本稿では,アラビア語のセマンティックサーチにおいて,単純かつ強力なベンチマークの確立に努める。
さらに、これらの指標とデータセットの有効性を正確に評価するために、検索拡張生成(RAG)の枠組み内で意味探索の評価を行う。
The latest advancements in machine learning and deep learning have brought forth the concept of semantic similarity, which has proven immensely beneficial in multiple applications and has largely replaced keyword search. However, evaluating semantic similarity and conducting searches for a specific query across various documents continue to be a complicated task. This complexity is due to the multifaceted nature of the task, the lack of standard benchmarks, whereas these challenges are further amplified for Arabic language. This paper endeavors to establish a straightforward yet potent benchmark for semantic search in Arabic. Moreover, to precisely evaluate the effectiveness of these metrics and the dataset, we conduct our assessment of semantic search within the framework of retrieval augmented generation (RAG). | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# Croissant:ML対応データセットのメタデータフォーマット
Croissant: A Metadata Format for ML-Ready Datasets ( http://arxiv.org/abs/2403.19546v2 ) ライセンス: Link先を確認 | Mubashara Akhtar, Omar Benjelloun, Costanza Conforti, Pieter Gijsbers, Joan Giner-Miguelez, Nitisha Jain, Michael Kuchnik, Quentin Lhoest, Pierre Marcenac, Manil Maskey, Peter Mattson, Luis Oala, Pierre Ruyssen, Rajat Shinde, Elena Simperl, Goeffry Thomas, Slava Tykhonov, Joaquin Vanschoren, Jos van der Velde, Steffen Vogler, Carole-Jean Wu, | (参考訳) データは機械学習(ML)にとって重要なリソースであるが、データを扱うことは重要な摩擦点である。
本稿では、MLツールやフレームワークでのデータの使用方法を簡単にするデータセットのメタデータフォーマットであるCroissantを紹介する。
Croissantは、データセットをより見つけやすく、ポータブルで、相互運用可能にし、MLデータ管理と責任あるAIにおける重要な課題に対処する。
Croissantはすでに、数十万のデータセットにまたがる人気のあるデータセットリポジトリによってサポートされており、最も人気のあるMLフレームワークにロードされる準備ができている。
Data is a critical resource for Machine Learning (ML), yet working with data remains a key friction point. This paper introduces Croissant, a metadata format for datasets that simplifies how data is used by ML tools and frameworks. Croissant makes datasets more discoverable, portable and interoperable, thereby addressing significant challenges in ML data management and responsible AI. Croissant is already supported by several popular dataset repositories, spanning hundreds of thousands of datasets, ready to be loaded into the most popular ML frameworks. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# DVIS-DAQ:動的アンカークエリによるビデオセグメンテーションの改善
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries ( http://arxiv.org/abs/2404.00086v3 ) ライセンス: Link先を確認 | Yikang Zhou, Tao Zhang, Shunping Ji, Shuicheng Yan, Xiangtai Li, | (参考訳) 現代のビデオセグメンテーション手法では、大規模な動きや過渡的閉塞にもかかわらず、オブジェクトクエリを用いてフレーム間アソシエーションを行い、連続的に現れるオブジェクトを追跡するのに満足な性能を示す。
しかし、それらはいずれも、背景と前景のクエリ間の大きな特徴ギャップを持つ特徴遷移を通じて、オブジェクトの出現と消失をモデル化しようとするために、現実世界でよく見られる、新しく出現し、消滅するオブジェクトに過小評価されている。
本稿では,潜在的な候補の特徴に基づいて,アンカークエリを動的に生成することにより,アンカーとターゲットクエリ間の遷移ギャップを短くする動的アンカークエリ(DAQ)を提案する。
さらに,クエリレベルのオブジェクトEmergence and Disappearance Simulation (EDS) 戦略を導入する。
最後に、提案したDAQとEDSをDVISと組み合わせてDVIS-DAQを得る。
大規模な実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
コードとモデルは \url{https://github.com/SkyworkAI/DAQ-VS} で公開されている。
Modern video segmentation methods adopt object queries to perform inter-frame association and demonstrate satisfactory performance in tracking continuously appearing objects despite large-scale motion and transient occlusion. However, they all underperform on newly emerging and disappearing objects that are common in the real world because they attempt to model object emergence and disappearance through feature transitions between background and foreground queries that have significant feature gaps. We introduce Dynamic Anchor Queries (DAQ) to shorten the transition gap between the anchor and target queries by dynamically generating anchor queries based on the features of potential candidates. Furthermore, we introduce a query-level object Emergence and Disappearance Simulation (EDS) strategy, which unleashes DAQ's potential without any additional cost. Finally, we combine our proposed DAQ and EDS with DVIS to obtain DVIS-DAQ. Extensive experiments demonstrate that DVIS-DAQ achieves a new state-of-the-art (SOTA) performance on five mainstream video segmentation benchmarks. Code and models are available at \url{https://github.com/SkyworkAI/DAQ-VS}. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# 非パラメトリック変化検出問題としてのブロックチェーンネットワーク上のEclipse攻撃検出
Eclipse Attack Detection on a Blockchain Network as a Non-Parametric Change Detection Problem ( http://arxiv.org/abs/2404.00538v2 ) ライセンス: Link先を確認 | Anurag Gupta, Vikram Krishnamurthy, Brian M. Sadler, | (参考訳) 本稿では,ブロックチェーンネットワーク上での日食攻撃を識別する新しい非パラメトリック変化検出アルゴリズムを提案する。
悪意のあるアクターがブロックチェーンユーザを隔離し、より広範なネットワークとのコンセンサスに達する能力を破壊して、ローカルコピーの台帳を歪めてしまうと、日食攻撃が発生する。
日食攻撃を検出するために、ブロックチェーンユーザを接続する進化するブロックチェーン通信ネットワークのFr\'echet平均と分散の変化を監視します。
まず、ジョンソン-リンデンシュトラウス補題を利用して、大きな次元のネットワークを低次元空間に投影し、重要な統計的性質を保存する。
その後、非パラメトリックな変化検出法を用い、日食攻撃がない場合にブラウン橋の過程に弱収束する試験統計を導いた。
これにより、検出器の誤警報率を定量化できる。
私たちの検出器はブロックチェーン上のスマートコントラクトとして実装することができ、タンパー保護で信頼性の高いソリューションを提供します。
最後に,提案した日食攻撃検知器とランダム森林モデルに基づく検出器を数値例で比較する。
This paper introduces a novel non-parametric change detection algorithm to identify eclipse attacks on a blockchain network; the non-parametric algorithm relies only on the empirical mean and variance of the dataset, making it highly adaptable. An eclipse attack occurs when malicious actors isolate blockchain users, disrupting their ability to reach consensus with the broader network, thereby distorting their local copy of the ledger. To detect an eclipse attack, we monitor changes in the Fr\'echet mean and variance of the evolving blockchain communication network connecting blockchain users. First, we leverage the Johnson-Lindenstrauss lemma to project large-dimensional networks into a lower-dimensional space, preserving essential statistical properties. Subsequently, we employ a non-parametric change detection procedure, leading to a test statistic that converges weakly to a Brownian bridge process in the absence of an eclipse attack. This enables us to quantify the false alarm rate of the detector. Our detector can be implemented as a smart contract on the blockchain, offering a tamper-proof and reliable solution. Finally, we use numerical examples to compare the proposed eclipse attack detector with a detector based on the random forest model. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# 複雑なカオス行動予測のためのマルチブランチラジアルバスネットワークアプローチ
A Multi-Branched Radial Basis Network Approach to Predicting Complex Chaotic Behaviours ( http://arxiv.org/abs/2404.00618v2 ) ライセンス: Link先を確認 | Aarush Sinha, | (参考訳) 本研究では,複雑でカオス的な振る舞いを特徴とする物理誘引器の動的特性を予測するために,多分岐ネットワークアプローチを提案する。
本稿では,Radial Basis Function(RBF)層とアトラクションの時間的進化に固有の非線形相互依存性を効果的に捉えるためのアテンション機構を組み合わせた,ユニークなニューラルネットワークアーキテクチャを提案する。
その結果,約28分間の行動を含む36,700の時系列観測データを用いて,アトラクタの軌道の予測に成功した。
提案手法の性能を更に説明するために,提案手法は,観測結果と推定結果とを比較した定量的測度とともに,アトラクタの本来の行動と予測された行動を記述する包括的可視化を提供する。
全体として、この研究は複雑な物理的システムの隠れ構造を解明し、正確な短期予測能力を必要とする様々な領域で実践的な応用を提供しながら、高度な機械学習アルゴリズムの可能性を示している。
In this study, we propose a multi branched network approach to predict the dynamics of a physics attractor characterized by intricate and chaotic behavior. We introduce a unique neural network architecture comprised of Radial Basis Function (RBF) layers combined with an attention mechanism designed to effectively capture nonlinear inter-dependencies inherent in the attractor's temporal evolution. Our results demonstrate successful prediction of the attractor's trajectory across 100 predictions made using a real-world dataset of 36,700 time-series observations encompassing approximately 28 minutes of activity. To further illustrate the performance of our proposed technique, we provide comprehensive visualizations depicting the attractor's original and predicted behaviors alongside quantitative measures comparing observed versus estimated outcomes. Overall, this work showcases the potential of advanced machine learning algorithms in elucidating hidden structures in complex physical systems while offering practical applications in various domains requiring accurate short-term forecasting capabilities. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# 語彙攻撃による大規模言語モデルアプリケーションのハイジャック
Vocabulary Attack to Hijack Large Language Model Applications ( http://arxiv.org/abs/2404.02637v2 ) ライセンス: Link先を確認 | Patrick Levi, Christoph P. Neumann, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、ますます多くのアプリケーションを動かしている。
ユーザの増加とともに、これらのシステムを圧倒しようとする攻撃者も増えている。
彼らはモデルに機密情報、特定の偽情報、または攻撃的な行動を明らかにすることを望んでいます。
この目的のために、彼らはLLMの指示をセパレータを挿入したり、目標に到達するまで体系的に言い換えることで操作する。
私たちのアプローチは違います。
モデル語彙から単語を挿入する。
それらの単語は、最適化手順と、別のLSM(攻撃者LSM)からの埋め込みを用いて見つける。
Llama2 と Flan-T5 の2つのオープンソース LLM をそれぞれハイジャックすることで,我々のアプローチを実証する。
主な所見は2つである。
まず,本手法は不明瞭な命令を生成するため,検出が困難である。
多くの攻撃の場合、一つの単語を挿入しても十分であることがわかった。
第2に、ターゲットモデルとは異なるモデルを用いて攻撃を実行し、攻撃を行うことを実証する。
The fast advancements in Large Language Models (LLMs) are driving an increasing number of applications. Together with the growing number of users, we also see an increasing number of attackers who try to outsmart these systems. They want the model to reveal confidential information, specific false information, or offensive behavior. To this end, they manipulate their instructions for the LLM by inserting separators or rephrasing them systematically until they reach their goal. Our approach is different. It inserts words from the model vocabulary. We find these words using an optimization procedure and embeddings from another LLM (attacker LLM). We prove our approach by goal hijacking two popular open-source LLMs from the Llama2 and the Flan-T5 families, respectively. We present two main findings. First, our approach creates inconspicuous instructions and therefore it is hard to detect. For many attack cases, we find that even a single word insertion is sufficient. Second, we demonstrate that we can conduct our attack using a different model than the target model to conduct our attack with. | 翻訳日:2024-05-31 20:35:08 公開日:2024-05-30 |
# 形態素に基づく位置符号化の検討
A Morphology-Based Investigation of Positional Encodings ( http://arxiv.org/abs/2404.04530v2 ) ライセンス: Link先を確認 | Poulami Ghosh, Shikhar Vashishth, Raj Dabre, Pushpak Bhattacharyya, | (参考訳) 現代のディープラーニングモデルは、直接統合されていないにもかかわらず、様々な形態を持つ言語を効果的に扱う。
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
その結果,言語の形態的複雑さの増大に伴い,位置符号化の重要性が低下することが判明した。
本研究は、位置符号化のより深い理解の必要性を動機とし、検討中の言語をよりよく反映させるものである。
Contemporary deep learning models effectively handle languages with diverse morphology despite not being directly integrated into them. Morphology and word order are closely linked, with the latter incorporated into transformer-based models through positional encodings. This prompts a fundamental inquiry: Is there a correlation between the morphological complexity of a language and the utilization of positional encoding in pre-trained language models? In pursuit of an answer, we present the first study addressing this question, encompassing 22 languages and 5 downstream tasks. Our findings reveal that the importance of positional encoding diminishes with increasing morphological complexity in languages. Our study motivates the need for a deeper understanding of positional encoding, augmenting them to better reflect the different languages under consideration. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 不正確な学習によるドメインの一般化
Domain Generalisation via Imprecise Learning ( http://arxiv.org/abs/2404.04669v2 ) ライセンス: Link先を確認 | Anurag Singh, Siu Lun Chau, Shahine Bouabid, Krikamol Muandet, | (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、経験的データから学習するだけでなく、例えば、平均ケースリスク、最悪のケースリスク、またはその補間を最適化するといった、様々な一般化の考え方の中から決定するからである。
この選択は原則として、医師のようなモデルオペレーターが行うべきであるが、この情報はトレーニング時に常に利用できるとは限らない。
機械学習者とモデルオペレーターとの制度的な分離は、これらの展開の不確実性により、機械学習者による特定の一般化戦略への任意のコミットメントをもたらす。
本稿では、この課題を緩和するために、トレーニング中の一般化戦略の連続スペクトルに対して最適化することで、学習者が不正確な状態を維持することができる不正確なリスク最適化と、運用者がデプロイ時に一般化優先を指定できるモデルフレームワークを導入する。
理論的および実証的な証拠の両方によって支持され、我々の研究は、不正確さをドメインの一般化に組み込むことの利点を示している。
Out-of-distribution (OOD) generalisation is challenging because it involves not only learning from empirical data, but also deciding among various notions of generalisation, e.g., optimising the average-case risk, worst-case risk, or interpolations thereof. While this choice should in principle be made by the model operator like medical doctors, this information might not always be available at training time. The institutional separation between machine learners and model operators leads to arbitrary commitments to specific generalisation strategies by machine learners due to these deployment uncertainties. We introduce the Imprecise Domain Generalisation framework to mitigate this, featuring an imprecise risk optimisation that allows learners to stay imprecise by optimising against a continuous spectrum of generalisation strategies during training, and a model framework that allows operators to specify their generalisation preference at deployment. Supported by both theoretical and empirical evidence, our work showcases the benefits of integrating imprecision into domain generalisation. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 教師なし貯水池計算を用いた信号ノイズ分離
Signal-noise separation using unsupervised reservoir computing ( http://arxiv.org/abs/2404.04870v2 ) ライセンス: Link先を確認 | Jaesung Choi, Pilwon Kim, | (参考訳) ノイズの特性を知らずに信号からノイズを除去することは難しい課題である。
本稿では,時系列予測に基づく信号雑音分離手法を提案する。
我々はReservoir Computing (RC) を用いて、所定の信号から「予測可能な情報」の最大部分を抽出する。
RCを用いて信号の定性成分を再現し、元の信号と再構成信号との差から雑音分布を推定する。
この方法は機械学習アプローチに基づいており、決定論的信号か雑音分布のどちらかについて事前の知識を必要としない。
雑音の加算率/乗算率を同定し、信号対雑音比(SNR)を間接的に推定する方法を提供する。
この手法は、カオス信号や非ガウス加法/乗法雑音によって劣化する高振動正弦波信号を含む様々な信号と雑音の組み合わせに対してうまく機能する。
分離性能はロバストであり、強い雑音を持つ信号には特に優れており、負のSNRを持つ信号にも顕著である。
Removing noise from a signal without knowing the characteristics of the noise is a challenging task. This paper introduces a signal-noise separation method based on time series prediction. We use Reservoir Computing (RC) to extract the maximum portion of "predictable information" from a given signal. Reproducing the deterministic component of the signal using RC, we estimate the noise distribution from the difference between the original signal and reconstructed one. The method is based on a machine learning approach and requires no prior knowledge of either the deterministic signal or the noise distribution. It provides a way to identify additivity/multiplicativity of noise and to estimate the signal-to-noise ratio (SNR) indirectly. The method works successfully for combinations of various signal and noise, including chaotic signal and highly oscillating sinusoidal signal which are corrupted by non-Gaussian additive/ multiplicative noise. The separation performances are robust and notably outstanding for signals with strong noise, even for those with negative SNR. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 複雑さはIllusionか?
Is Complexity an Illusion? ( http://arxiv.org/abs/2404.07227v4 ) ライセンス: Link先を確認 | Michael Timothy Bennett, | (参考訳) 単純さは一般知能の鍵となると多くの人々が抱いている。
より単純なモデルは"一般化"する傾向があり、より優れたサンプル効率でデータの原因や生成元を特定する。
単純さと一般化の相関関係はコンピュータ科学をはるかに超え、物理学や生物学の問題にも対処している。
しかし、単純性は形式の性質であり、一般化は機能的である。
対話的な設定では、両者の相関は解釈に依存する。
理論的には相関はあり得ないが、実際には相関がある。
以前の理論的研究は、一般化は形式ではなく関数によって示される「弱」制約の結果であることを示した。
単純形式に対する弱い制約を選択する実験では、一般化率が110-500%向上した。
ここでは、弱さに関係なく、すべての制約が等しく単純であることを示す。
しかし、形式が空間的に拡張された場合、関数は形式の有限部分集合で表される。
もし関数が形式の有限部分集合で表されるなら、弱い制約を単純形式にすることで、単純さと一般化の間の相関を強制することができる。
関数が多目的性(例えば自然選択)を好むゴール指向のプロセスによって決定される場合、効率性は弱い制約が単純な形式を取ることを要求する。
複雑性は一般化に因果的な影響はないが、欠点があるように見える。
Simplicity is held by many to be the key to general intelligence. Simpler models tend to "generalise", identifying the cause or generator of data with greater sample efficiency. The implications of the correlation between simplicity and generalisation extend far beyond computer science, addressing questions of physics and even biology. Yet simplicity is a property of form, while generalisation is of function. In interactive settings, any correlation between the two depends on interpretation. In theory there could be no correlation and yet in practice, there is. Previous theoretical work showed generalisation to be a consequence of "weak" constraints implied by function, not form. Experiments demonstrated choosing weak constraints over simple forms yielded a 110-500% improvement in generalisation rate. Here we show that all constraints can take equally simple forms, regardless of weakness. However if forms are spatially extended, then function is represented using a finite subset of forms. If function is represented using a finite subset of forms, then we can force a correlation between simplicity and generalisation by making weak constraints take simple forms. If function is determined by a goal directed process that favours versatility (e.g. natural selection), then efficiency demands weak constraints take simple forms. Complexity has no causal influence on generalisation, but appears to due to confounding. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# OSWorld: 実コンピュータ環境におけるオープンなタスクのためのマルチモーダルエージェントのベンチマーク
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments ( http://arxiv.org/abs/2404.07972v2 ) ライセンス: Link先を確認 | Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu, | (参考訳) 人間の介入を最小限に抑えた複雑なコンピュータタスクを遂行する自律エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性がある。
しかし、既存のベンチマークでは、対話的な環境が欠如しているか、特定のアプリケーションやドメインに特有の環境に限られているか、現実世界のコンピュータ利用の多様で複雑な性質を反映していないため、タスクの範囲やエージェントのスケーラビリティが制限されている。
この問題に対処するため,我々は,マルチモーダルエージェント,タスク設定のサポート,実行ベース評価,Ubuntu,Windows,macOSなどのさまざまなオペレーティングシステムにおけるインタラクティブな学習など,マルチモーダルエージェントのための,最初期のスケーラブルで現実的なコンピュータ環境であるOSWorldを紹介した。
OSWorldは、任意のアプリケーションを含むオープンエンドのコンピュータタスクを評価するための統合されたコンピュータ環境として機能する。
OSWorld上に構築された369のコンピュータタスクのベンチマークでは、オープンドメインの実際のWebアプリケーションとデスクトップアプリ、OSファイルI/O、複数のアプリケーションにまたがるワークフローが関係しています。
各タスクの例は、実世界のコンピュータのユースケースから派生したもので、詳細な初期状態設定と、信頼性のある再現可能な評価のためのカスタム実行ベースの評価スクリプトを含んでいる。
OSWorldにおける最先端のLDM/VLMエージェントの広範囲な評価は、コンピュータアシスタントとして機能する能力に重大な欠陥があることを明らかにしている。
人間は72.36%以上のタスクを達成できるが、最良のモデルは12.24%しか成功していない。
OSWorldを用いた包括的な分析は、以前のベンチマークでは不可能だったマルチモーダルジェネラリストエージェントを開発する上で、貴重な洞察を提供する。
私たちのコード、環境、ベースラインモデル、データはhttps://os-world.github.io.comで公開されています。
Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 大規模言語モデルによるゲーム生成
Game Generation via Large Language Models ( http://arxiv.org/abs/2404.08706v2 ) ライセンス: Link先を確認 | Chengpeng Hu, Yunlong Zhao, Jialin Liu, | (参考訳) 近年,大規模言語モデル(LLM)の出現により,手続き的コンテンツ生成の新たな機会が開けている。
しかし、最近の試みは主にスーパーマリオブラザーズやゼルダのようなゲームルールを定義した特定のゲームのレベル生成に焦点を当てている。
本稿では,LSMを用いたゲーム生成について検討する。
ゲーム記述言語に基づいて,ゲームルールとレベルを同時に生成するLLMベースのフレームワークを提案する。
実験では、異なるコンテキストの組み合わせを考慮するプロンプトでフレームワークがどのように動作するかを示す。
本研究は,LLMの応用を拡大し,プロシージャコンテンツ生成領域における新たなゲーム生成の新たな知見を提供する。
Recently, the emergence of large language models (LLMs) has unlocked new opportunities for procedural content generation. However, recent attempts mainly focus on level generation for specific games with defined game rules such as Super Mario Bros. and Zelda. This paper investigates the game generation via LLMs. Based on video game description language, this paper proposes an LLM-based framework to generate game rules and levels simultaneously. Experiments demonstrate how the framework works with prompts considering different combinations of context. Our findings extend the current applications of LLMs and offer new insights for generating new games in the area of procedural content generation. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 応答関数の投影によるパルス工学
Pulse Engineering via Projection of Response Functions ( http://arxiv.org/abs/2404.10462v2 ) ライセンス: Link先を確認 | Nicolas Heimann, Lukas Broers, Ludwig Mathey, | (参考訳) 本稿では,最適忠実度を持つ所望の演算の実装を目的とした,量子システムの反復最適制御法を提案する。
方法の更新ステップは、制御演算子に対する忠実度の線形応答と、対応する演算子のモード関数への投影に基づく。
本手法は、勾配上昇パルス工学や変分量子アルゴリズムなどの手法を拡張し、超パラメータフリーで忠実度勾配を決定し、マルチパラメータ更新に利用し、摂動とモード関数の多重モード重なりを考慮に入れた。
これにより、パラメータの集合を更新するために評価される必要がある動的なトラジェクトリの数を直接削減する。
このアプローチを実証し、2つの量子ビット上の量子ゲートの例のように標準のGRAPEアルゴリズムと比較し、生成したプロトコルの収束性と最適忠実度を明確に向上することを示す。
We present an iterative optimal control method of quantum systems, aimed at an implementation of a desired operation with optimal fidelity. The update step of the method is based on the linear response of the fidelity to the control operators, and its projection onto the mode functions of the corresponding operator. Our method extends methods such as gradient ascent pulse engineering and variational quantum algorithms, by determining the fidelity gradient in a hyperparameter-free manner, and using it for a multi-parameter update, capitalizing on the multi-mode overlap of the perturbation and the mode functions. This directly reduces the number of dynamical trajectories that need to be evaluated in order to update a set of parameters. We demonstrate this approach, and compare it to the standard GRAPE algorithm, for the example of a quantum gate on two qubits, demonstrating a clear improvement in convergence and optimal fidelity of the generated protocol. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 深層並列協調による異種大言語モデルのアンサンブル学習
Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration ( http://arxiv.org/abs/2404.12715v2 ) ライセンス: Link先を確認 | Yichong Huang, Xiaocheng Feng, Baohang Li, Yang Xiang, Hui Wang, Bing Qin, Ting Liu, | (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
しかし、既存の研究は、すべての候補回答を選択したり組み合わせたりするために追加の報酬モデルや融合モデルを訓練することに焦点を当てており、目に見えないデータ分布の一般化には大きな課題がある。
さらに、従来の手法では、内部表現の貴重な情報を無視して、テキスト応答を通信メディアとして使用していた。
本研究では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDePEnを提案する。
残念なことに、不均一なLLM間の語彙差は、トークンのミスアライメントのため、分布を平均的に評価することができない。
この問題に対処するために、DeePEn は相対表現理論に基づいて各モデルの確率分布を自身の確率空間から普遍相対空間にマッピングし、アグリゲーションを実行する。
次に, 集約された結果を, 次のトークンを決定するために, 組立 LLM の1つの確率空間(主モデル)に変換するために, 探索に基づく逆変換を考案する。
異なる数のLLMのアンサンブル、異なるアーキテクチャのLLMのアンサンブル、およびLLMとスペシャリストモデルのアンサンブルについて広範な実験を行った。
実験の結果
(i)DeePEnは、被験者試験、推論、知識を対象とする6つのベンチマークで一貫した改善を実現している。
二 優れたスペシャリストモデルは、分散融合により、より効果的でないLCMの恩恵を受けることができる。
三)DeePEnは、投票等の他のアンサンブル方式と相補的な長所を有する。
Large language models (LLMs) exhibit complementary strengths in various tasks, motivating the research of LLM ensembling. However, existing work focuses on training an extra reward model or fusion model to select or combine all candidate answers, posing a great challenge to the generalization on unseen data distributions. Besides, prior methods use textual responses as communication media, ignoring the valuable information in the internal representations. In this work, we propose a training-free ensemble framework DeePEn, fusing the informative probability distributions yielded by different LLMs at each decoding step. Unfortunately, the vocabulary discrepancy between heterogeneous LLMs directly makes averaging the distributions unfeasible due to the token misalignment. To address this challenge, DeePEn maps the probability distribution of each model from its own probability space to a universal relative space based on the relative representation theory, and performs aggregation. Next, we devise a search-based inverse transformation to transform the aggregated result back to the probability space of one of the ensembling LLMs (main model), in order to determine the next token. We conduct extensive experiments on ensembles of different number of LLMs, ensembles of LLMs with different architectures, and ensembles between the LLM and the specialist model. Experimental results show that (i) DeePEn achieves consistent improvements across six benchmarks covering subject examination, reasoning, and knowledge, (ii) a well-performing specialist model can benefit from a less effective LLM through distribution fusion, and (iii) DeePEn has complementary strengths with other ensemble methods such as voting. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# シェープ値に基づくモデル記述の誤り解析--インフォーマティブ・パースペクティブ
Error Analysis of Shapley Value-Based Model Explanations: An Informative Perspective ( http://arxiv.org/abs/2404.13522v2 ) ライセンス: Link先を確認 | Ningsheng Zhao, Jia Yuan Yu, Krzysztof Dzieciolowski, Trang Bui, | (参考訳) 共有値属性(Shapley Value Attribution, SVA)は、モデルの出力に対する各機能の貢献を定量化する、説明可能なAI(XAI)メソッドとして、ますます人気が高まっている。
しかし、最近の研究は、SVAを実装する既存のほとんどのメソッドにはいくつかの欠点があることを示しており、結果としてバイアスや信頼性の低い説明が、機能とモデルアウトプットの間の真の本質的な関係を正しく捉えられなかった。
さらに、これらの欠点のメカニズムと結果が体系的に議論されていない。
本稿では,SVAの説明誤差を観察バイアスと構造バイアスの2つの構成要素に分解する,新しい誤差理論解析フレームワークを提案する。
これら2つのバイアスの根本原因をさらに明確にし、それらの間にトレードオフがあることを実証する。
この誤り分析の枠組みに基づいて,過度な表現的,過度な表現的説明という2つの新しい概念を考案する。
既存のSVA手法の潜在的な誤りを理解するために,これらの概念を効果的に活用する方法を実証する。
特に, 広く展開されている仮定に基づくSVAでは, 分布仮定による分布のドリフトにより, 容易に不定形化できることがわかった。
このような分布のドリフトを定量化するための測定ツールを提案する。
最後に、我々の実験は、既存のSVAメソッドが過度または過度に表現可能であることを示す。
我々の研究は、SVAの推定においてエラーがどのように発生するかに光を当て、新しいエラーの発生頻度の低い手法を奨励します。
Shapley value attribution (SVA) is an increasingly popular explainable AI (XAI) method, which quantifies the contribution of each feature to the model's output. However, recent work has shown that most existing methods to implement SVAs have some drawbacks, resulting in biased or unreliable explanations that fail to correctly capture the true intrinsic relationships between features and model outputs. Moreover, the mechanism and consequences of these drawbacks have not been discussed systematically. In this paper, we propose a novel error theoretical analysis framework, in which the explanation errors of SVAs are decomposed into two components: observation bias and structural bias. We further clarify the underlying causes of these two biases and demonstrate that there is a trade-off between them. Based on this error analysis framework, we develop two novel concepts: over-informative and underinformative explanations. We demonstrate how these concepts can be effectively used to understand potential errors of existing SVA methods. In particular, for the widely deployed assumption-based SVAs, we find that they can easily be under-informative due to the distribution drift caused by distributional assumptions. We propose a measurement tool to quantify such a distribution drift. Finally, our experiments illustrate how different existing SVA methods can be over- or under-informative. Our work sheds light on how errors incur in the estimation of SVAs and encourages new less error-prone methods. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 直観論的量子論理的視点:静的および動的リビジョン演算子
Intuitionistic Quantum Logic Perspective: Static and Dynamic Revision Operators ( http://arxiv.org/abs/2404.13608v2 ) ライセンス: Link先を確認 | Heng Zhou, Yongjun Wang, Baoshan Wang, Jian Yan, Xiaoyang Wang, | (参考訳) アルクーロン、ガーデンフォルス、メイキンソンによって提案された古典的信念修正の枠組みは、8つの仮定に基づく理論の改訂を含む。
本稿では,量子力学に基づくリビジョン理論の探索に着目し,自然リビジョン理論と呼ぶ。
量子系には、文脈性を含む静的直観論的推論と、射影測定によって達成される動的推論の2つの推論モードがある。
D{\"o}ring と Coecke の2つの直観論的量子論理フレームワークの利点を組み合わせる。
我々のゴールは、直観論的量子論理に対する真理値の割り当てを確立することであり、これは量子力学の固有の特性と整合するだけでなく、真理値の推論もサポートする。
その後、この手法に基づいて自然修正論が研究される。
量子システムにおける2つの推論モードに対応する2種類のリビジョン演算子(静的および動的リビジョン)を導入する。
さらに,この2つの演算子の違いも強調する。
古典的なリビジョンパラダイムから離れて、直観論的量子論理における帰結関係の改訂を検討する。
本研究では、自然修正理論の枠組みの中で、両修正作業員が結果の関係にどのように影響するかを示す。
特に、リビジョンプロセスの結果は、これらのインターウィーブされたオペレータがデプロイされるシーケンスによって影響を受ける。
The classical belief revision framework, as proposed by Alchourron, Gardenfors, and Makinson, involves the revision of a theory based on eight postulates. In this paper, we focus on the exploration of a revision theory grounded in quantum mechanics, referred to as the natural revision theory. There are two reasoning modes in quantum systems: static intuitionistic reasoning, which incorporates contextuality, and dynamic reasoning, which is achieved through projection measurement. We combine the advantages of two intuitionistic quantum logic frameworks, as proposed by D{\"o}ring and Coecke, respectively. Our goal is to establish a truth-value assignment for intuitionistic quantum logic that not only aligns with the inherent characteristics of quantum mechanics but also supports truth-value reasoning. The natural revision theory is then investigated based on this approach. We introduce two types of revision operators that correspond to the two reasoning modes in quantum systems: static and dynamic revision. Furthermore, we highlight the distinctions between these two operators. Shifting away from classical revision paradigms, we consider the revision of consequence relations in intuitionistic quantum logic. We demonstrate how, within the natural revision theory framework, both revision operators collectively influence the consequence relations. Notably, the outcomes of revision process are impacted by the sequence in which these interweaved operators are deployed. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 安定化作用素とバーンズ=ウォール格子
Stabilizer operators and Barnes-Wall lattices ( http://arxiv.org/abs/2404.17677v2 ) ライセンス: Link先を確認 | Vadym Kliuchnikov, Sebastian Schönnenbeck, | (参考訳) 選択後の安定化回路で実装可能な矩形行列の簡単な記述を与える。
dyadic cyclotomic number field $\mathbb{Q}(\exp(i\frac{2\pi}{2^m}))$ が与えられたとき、ある非直交基底で表現されたとき、$\mathbb{Z}[\exp(i\frac{2\pi}{2^m})]$ にエントリがある場合、選択後の安定化回路によって実装可能であることを示す。
この基底はバーンズ=ウォール格子と関連している。
我々の結果はクリフォード群とバーンズ=ウォール格子の間のよく知られた接続への一般化である。
また、バーンズ=ウォール格子の最小ベクトルが安定化状態であることも示している。
最後に、標準的なクリフォード群を超えた一般化のいくつかの例を示す。
We give a simple description of rectangular matrices that can be implemented by a post-selected stabilizer circuit. Given a matrix with entries in dyadic cyclotomic number fields $\mathbb{Q}(\exp(i\frac{2\pi}{2^m}))$, we show that it can be implemented by a post-selected stabilizer circuit if it has entries in $\mathbb{Z}[\exp(i\frac{2\pi}{2^m})]$ when expressed in a certain non-orthogonal basis. This basis is related to Barnes-Wall lattices. Our result is a generalization to a well-known connection between Clifford groups and Barnes-Wall lattices. We also show that minimal vectors of Barnes-Wall lattices are stabilizer states, which may be of independent interest. Finally, we provide a few examples of generalizations beyond standard Clifford groups. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 確率的政策勾配を用いた最適決定論的政策の学習
Learning Optimal Deterministic Policies with Stochastic Policy Gradients ( http://arxiv.org/abs/2405.02235v2 ) ライセンス: Link先を確認 | Alessandro Montenegro, Marco Mussi, Alberto Maria Metelli, Matteo Papini, | (参考訳) 政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
彼らは行動の空間で探索するか、パラメータの空間で探索することによって、確率的パラメトリック(ハイパー)政治を学ぶ。
しかし、確率的コントローラは、堅牢性、安全性、トレーサビリティの欠如のため、実際的な観点からは望ましくないことが多い。
一般的には、確率的(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,この実践の理論的理解に向けて一歩前進する。
このシナリオをモデル化するための新しいフレームワークを導入した後、(弱)勾配支配仮定の下で、最も優れた決定論的政策へのグローバル収束を研究する。
そこで,本研究では,サンプル複雑性と展開決定性ポリシのトレードオフを最適化するために,学習に使用する探索レベルを調整する方法について解説する。
最後に、アクションベースとパラメータベースの探索を定量的に比較し、直感的な結果に公式な手がかりを与える。
Policy gradient (PG) methods are successful approaches to deal with continuous reinforcement learning (RL) problems. They learn stochastic parametric (hyper)policies by either exploring in the space of actions or in the space of parameters. Stochastic controllers, however, are often undesirable from a practical perspective because of their lack of robustness, safety, and traceability. In common practice, stochastic (hyper)policies are learned only to deploy their deterministic version. In this paper, we make a step towards the theoretical understanding of this practice. After introducing a novel framework for modeling this scenario, we study the global convergence to the best deterministic policy, under (weak) gradient domination assumptions. Then, we illustrate how to tune the exploration level used for learning to optimize the trade-off between the sample complexity and the performance of the deployed deterministic policy. Finally, we quantitatively compare action-based and parameter-based exploration, giving a formal guise to intuitive results. | 翻訳日:2024-05-31 20:25:21 公開日:2024-05-30 |
# 低エントロピーRSA鍵分解のための効率的な全対全GCDアルゴリズム
An Efficient All-to-All GCD Algorithm for Low Entropy RSA Key Factorization ( http://arxiv.org/abs/2405.03166v2 ) ライセンス: Link先を確認 | Elijah Pelofske, | (参考訳) RSAは驚くほど成功し、有用な非対称暗号化アルゴリズムである。
RSAにおける実装欠陥のタイプの一つは、鍵生成の低エントロピー、特に素数生成段階である。
これはランダム素数生成ライブラリの不足や、外部エントロピーの源がないコンピュータで発生する。
これらの実装欠陥により、いくつかのRSAキーが素因子を共有するため、素因子を共有する2つの公開鍵モジュラー間の計算GCDを実行することにより、公共率の完全因子化を極端に効率的に回収することができる。
しかし、複合モジュールのどれが素因子a-プリオリを共有しているかが分かっていないため、そのような共有素因子が存在するかどうかを判断するために、利用可能な公開鍵上で全対全GCD攻撃(バッチGCD攻撃またはバルクGCD攻撃)を行うことができる。
本研究は,従来の最良バッチGCDアルゴリズム(残りの木バッチGCDアルゴリズム)よりも効率的であるバイナリツリーバッチGCDアルゴリズムと呼ばれる新しい全対全バッチGCDアルゴリズムについて述べる。
既存の最良バッチGCD法との比較(積木に続く剰余木計算)は、いくつかのモジュライが素因子を共有するように構成されたランダムRSA変調のデータセットを用いて行われる。
この二分木バッチGCDアルゴリズムは、既存の残木バッチGCDアルゴリズムよりも実行時性がよいが、漸近的にほぼ同一のスケーリングを持ち、その複雑さはRSAキーの集合に共有された素因子の数に依存する。
実際には、提案したバイナリツリーバッチGCDアルゴリズムの実装は、標準の剰余木バッチGCD手法と比較して約6倍の高速化を実現している。
RSA is an incredibly successful and useful asymmetric encryption algorithm. One of the types of implementation flaws in RSA is low entropy of the key generation, specifically the prime number creation stage. This can occur due to flawed usage of random prime number generator libraries, or on computers where there is a lack of a source of external entropy. These implementation flaws result in some RSA keys sharing prime factors, which means that the full factorization of the public modulus can be recovered incredibly efficiently by performing a computation GCD between the two public key moduli that share the prime factor. However, since one does not know which of the composite moduli share a prime factor a-priori, to determine if any such shared prime factors exist, an all-to-all GCD attack (also known as a batch GCD attack, or a bulk GCD attack) can be performed on the available public keys so as to recover any shared prime factors. This study describes a novel all-to-all batch GCD algorithm, which will be referred to as the binary tree batch GCD algorithm, that is more efficient than the current best batch GCD algorithm (the remainder tree batch GCD algorithm). A comparison against the best existing batch GCD method (which is a product tree followed by a remainder tree computation) is given using a dataset of random RSA moduli that are constructed such that some of the moduli share prime factors. This proposed binary tree batch GCD algorithm has better runtime than the existing remainder tree batch GCD algorithm, although asymptotically it has nearly identical scaling and its complexity is dependent on how many shared prime factors exist in the set of RSA keys. In practice, the implementation of the proposed binary tree batch GCD algorithm has a roughly 6x speedup compared to the standard remainder tree batch GCD approach. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 量子ドットと極低温電波リードアウトエレクトロニクスを含む多モジュールシリコンオン絶縁体チップアセンブリ
A multi-module silicon-on-insulator chip assembly containing quantum dots and cryogenic radio-frequency readout electronics ( http://arxiv.org/abs/2405.04104v3 ) ライセンス: Link先を確認 | David J. Ibberson, James Kirkman, John J. L. Morton, M. Fernando Gonzalez-Zalba, Alberto Gomez-Saiz, | (参考訳) 量子処理ユニットは、デジタルおよびアナログ電子モジュールを含むより大きな情報処理システムのモジュールである。
シリコンベースの量子コンピューティングは、同じ技術プラットフォームを使用してすべてのモジュールを製造するための魅力的な機会を提供する。
ここでは、全モジュールを同じフルデプリットシリコンオン絶縁体(FDSOI)CMOSプロセスで作製したシリコン量子デバイスの多重読み出しのための低温多モジュールアセンブリについて述べる。
組み立ては3つのチップレットで構成されている。
(i)低雑音増幅器(LNA)
(ii)単極8列スイッチ(SP8T)、
(iii)シリコン量子ドット(QD)アレイ。
私たちは各モジュールを個別に特徴付け、表示します
(i)利得35dB、帯域幅118MHz、最低雑音温度4.2K
(ii)1.1dB以下の挿入損失、0-2GHzの1.1〜K以下のノイズ温度、
三 単電子箱(SEB)電荷センサ。
最後に、全ての要素を1つのデモに組み合わせ、全シリコン量子コンピューティングシステムへの道を歩む2つのSEBの時間領域の無線周波数多重化を示す。
Quantum processing units will be modules of larger information processing systems containing also digital and analog electronics modules. Silicon-based quantum computing offers the enticing opportunity to manufacture all the modules using the same technology platform. Here, we present a cryogenic multi-module assembly for multiplexed readout of silicon quantum devices where all modules have been fabricated using the same fully-depleted silicon-on-insulator (FDSOI) CMOS process. The assembly is constituted by three chiplets: (i) a low-noise amplifier (LNA), (ii) a single-pole eight-throw switch (SP8T), and (iii) a silicon quantum dot (QD) array. We characterise each module individually and show (i) a gain over 35 dB, a bandwidth of 118 MHz, a minimum noise temperature of 4.2 K, (ii) an insertion loss smaller than 1.1 dB, a noise temperature smaller than 1.1~K across 0-2 GHz, and (iii) single-electron box (SEB) charge sensors. Finally, we combine all elements into a single demonstration showing time-domain radio-frequency multiplexing of two SEBs paving the way to an all-silicon quantum computing system. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# DataSP: コストの学習と文脈による経路予測のための差分全短経路アルゴリズム
DataSP: A Differential All-to-All Shortest Path Algorithm for Learning Costs and Predicting Paths with Context ( http://arxiv.org/abs/2405.04923v2 ) ライセンス: Link先を確認 | Alan A. Lahoud, Erik Schaffernicht, Johannes A. Stork, | (参考訳) グラフ上の遷移の遅延コストを、様々なコンテキスト特徴の下での軌跡から学習することは、パスプランニングには難しいが有用である。
しかし、既存の手法はコストの仮定を過度に単純化するか、観測された軌跡の数で不十分にスケールする。
本稿では,トラジェクトリからの遅延コストの学習を容易にするために,DataSPを提案する。
これにより、追加の計算をすることなく、各学習ステップにおける多数の軌跡から学習することができる。
コンテキスト特徴からの複雑な遅延コスト関数は、ニューラルネットワーク近似を通じてアルゴリズムで表現することができる。
さらに,観測された経路の分布を再構成し,再現するために,DataSPから経路をサンプリングする方法を提案する。
推定分布は最大エントロピー原理に従うことを証明している。
データSPは、グラフ上の経路予測において、最先端の微分可能な組合せ解法と古典的な機械学習アプローチより優れていることを示す。
Learning latent costs of transitions on graphs from trajectories demonstrations under various contextual features is challenging but useful for path planning. Yet, existing methods either oversimplify cost assumptions or scale poorly with the number of observed trajectories. This paper introduces DataSP, a differentiable all-to-all shortest path algorithm to facilitate learning latent costs from trajectories. It allows to learn from a large number of trajectories in each learning step without additional computation. Complex latent cost functions from contextual features can be represented in the algorithm through a neural network approximation. We further propose a method to sample paths from DataSP in order to reconstruct/mimic observed paths' distributions. We prove that the inferred distribution follows the maximum entropy principle. We show that DataSP outperforms state-of-the-art differentiable combinatorial solver and classical machine learning approaches in predicting paths on graphs. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 世界モデルに対する潜在動的ロバスト表現の学習
Learning Latent Dynamic Robust Representations for World Models ( http://arxiv.org/abs/2405.06263v2 ) ライセンス: Link先を確認 | Ruixiang Sun, Hongyu Zang, Xin Li, Riashat Islam, | (参考訳) Visual Model-Based Reinforcement Learning (MBRL)は、エージェントの環境の基盤となるダイナミクスに関する知識をカプセル化することで、ワールドモデルを有用なプランナーとして学習できるようにする。
しかし、Dreamerのような上位のMBRLエージェントは、時空間における外因性または無関係なノイズの存在下で視覚的なピクセルベースの入力に苦労することが多い。
この問題に対処するため,世界モデルにおける課題固有の環境の内在的側面を把握し,非意味情報を効果的に排除するために,時空間マスキング戦略,バイシミュレーション原理と潜時再構成を併用した。
表現、ダイナミクス、ポリシーの合同トレーニングは、しばしば不安定を引き起こす。
この問題をさらに解決するため,我々はHybrid Recurrent State-Space Model (HRSSM) 構造を開発し,効果的な政策学習のための状態表現の堅牢性を高める。
Maniskill \cite{gu2023maniskill2}のような視覚的に複雑な制御タスクにおいて,Matterport環境から外因性障害を発生させることにより,既存の手法よりも優れた性能向上を実証した。
私たちのコードはhttps://github.com/bit1029public/HRSSMで無効です。
Visual Model-Based Reinforcement Learning (MBRL) promises to encapsulate agent's knowledge about the underlying dynamics of the environment, enabling learning a world model as a useful planner. However, top MBRL agents such as Dreamer often struggle with visual pixel-based inputs in the presence of exogenous or irrelevant noise in the observation space, due to failure to capture task-specific features while filtering out irrelevant spatio-temporal details. To tackle this problem, we apply a spatio-temporal masking strategy, a bisimulation principle, combined with latent reconstruction, to capture endogenous task-specific aspects of the environment for world models, effectively eliminating non-essential information. Joint training of representations, dynamics, and policy often leads to instabilities. To further address this issue, we develop a Hybrid Recurrent State-Space Model (HRSSM) structure, enhancing state representation robustness for effective policy learning. Our empirical evaluation demonstrates significant performance improvements over existing methods in a range of visually complex control tasks such as Maniskill \cite{gu2023maniskill2} with exogenous distractors from the Matterport environment. Our code is avaliable at https://github.com/bit1029public/HRSSM. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# RoboDriveの挑戦:どんな状況でもいつでもドライブできる
The RoboDrive Challenge: Drive Anytime Anywhere in Any Condition ( http://arxiv.org/abs/2405.08816v2 ) ライセンス: Link先を確認 | Lingdong Kong, Shaoyuan Xie, Hanjiang Hu, Yaru Niu, Wei Tsang Ooi, Benoit R. Cottereau, Lai Xing Ng, Yuexin Ma, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Weichao Qiu, Wei Zhang, Xu Cao, Hao Lu, Ying-Cong Chen, Caixin Kang, Xinning Zhou, Chengyang Ying, Wentao Shang, Xingxing Wei, Yinpeng Dong, Bo Yang, Shengyin Jiang, Zeliang Ma, Dengyi Ji, Haiwen Li, Xingliang Huang, Yu Tian, Genghua Kou, Fan Jia, Yingfei Liu, Tiancai Wang, Ying Li, Xiaoshuai Hao, Yifan Yang, Hui Zhang, Mengchuan Wei, Yi Zhou, Haimei Zhao, Jing Zhang, Jinke Li, Xiao He, Xiaoqiang Cheng, Bingyang Zhang, Lirong Zhao, Dianlei Ding, Fangsheng Liu, Yixiang Yan, Hongming Wang, Nanfei Ye, Lun Luo, Yubo Tian, Yiwei Zuo, Zhe Cao, Yi Ren, Yunfan Li, Wenjie Liu, Xun Wu, Yifan Mao, Ming Li, Jian Liu, Jiayang Liu, Zihan Qin, Cunxi Chu, Jialei Xu, Wenbo Zhao, Junjun Jiang, Xianming Liu, Ziyan Wang, Chiwei Li, Shilong Li, Chendong Yuan, Songyue Yang, Wentao Liu, Peng Chen, Bin Zhou, Yubo Wang, Chi Zhang, Jianhang Sun, Hai Chen, Xiao Yang, Lizhong Wang, Dongyi Fu, Yongchun Lin, Huitong Yang, Haoang Li, Yadan Luo, Xianjing Cheng, Yong Xu, | (参考訳) 自動運転の分野では、アウト・オブ・ディストリビューション条件下でのロバストな認識が、車両の安全な配置にとって最重要である。
悪天候、センサーの故障、環境の予測不能といった課題は、自律システムの性能に深刻な影響を及ぼす可能性がある。
2024年のRoboDrive Challengeは、現実世界の変動に耐え、適応できる駆動認識技術の発展を促進するために作られた。
BEV検出、マップセグメンテーション、セマンティック占有率予測、多視点深度推定の4つの重要なタスクに焦点を当てたコンペティションは、典型的および非定型的障害に対するシステムのレジリエンスを革新し、強化するゴーストレットを敷いた。
今年のチャレンジは5つの異なるトラックで構成され、11カ国の93の機関から140の登録チームが参加し、その結果、サーバを通じて1,000近い応募が評価されました。
競争は15のトップパフォーマンスソリューションで頂点に達し、高度なデータ拡張、マルチセンサー融合、エラー修正のための自己教師付き学習、センサーの堅牢性を高める新しいアルゴリズム戦略など、革新的なアプローチが導入された。
これらの貢献は、特にセンサの不整合や環境変動の扱いにおいて、最先端の進歩に大きく寄与した。
参加者は協力的な努力を通じて、現在の技術の境界を押し進め、現実のシナリオにおけるその可能性を示した。
大規模な評価と分析は、これらのソリューションの有効性に関する洞察を与え、駆動認識システムのレジリエンスを改善するための重要なトレンドと成功戦略を強調した。
この課題はこの分野に新しいベンチマークを設定し、この分野における将来の研究をガイドするであろうテクニックの豊富なリポジトリを提供する。
In the realm of autonomous driving, robust perception under out-of-distribution conditions is paramount for the safe deployment of vehicles. Challenges such as adverse weather, sensor malfunctions, and environmental unpredictability can severely impact the performance of autonomous systems. The 2024 RoboDrive Challenge was crafted to propel the development of driving perception technologies that can withstand and adapt to these real-world variabilities. Focusing on four pivotal tasks -- BEV detection, map segmentation, semantic occupancy prediction, and multi-view depth estimation -- the competition laid down a gauntlet to innovate and enhance system resilience against typical and atypical disturbances. This year's challenge consisted of five distinct tracks and attracted 140 registered teams from 93 institutes across 11 countries, resulting in nearly one thousand submissions evaluated through our servers. The competition culminated in 15 top-performing solutions, which introduced a range of innovative approaches including advanced data augmentation, multi-sensor fusion, self-supervised learning for error correction, and new algorithmic strategies to enhance sensor robustness. These contributions significantly advanced the state of the art, particularly in handling sensor inconsistencies and environmental variability. Participants, through collaborative efforts, pushed the boundaries of current technologies, showcasing their potential in real-world scenarios. Extensive evaluations and analyses provided insights into the effectiveness of these solutions, highlighting key trends and successful strategies for improving the resilience of driving perception systems. This challenge has set a new benchmark in the field, providing a rich repository of techniques expected to guide future research in this field. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# Xmodel-VLM:マルチモーダル視覚言語モデルのためのシンプルなベースライン
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model ( http://arxiv.org/abs/2405.09215v2 ) ライセンス: Link先を確認 | Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang, | (参考訳) 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
当社の作業は,大規模マルチモーダルシステムの普及を阻害するサービスコストを抑えることで,重要な産業問題に直結しています。
厳格なトレーニングを通じて,LLaVAパラダイムをモダルアライメントに用い,ゼロから1Bスケールの言語モデルを開発した。
この結果はXmodel-VLMと呼ばれ、軽量だが強力なマルチモーダル視覚言語モデルである。
多数の古典的マルチモーダルベンチマークの広範なテストにより、Xmodel-VLMはそのサイズが小さく、より高速な実行にもかかわらず、より大きなモデルに匹敵するパフォーマンスを提供することが明らかになった。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 量子シミュレーションによるゲージドリフトのゼノ効果抑制
Zeno Effect Suppression of Gauge Drift in Quantum Simulations ( http://arxiv.org/abs/2405.09462v2 ) ライセンス: Link先を確認 | Carter Ball, Thomas D. Cohen, | (参考訳) 格子ゲージ理論の量子シミュレーションは、リアルタイム力学を含む多くの複雑な問題を研究する上で有望なツールである。
しかしゲージ理論では、時間的発展の間にゲージ不変性を維持することが大きな課題である。
そのような理論は、物理的空間よりも大きいヒルベルト空間を持ち、ゲージ不変あるいは等価にガウスの法則を尊重する状態の集合である。
物理ヒルベルト空間から始まるハミルトン力学の正確な実装は、系を物理空間に保ち続けるが、様々な種類の誤差は必然的にその外側の成分を生成する。
本研究は, このゲージドリフトをゼノ効果により抑制する方法を提案する。
ゼノ効果の標準的な図のように、本手法は物理部分空間への頻繁な射影に依存する。
さらに、ゲージドリフトの速度を減少させる手法が議論され、投射の必要周波数を減少させるのに役立つ。
本手法は,$\mathbb{Z}_2$ gauge theory toy model上で実証する。
Quantum simulation of lattice gauge theories is a promising tool for the study of many complicated problems including ones with real-time dynamics. For gauge theories, however, there is a major challenge in maintaining gauge invariance during time evolution. Such theories have a full Hilbert space that is larger than the physical space -- the set of states which are gauge invariant or equivalently respect the Gauss law. While an exact implementation of Hamiltonian dynamics starting in the physical Hilbert space will keep the system in the physical space, various types of errors will inevitably produce components outside of it. This work proposes a method of suppressing this gauge drift via the Zeno effect. As in the standard picture of the Zeno effect, our method relies on frequent projection onto the physical subspace. Additionally, a technique is discussed to reduce the speed of the gauge drift, which helps to reduce the required frequency of projections. We demonstrate our method on a $\mathbb{Z}_2$ gauge theory toy model. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 共通調達語彙分類におけるゼロショット階層分類
Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy ( http://arxiv.org/abs/2405.09983v2 ) ライセンス: Link先を確認 | Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando, | (参考訳) 公務員の分類は、参加を招待された企業と不正行為を検査する企業の両方にとって有用なタスクである。
欧州連合は、参加者と公共行政の双方にとっての作業を容易にするため、特定の重要性を持つ利害関係者に義務付けられる共通の分類(共通調達語彙、CPV)を提示するが、CPVラベルが義務付けられている契約は、すべての公共行政活動と比較して少数である。
現実世界の分類を分類することは無視できない困難をもたらす。
第一に、いくつかのきめ細かいクラスはトレーニングセットで不十分な(もしあれば)観測数を持っているが、他のクラスは平均よりもはるかに頻繁に(数千回も)いる。
これらの課題を克服するため,ラベル記述のみに依存し,ラベル分類を尊重する事前学習言語モデルに基づくゼロショットアプローチを提案する。
提案したモデルをトレーニングするために,過去25年間にイタリアで規定された公開契約を収集するSpazioDati s.r.l.のサービスである contrattipubblici.org から得られた産業データを使用した。
その結果,提案モデルでは,3つの異なるベースラインと比較して,低頻度クラスを分類する際の性能が向上し,また,見つからないクラスを予測できることがわかった。
Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (Common Procurement Vocabulary, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from contrattipubblici.org, a service by SpazioDati s.r.l. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# ニューラルネットワークを用いた商業銀行の信用リスク早期警戒モデルに関する研究
Research on Credit Risk Early Warning Model of Commercial Banks Based on Neural Network Algorithm ( http://arxiv.org/abs/2405.10762v2 ) ライセンス: Link先を確認 | Yu Cheng, Qin Yang, Liyang Wang, Ao Xiang, Jingyu Zhang, | (参考訳) グローバル化した金融市場の世界では、商業銀行は信用リスクの増大に直面するため、銀行資産の安全と金融安定に対する要求が高まっている。
この研究は、特にバックプロパゲーション(BP)ニューラルネットワークのような高度なニューラルネットワーク技術を利用して、商業銀行の信用リスクをプリエンプションする新しいモデルを開発した。
この談話は最初、ARMA、ARCH、ロジスティック回帰モデルといった従来の金融リスクプリエンプティブモデルを精査し、現実の応用を批判的に分析した。
その後、BPニューラルネットワークモデルの構築プロセスについて詳述し、ネットワークアーキテクチャ設計、アクティベーション関数の選択、パラメータの初期化、目的関数構築を含む。
比較分析により、商業銀行の信用リスクを前提としたニューラルネットワークモデルの優位性が解明される。
実験セグメントは特定の銀行データを選択し、モデルの予測精度と実用性を検証する。
研究は、このモデルが信用リスク管理の予測と精度を効果的に向上させることを示唆している。
In the realm of globalized financial markets, commercial banks are confronted with an escalating magnitude of credit risk, thereby imposing heightened requisites upon the security of bank assets and financial stability. This study harnesses advanced neural network techniques, notably the Backpropagation (BP) neural network, to pioneer a novel model for preempting credit risk in commercial banks. The discourse initially scrutinizes conventional financial risk preemptive models, such as ARMA, ARCH, and Logistic regression models, critically analyzing their real-world applications. Subsequently, the exposition elaborates on the construction process of the BP neural network model, encompassing network architecture design, activation function selection, parameter initialization, and objective function construction. Through comparative analysis, the superiority of neural network models in preempting credit risk in commercial banks is elucidated. The experimental segment selects specific bank data, validating the model's predictive accuracy and practicality. Research findings evince that this model efficaciously enhances the foresight and precision of credit risk management. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 双極性結合を増強したコヒーレンススイートスポット
A coherence sweet spot with enhanced dipolar coupling ( http://arxiv.org/abs/2405.10796v2 ) ライセンス: Link先を確認 | Jann H. Ungerer, Alessia Pally, Stefano Bosco, Artem Kononov, Deepankar Sarmah, Sebastian Lehmann, Claes Thelander, Ville F. Maisi, Pasquale Scarlino, Daniel Loss, Andreas Baumgartner, Christian Schönenberger, | (参考訳) クビットは動作速度とコヒーレンスの間の妥協を必要とする。
ここでは、妥協のないシングルトリップレット(ST)量子ビットを示し、この量子ビットは駆動場に最大結合すると同時に、支配的なノイズ源に最小結合する。
量子ビットはInAsナノワイヤ内の結晶相定義された二重量子ドットに実装される。
超伝導共振器を用いて, スピン-軌道相互作用(SOI)ギャップ, スピン-光子結合強度, クビットデコヒーレンス速度を平面内磁場配向関数として測定する。
我々は、双極子結合を最大化し、デコヒーレンスを最大化するスピンキュービットスイーツスポットを実証した。
我々の理論的な記述は、フォノンを最も有力なノイズ源であると仮定している。
妥協のないスイートスポットは、SOIが物質プラットフォームに限定されているのではなく、SOIを持つあらゆる材料に応用されていることを示唆するSOIに由来する。
これらの発見は、次世代量子ビット技術のためのナノマテリアルの工学的発展の道を開いた。
Qubits require a compromise between operation speed and coherence. Here, we demonstrate a compromise-free singlet-triplet (ST) qubit, where the qubit couples maximally to the driving field while simultaneously coupling minimally to the dominant noise sources. The qubit is implemented in a crystal-phase defined double-quantum dot in an InAs nanowire. Using a superconducting resonator, we measure the spin-orbit interaction (SOI) gap, the spin-photon coupling strength and the qubit decoherence rate as a function of the in-plane magnetic-field orientation. We demonstrate a spin qubit sweet spot maximizing the dipolar coupling and simultaneously minimizing the decoherence. Our theoretical description postulates phonons as the most likely dominant noise source. The compromise-free sweet spot originates from the SOI suggesting that it is not restricted to this material platform, but might find applications in any material with SOI. These findings pave the way for enhanced engineering of these nanomaterials for next-generation qubit technologies. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# 大規模言語モデルにおける記憶のマルチパースペクティブ解析
A Multi-Perspective Analysis of Memorization in Large Language Models ( http://arxiv.org/abs/2405.11577v3 ) ライセンス: Link先を確認 | Bowen Chen, Namgi Han, Yusuke Miyao, | (参考訳) 数十億のパラメータを持つ巨大なコーパスで訓練された大規模言語モデル(LLM)は、様々な分野で前例のない性能を示している。
優れた性能には驚きましたが、研究者たちはこれらのLSMの特別な振る舞いにも気づきました。
これらの行動の1つは記憶であり、LLMはそれらをトレーニングするのと同じ内容を生成することができる。
過去の研究では暗記について論じられていたが、LLMの暗記は、特に暗記の原因とそれらを生成するダイナミックスについての説明を欠いている。
本研究では,様々な視点から記憶を包括的に議論し,議論対象を記憶されたコンテンツだけでなく,記憶されていないコンテンツにも拡張した。
実験により, モデルサイズ, 継続サイズ, 文脈サイズの関係を明らかにすることができた。
さらに,暗記文が暗記文にどのように移行するかを示した。
2) 組込み解析により, 暗記スコアの異なる文の埋め込み空間において, モデルサイズにまたがる分布と復号化のダイナミクスを示した。
n-gram統計解析では, モデルが暗記文や暗記文を生成し始めると, n-gramおよびエントロピー復号力学の解析により境界効果が発見された。
(4) 異なるモデルの暗記を予測するためにトランスフォーマーモデルを訓練し, 文脈による暗記の予測が可能であった。
Large Language Models (LLMs), trained on massive corpora with billions of parameters, show unprecedented performance in various fields. Though surprised by their excellent performances, researchers also noticed some special behaviors of those LLMs. One of those behaviors is memorization, in which LLMs can generate the same content used to train them. Though previous research has discussed memorization, the memorization of LLMs still lacks explanation, especially the cause of memorization and the dynamics of generating them. In this research, we comprehensively discussed memorization from various perspectives and extended the discussion scope to not only just the memorized content but also less and unmemorized content. Through various studies, we found that: (1) Through experiments, we revealed the relation of memorization between model size, continuation size, and context size. Further, we showed how unmemorized sentences transition to memorized sentences. (2) Through embedding analysis, we showed the distribution and decoding dynamics across model size in embedding space for sentences with different memorization scores. The n-gram statistics analysis presents d (3) An analysis over n-gram and entropy decoding dynamics discovered a boundary effect when the model starts to generate memorized sentences or unmemorized sentences. (4)We trained a Transformer model to predict the memorization of different models, showing that it is possible to predict memorizations by context. | 翻訳日:2024-05-31 20:15:18 公開日:2024-05-30 |
# Imp: モバイルデバイス用大規模マルチモーダルモデル
Imp: Highly Capable Large Multimodal Models for Mobile Devices ( http://arxiv.org/abs/2405.12107v2 ) ライセンス: Link先を確認 | Zhenwei Shao, Zhou Yu, Jun Yu, Xuecheng Ouyang, Lihao Zheng, Zhenbiao Gai, Mingyang Wang, Jiajun Ding, | (参考訳) 大規模言語モデル(LLM)の能力を活用することで、近年の大規模マルチモーダルモデル(LMM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。
それでも、それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。
この目的のために、制約付きスケール(例えば、3B)下での能力を最大化するために、いくつかの軽量LMMが連続して提案されている。
これらの手法によって達成された奨励的な結果にもかかわらず、そのほとんどはデザイン空間の1つまたは2つの側面のみに焦点を当てており、モデル能力に影響を与える重要な設計選択はまだ十分に研究されていない。
本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。
その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
特に、我々のImp-3Bモデルは、同じ大きさの既存の軽量LMMを着実に上回り、13Bスケールで最先端のLMMを上回ります。
低ビット量子化と解像度低減技術により、我々のImpモデルは、約13トークン/秒の高速な推論速度でQualcomm Snapdragon 8Gen3モバイルチップにデプロイできる。
By harnessing the capabilities of large language models (LLMs), recent large multimodal models (LMMs) have shown remarkable versatility in open-world multimodal understanding. Nevertheless, they are usually parameter-heavy and computation-intensive, thus hindering their applicability in resource-constrained scenarios. To this end, several lightweight LMMs have been proposed successively to maximize the capabilities under constrained scale (e.g., 3B). Despite the encouraging results achieved by these methods, most of them only focus on one or two aspects of the design space, and the key design choices that influence model capability have not yet been thoroughly investigated. In this paper, we conduct a systematic study for lightweight LMMs from the aspects of model architecture, training strategy, and training data. Based on our findings, we obtain Imp -- a family of highly capable LMMs at the 2B-4B scales. Notably, our Imp-3B model steadily outperforms all the existing lightweight LMMs of similar size, and even surpasses the state-of-the-art LMMs at the 13B scale. With low-bit quantization and resolution reduction techniques, our Imp model can be deployed on a Qualcomm Snapdragon 8Gen3 mobile chip with a high inference speed of about 13 tokens/s. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# 逆転生産プログラムとしてのゴール
Goals as Reward-Producing Programs ( http://arxiv.org/abs/2405.13242v2 ) ライセンス: Link先を確認 | Guy Davidson, Graham Todd, Julian Togelius, Todd M. Gureckis, Brenden M. Lake, | (参考訳) 人々は、子供の遊びから始まり、成人し続けながら、驚くほど独自の目標を生み出すことができる。
目標と目標指向の行動に関する経験的および計算的な研究にもかかわらず、モデルは日々の人間の目標の豊かさを捉えるには程遠い。
ここでは,人為的な遊び目標のデータセットを収集し,それを報酬生成プログラムとしてモデル化し,プログラム合成を通じて新たな人間的な目標を生成することにより,このギャップを埋める。
リワード生成プログラムは、構成、時間的制約の追加、行動トレース上でプログラムの実行による進捗の評価を可能にする象徴的な操作を通じて、ゴールのリッチなセマンティクスをキャプチャする。
目標生成モデルを構築するために、可能なゴールプログラムの無限集合上の適合関数を学習し、品質多様性アルゴリズムを用いて新しいゴールをサンプリングする。
人間の評価者は、人間の例によって占有されるプログラム空間の分割からサンプルされたモデル生成目標が、人間が作成したゲームと区別できないことを発見した。
また、我々のモデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測することもわかりました。
People are remarkably capable of generating their own goals, beginning with child's play and continuing into adulthood. Despite considerable empirical and computational work on goals and goal-oriented behavior, models are still far from capturing the richness of everyday human goals. Here, we bridge this gap by collecting a dataset of human-generated playful goals, modeling them as reward-producing programs, and generating novel human-like goals through program synthesis. Reward-producing programs capture the rich semantics of goals through symbolic operations that compose, add temporal constraints, and allow for program execution on behavioral traces to evaluate progress. To build a generative model of goals, we learn a fitness function over the infinite set of possible goal programs and sample novel goals with a quality-diversity algorithm. Human evaluators found that model-generated goals, when sampled from partitions of program space occupied by human examples, were indistinguishable from human-created games. We also discovered that our model's internal fitness scores predict games that are evaluated as more fun to play and more human-like. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# 格子ボルツマン法のユニタリ量子アルゴリズム
Unitary Quantum Algorithm for the Lattice-Boltzmann Method ( http://arxiv.org/abs/2405.13391v2 ) ライセンス: Link先を確認 | David Wawrzyniak, Josef Winter, Steffen Schmidt, Thomas Indinger, Uwe Schramm, Christian Janßen, Nikolaus A. Adams, | (参考訳) 本稿では,Lattice-Boltzmann法に基づく計算流体力学の量子アルゴリズムを提案する。
本手法は,一段階の局所平衡に完全に緩和されることを前提として,新しい符号化戦略と改良型衝突演算子を包含する。
我々の量子アルゴリズムは、線形化の場合、特に全状態測定を必要とする前に、対流拡散方程式を解くために、複数の時間ステップの計算を可能にする。
さらに,本定式化は,測定に要するアルゴリズム的なステップとして利用して,測定に先立って1段階の非線形平衡分布関数を計算するために拡張することができる。
しかし、非線形の場合、分布関数のモーメントを計算するためには古典的な後処理ステップが必要である。
ガウス丘の1次元の対流拡散を解くことでアルゴリズムを検証する。
我々の量子アルゴリズムは非線形性を捉えている。
We present a quantum algorithm for computational fluid dynamics based on the Lattice-Boltzmann method. Our approach involves a novel encoding strategy and a modified collision operator, assuming full relaxation to the local equilibrium within a single time step. Our quantum algorithm enables the computation of multiple time steps in the linearized case, specifically for solving the advection-diffusion equation, before necessitating a full state measurement. Moreover, our formulation can be extended to compute the non-linear equilibrium distribution function for a single time step prior to measurement, utilizing the measurement as an essential algorithmic step. However, in the non-linear case, a classical postprocessing step is necessary for computing the moments of the distribution function. We validate our algorithm by solving the one dimensional advection-diffusion of a Gaussian hill. Our results demonstrate that our quantum algorithm captures non-linearity. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# SolNet:世界中の太陽光発電電力予測のためのオープンソースのディープラーニングモデル
SolNet: Open-source deep learning models for photovoltaic power forecasting across the globe ( http://arxiv.org/abs/2405.14472v2 ) ライセンス: Link先を確認 | Joris Depoortere, Johan Driesen, Johan Suykens, Hussain Syed Kazmi, | (参考訳) 近年,太陽光発電(PV)予測分野において,ディープラーニングモデルの普及が進んでいる。
これらのモデルの欠点の1つは、優れたパフォーマンスを得るために多くの高品質なデータを必要とすることである。
これは、レガシーシステムにおける測定インフラの貧弱さと、世界中の新しい太陽系の急速な構築のため、実際には実現不可能であることが多い。
本稿では、PVGISから生成された豊富な合成データから移行学習を組み込んだ2段階予測パイプラインを用いて、観測データを微調整する新しい汎用多変量ソーラーパワー予測器であるSolNetを提案する。
オランダ、オーストラリア、ベルギーの数百のサイトからの実際の生産データを用いて、SolNetはデータスカース設定やベースラインモデルよりも予測性能を改善していることを示す。
限られた観測データしか利用できない場合、転送学習の利点が最強であることが分かっています。
同時に、気象データ、季節変動パターン、合成データの量、ソース位置の誤特定の可能性などが、結果に大きな影響を及ぼす可能性があることを示し、トランスファーラーニング実践者にいくつかのガイドラインと考察を行った。
この方法で作成されたSolNetモデルは、シミュレートされた観測データを組み合わせて予測能力を向上できる地球上の土地ベースの太陽太陽光発電システムに適用できる。
Deep learning models have gained increasing prominence in recent years in the field of solar pho-tovoltaic (PV) forecasting. One drawback of these models is that they require a lot of high-quality data to perform well. This is often infeasible in practice, due to poor measurement infrastructure in legacy systems and the rapid build-up of new solar systems across the world. This paper proposes SolNet: a novel, general-purpose, multivariate solar power forecaster, which addresses these challenges by using a two-step forecasting pipeline which incorporates transfer learning from abundant synthetic data generated from PVGIS, before fine-tuning on observational data. Using actual production data from hundreds of sites in the Netherlands, Australia and Belgium, we show that SolNet improves forecasting performance over data-scarce settings as well as baseline models. We find transfer learning benefits to be the strongest when only limited observational data is available. At the same time we provide several guidelines and considerations for transfer learning practitioners, as our results show that weather data, seasonal patterns, amount of synthetic data and possible mis-specification in source location, can have a major impact on the results. The SolNet models created in this way are applicable for any land-based solar photovoltaic system across the planet where simulated and observed data can be combined to obtain improved forecasting capabilities. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# PV調整:極端LLM圧縮のためのストレートスルー推定を超えて
PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression ( http://arxiv.org/abs/2405.14852v2 ) ライセンス: Link先を確認 | Vladimir Malinovskii, Denis Mazur, Ivan Ilin, Denis Kuznedelev, Konstantin Burlachenko, Kai Yi, Dan Alistarh, Peter Richtarik, | (参考訳) 大規模言語モデル(LLM)の「極端」圧縮、すなわちパラメータ毎に1-2ビットまで、リソース制約のあるデバイス上で効率的に実行されることへの大きな関心がある。
既存の研究は、改良されたワンショット量子化技術と重み表現に焦点を当てているが、純粋なポストトレーニングアプローチは、精度-vs-bit-widthトレードオフの観点からは、リターンが低下している。
QuIP#やAQLMのような最先端の量子化手法は、圧縮されたパラメータを限られた量のキャリブレーションデータで微調整することを含むが、圧縮された重みに対する微調整技術は、この設定では性能がよく理解されていないストレートスルー推定器(STE)を排他的に利用することが多い。
本研究では, 極端LLM圧縮におけるSTEの使用を疑問視し, 準最適であることを示すとともに, LLMの量子化対応微調整戦略の体系的研究を行う。
本稿では,既存の微調整戦略を一般化し,改良する表現に依存しないフレームワークであるPV-Tuningを提案する。
実用面では、1-2ビットベクトル量子化に使用する場合、PV-TuningはLlamaやMistralのような高性能モデルの先行技術に優れる。
PV-Tuningを用いて,パラメータあたり2ビットのLlama 2ファミリーモデルに対して,最初のパレート最適量子化を実現する。
There has been significant interest in "extreme" compression of large language models (LLMs), i.e., to 1-2 bits per parameter, which allows such models to be executed efficiently on resource-constrained devices. Existing work focused on improved one-shot quantization techniques and weight representations; yet, purely post-training approaches are reaching diminishing returns in terms of the accuracy-vs-bit-width trade-off. State-of-the-art quantization methods such as QuIP# and AQLM include fine-tuning (part of) the compressed parameters over a limited amount of calibration data; however, such fine-tuning techniques over compressed weights often make exclusive use of straight-through estimators (STE), whose performance is not well-understood in this setting. In this work, we question the use of STE for extreme LLM compression, showing that it can be sub-optimal, and perform a systematic study of quantization-aware fine-tuning strategies for LLMs. We propose PV-Tuning - a representation-agnostic framework that generalizes and improves upon existing fine-tuning strategies, and provides convergence guarantees in restricted cases. On the practical side, when used for 1-2 bit vector quantization, PV-Tuning outperforms prior techniques for highly-performant models such as Llama and Mistral. Using PV-Tuning, we achieve the first Pareto-optimal quantization for Llama 2 family models at 2 bits per parameter. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# 訓練状態のLiDARセグメンテーションモデルに関する実証的研究
An Empirical Study of Training State-of-the-Art LiDAR Segmentation Models ( http://arxiv.org/abs/2405.14870v2 ) ライセンス: Link先を確認 | Jiahao Sun, Chunmei Qing, Xiang Xu, Lingdong Kong, Youquan Liu, Li Li, Chenming Zhu, Jingwei Zhang, Zeqi Xiao, Runnan Chen, Tai Wang, Wenwei Zhang, Kai Chen, | (参考訳) 自動運転の分野では、複雑な3D環境を理解するために、LiDARデータの正確なセグメンテーションが不可欠である。
従来のアプローチは、しばしば異なる独立したコードベースに依存しており、統一された進歩とモデル間の公正なベンチマークを妨げる。
これらの課題に対処するために,私たちは,最先端LiDARセグメンテーションモデルの効率的なトレーニングと評価を目的とした総合ツールボックスであるMMDetection3D-lidarsegを紹介した。
我々は、幅広いセグメンテーションモデルをサポートし、ロバストネスと一般化を強化するために高度なデータ拡張技術を統合する。
さらに、ツールボックスは複数の主要なスパース畳み込みバックエンドをサポートし、計算効率と性能を最適化する。
統一されたフレームワークを育むことで、MMDetection3D-lidarsegは開発とベンチマークを合理化し、研究とアプリケーションのための新しい標準を設定します。
広く使われているデータセットに対する大規模なベンチマーク実験は、ツールボックスの有効性を実証している。
コードベースとトレーニングされたモデルは公開されており、自動運転のためのLiDARセグメンテーションの分野におけるさらなる研究と革新を促進している。
In the rapidly evolving field of autonomous driving, precise segmentation of LiDAR data is crucial for understanding complex 3D environments. Traditional approaches often rely on disparate, standalone codebases, hindering unified advancements and fair benchmarking across models. To address these challenges, we introduce MMDetection3D-lidarseg, a comprehensive toolbox designed for the efficient training and evaluation of state-of-the-art LiDAR segmentation models. We support a wide range of segmentation models and integrate advanced data augmentation techniques to enhance robustness and generalization. Additionally, the toolbox provides support for multiple leading sparse convolution backends, optimizing computational efficiency and performance. By fostering a unified framework, MMDetection3D-lidarseg streamlines development and benchmarking, setting new standards for research and application. Our extensive benchmark experiments on widely-used datasets demonstrate the effectiveness of the toolbox. The codebase and trained models have been publicly available, promoting further research and innovation in the field of LiDAR segmentation for autonomous driving. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# AnalogCoder: トレーニング不要コード生成によるアナログ回路設計
AnalogCoder: Analog Circuit Design via Training-Free Code Generation ( http://arxiv.org/abs/2405.14918v2 ) ライセンス: Link先を確認 | Yao Lai, Sungyoung Lee, Guojin Chen, Souradip Poddar, Mengkang Hu, David Z. Pan, Ping Luo, | (参考訳) アナログ回路設計は現代のチップ技術において重要な課題であり、適切な回路機能を確保するためにコンポーネントタイプ、接続性、パラメータの選択に焦点を当てている。
デジタル回路設計におけるLarge Language Models (LLM) の進歩にもかかわらず、アナログ回路におけるデータの複雑さと不足は大きな課題である。
これらの問題を緩和するために,Pythonコード生成によるアナログ回路設計のためのトレーニング不要 LLM エージェントである AnalogCoder を紹介した。
第一に、AnalogCoderは、フィードバック強化フローにドメイン固有のプロンプトを調整し、高い成功率でアナログ回路の自動的および自己修正設計を可能にする。
第2に、再利用可能なモジュールサブ回路として成功した設計をアーカイブし、複合回路の作成を簡素化する回路ツールライブラリを提案する。
第3に、アナログ回路タスクの幅広い範囲をカバーするために設計されたベンチマークに関する広範な実験は、AnalogCoderが他のLCMベースの手法よりも優れていることを示している。
20個の回路を設計し、標準のGPT-4oより5個多く設計した。
我々は、AnalogCoderが労働集約型チップ設計プロセスを大幅に改善し、非専門家がアナログ回路を効率的に設計できると考えている。
Analog circuit design is a significant task in modern chip technology, focusing on the selection of component types, connectivity, and parameters to ensure proper circuit functionality. Despite advances made by Large Language Models (LLMs) in digital circuit design, the complexity and scarcity of data in analog circuitry pose significant challenges. To mitigate these issues, we introduce AnalogCoder, the first training-free LLM agent for designing analog circuits through Python code generation. Firstly, AnalogCoder incorporates a feedback-enhanced flow with tailored domain-specific prompts, enabling the automated and self-correcting design of analog circuits with a high success rate. Secondly, it proposes a circuit tool library to archive successful designs as reusable modular sub-circuits, simplifying composite circuit creation. Thirdly, extensive experiments on a benchmark designed to cover a wide range of analog circuit tasks show that AnalogCoder outperforms other LLM-based methods. It has successfully designed 20 circuits, 5 more than standard GPT-4o. We believe AnalogCoder can significantly improve the labor-intensive chip design process, enabling non-experts to design analog circuits efficiently. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# Intelligent Go-Explore: 巨大ファンデーションモデルにふさわしい立場
Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models ( http://arxiv.org/abs/2405.15143v2 ) ライセンス: Link先を確認 | Cong Lu, Shengran Hu, Jeff Clune, | (参考訳) Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーであり、発見された状態のアーカイブの原則に基づいて構築され、最も有望な状態から反復的に戻り、探索する。
このアプローチは、アタリゲームやロボット制御など、さまざまな課題において超人的なパフォーマンスをもたらしてきたが、探索をガイドするためには、手動でヒューリスティックを設計する必要がある。
そこで本研究では,これらのヒューリスティックスを,巨大基盤モデル(FM)が捉えた情報と内部的人間の概念に置き換えることで,本来のGo-Exploreの範囲を大きく広げる知能 Go-Explore(IGE)を提案する。
これによりIEGは、ヒューリスティックが定義が難しい複雑な環境であっても、新しい状態がいかに面白く、あるいは有望であるか(例えば、新しい物体、場所、行動を発見する)を本能的に識別する人間的な能力を提供する。
さらに、IGEは、事前に予測できないセレンディピティーな発見を認識し、収益化するための、エキサイティングで以前は不可能な機会を提供する。
IGEを検索と探索を必要とする言語ベースのタスクで評価する。
マルチステップの数学的推論問題であるGame of 24では、IEGは最高のグラフ検索ベースラインよりも100%成功率70.8%速く到達した。
次に、挑戦的な部分的に観測可能なグリッドワールドであるBabyAI-Textでは、IGEが以前のSOTAをはるかに少ないオンラインサンプルで上回っている。
最後に、TextWorldでは、従来のSOTA FMエージェントであるReflexionが完全に失敗する長期探査を必要とする設定でIGEが成功するユニークな能力を示す。
全体として、IGEはFMの強みと強力なGo-Exploreアルゴリズムを組み合わせることで、優れた探査能力を持つより一般的なエージェントを作るための新たな研究のフロンティアを開く。
Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems, built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration, which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these heuristics with the intelligence and internalized human notions of interestingness captured by giant foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g. discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting and previously impossible opportunity to recognize and capitalize on serendipitous discoveries that cannot be predicted ahead of time. We evaluate IGE on a range of language-based tasks that require search and exploration. In Game of 24, a multistep mathematical reasoning problem, IGE reaches 100% success rate 70.8% faster than the best classic graph search baseline. Next, in BabyAI-Text, a challenging partially observable gridworld, IGE exceeds the previous SOTA with orders of magnitude fewer online samples. Finally, in TextWorld, we show the unique ability of IGE to succeed in settings requiring long-horizon exploration where prior SOTA FM agents like Reflexion completely fail. Overall, IGE combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# パウリチェックによる量子ネットワーク内のエラー検出
Detecting Errors in a Quantum Network with Pauli Checks ( http://arxiv.org/abs/2405.15236v2 ) ライセンス: Link先を確認 | Alvin Gonzales, Daniel Dilley, Bikun Li, Liang Jiang, Zain Saleem, | (参考訳) 量子エラー検出方式であるPauli check sandwiching (PCS) を分散マルチパーティプロトコルにすることで量子ネットワークに適用する。
PCSは距離1のコードであり、標準的な量子エラー補正や検出方法よりもリソースオーバーヘッドが少ない。
最終的な忠実度とポストセレクション率の分析式を提供する。
また,再帰数の関数として必要となる資源を多項式的に拡張するエンタングルメント浄化用PCSの再帰版も導入する。
再帰的PCSスキームは距離2量子符号の族を生成する。
解析結果はBBPSSWと同等のシナリオで比較される。
また, エンタングルメントスワップのためのノイズゲートを用いたシミュレーションを行い, 高精度な忠実度向上を実現した。
最後に,PCSの各種設定とグラフ状態特性について論じる。
We apply the quantum error detection scheme Pauli check sandwiching (PCS) to quantum networks by turning it into a distributed multiparty protocol. PCS is a distance 1 code and requires less resource overhead than standard quantum error correction and detection methods. We provide analytical equations for the final fidelity and postselection rate. We also introduce a recursive version of PCS for entanglement purification that only scales polynomially in the resources required as a function of the number of recursions. The recursive PCS scheme generates a family of distance 2 quantum codes. Our analytical results are benchmarked against BBPSSW in comparable scenarios. We also perform simulations with noisy gates for entanglement swapping and attain substantial fidelity improvements. Lastly, we discuss various setups and graph state properties of PCS. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# 現実世界のデバイアス化に向けて:スプーラス相関のきめ細かい分析
Towards Real World Debiasing: A Fine-grained Analysis On Spurious Correlation ( http://arxiv.org/abs/2405.15240v2 ) ライセンス: Link先を確認 | Zhibo Wang, Peng Kuang, Zhixuan Chu, Jingyi Wang, Kui Ren, | (参考訳) トレーニングデータの鮮やかな相関は、実世界のシナリオにおける分散シフトに直面した場合、機械学習モデルの一般化能力を著しく損なう。
この問題に対処するため、多くのデバイアスアプローチが提案され、重度のバイアスで意図的に設計されたデータセット上でベンチマークされている。
ただし、質問は以下の通りである。
既存のベンチマークは実際に現実世界のバイアスを捉えていますか?
2。
既存のデバイアス法は現実世界のバイアスを扱えるか?
既存のベンチマークと実世界のデータセットのバイアス分布を再検討し、バイアスの大きさと頻度に分解してデータセットバイアスを分析するためのきめ細かいフレームワークを提案する。
既存のベンチマークが現実世界のバイアスを十分に表していないことを観察し、理論的に実証する。
さらに、このギャップを埋めるために、2つの新しいバイアス分布を導入し、現実世界のデバイアスに対するニュアンス評価フレームワークを構築します。
これらの結果に基づいて,既存のデバイアス法を評価枠組みを用いて評価する。
その結果,既存の手法では現実のバイアスを扱えないことがわかった。
そこで本研究では,Debias in Destruction (DiD) という,既存のデバイアス法に容易に適用可能な,シンプルかつ効果的な手法を提案する。
実験により,提案した評価フレームワーク内のすべての種類のバイアスに対する既存手法の性能を向上し,DiDの優位性を実証した。
Spurious correlations in training data significantly hinder the generalization capability of machine learning models when faced with distribution shifts in real-world scenarios. To tackle the problem, numerous debias approaches have been proposed and benchmarked on datasets intentionally designed with severe biases. However, it remains to be asked: \textit{1. Do existing benchmarks really capture biases in the real world? 2. Can existing debias methods handle biases in the real world?} To answer the questions, we revisit biased distributions in existing benchmarks and real-world datasets, and propose a fine-grained framework for analyzing dataset bias by disentangling it into the magnitude and prevalence of bias. We observe and theoretically demonstrate that existing benchmarks poorly represent real-world biases. We further introduce two novel biased distributions to bridge this gap, forming a nuanced evaluation framework for real-world debiasing. Building upon these results, we evaluate existing debias methods with our evaluation framework. Results show that existing methods are incapable of handling real-world biases. Through in-depth analysis, we propose a simple yet effective approach that can be easily applied to existing debias methods, named Debias in Destruction (DiD). Empirical results demonstrate the superiority of DiD, improving the performance of existing methods on all types of biases within the proposed evaluation framework. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# Kernel Max-Sliced Wasserstein 距離の統計的および計算的保証
Statistical and Computational Guarantees of Kernel Max-Sliced Wasserstein Distances ( http://arxiv.org/abs/2405.15441v2 ) ライセンス: Link先を確認 | Jie Wang, March Boedihardjo, Yao Xie, | (参考訳) 最適輸送は様々な機械学習タスクで非常に成功したが、次元性の呪いに苦しむことが知られている。
したがって、低次元構造を持つ高次元データに適用する場合、次元減少が望ましい。
カーネル最大スライシング(KMS)ワッサースタイン距離は、ワッサースタイン距離を計算する前にデータを1ドルで次元に還元する最適な非線形写像を求めることによって、この目的のために開発された。
しかし、その理論的性質はまだ完全には発展していない。
本稿では、KMS$p$-ワッサーシュタイン距離と一般的な$p\in[1,\infty)$に対する$n$サンプルの2つの経験的分布に対する最先端のKMS$p$-Wasserstein距離と比較して、より穏やかな技術的仮定の下で、鋭い有限サンプル保証を提供する。
アルゴリズム的に、KMS 2$-Wasserstein 距離の計算はNPハードであることを示し、さらに、多項式時間で効率的に解ける半有限緩和法(SDR)の定式化を提案し、SDPソリューションに緩和ギャップを与える。
本研究では,高次元2サンプル試験における提案手法の優れた性能を示す数値的な例を示す。
Optimal transport has been very successful for various machine learning tasks; however, it is known to suffer from the curse of dimensionality. Hence, dimensionality reduction is desirable when applied to high-dimensional data with low-dimensional structures. The kernel max-sliced (KMS) Wasserstein distance is developed for this purpose by finding an optimal nonlinear mapping that reduces data into $1$ dimensions before computing the Wasserstein distance. However, its theoretical properties have not yet been fully developed. In this paper, we provide sharp finite-sample guarantees under milder technical assumptions compared with state-of-the-art for the KMS $p$-Wasserstein distance between two empirical distributions with $n$ samples for general $p\in[1,\infty)$. Algorithm-wise, we show that computing the KMS $2$-Wasserstein distance is NP-hard, and then we further propose a semidefinite relaxation (SDR) formulation (which can be solved efficiently in polynomial time) and provide a relaxation gap for the SDP solution. We provide numerical examples to demonstrate the good performance of our scheme for high-dimensional two-sample testing. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# 大言語モデルファインチューニングにおけるスパース行列
Sparse Matrix in Large Language Model Fine-tuning ( http://arxiv.org/abs/2405.15525v2 ) ライセンス: Link先を確認 | Haoze He, Juncheng Billy Li, Xuan Jiang, Heather Miller, | (参考訳) LoRAとその変種は、過剰な計算コストを回避できるため、PEFT(パラメータ効率のよい微調整)法として人気を博している。
しかし、PEFT法とフル微調整(FT)法の間には精度のギャップがしばしば存在し、このギャップは体系的に研究されていない。
本研究では,PEFTとフル微調整(FT)の性能ギャップを最小限に抑えるとともに,微調整計算コストとメモリコストの両面を削減すべく,スパースサブ行列を選択する手法を提案する。
我々のスパースマトリックスチューニング(SMT)法は、勾配更新において最も重要なサブ行列を特定し、微調整プロセス中にのみこれらのブロックを更新することから始まる。
実験では,SMTは,LLaMAのような細調整された多言語モデルにおいて,PEFTベースライン(例えば LoRA や DoRA)を一貫して上回り,GPUメモリのフットプリントをFTと比較して67%削減することを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向にあるかについても検討する。
LoRA and its variants have become popular parameter-efficient fine-tuning (PEFT) methods due to their ability to avoid excessive computational costs. However, an accuracy gap often exists between PEFT methods and full fine-tuning (FT), and this gap has yet to be systematically studied. In this work, we introduce a method for selecting sparse sub-matrices that aim to minimize the performance gap between PEFT vs. full fine-tuning (FT) while also reducing both fine-tuning computational cost and memory cost. Our Sparse Matrix Tuning (SMT) method begins by identifying the most significant sub-matrices in the gradient update, updating only these blocks during the fine-tuning process. In our experiments, we demonstrate that SMT consistently surpasses other PEFT baseline (e.g. LoRA and DoRA) in fine-tuning popular large language models such as LLaMA across a broad spectrum of tasks, while reducing the GPU memory footprint by 67% compared to FT. We also examine how the performance of LoRA and DoRA tends to plateau and decline as the number of trainable parameters increases, in contrast, our SMT method does not suffer from such issue. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# SEP: ビジュアル言語モデルのための自己強化型プロンプトチューニング
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model ( http://arxiv.org/abs/2405.15549v2 ) ライセンス: Link先を確認 | Hantao Yao, Rui Zhang, Lu Yu, Changsheng Xu, | (参考訳) コンテキスト最適化(CoOp)に基づくプロンプトチューニングは、学習可能なプロンプトトークンを推論することで、下流タスクに視覚言語モデル(VLM)を効果的に適応させる。
しかし、これらのトークンは事前訓練されたトークンとは独立しており、クラス対応のテキストやインスタンス対応の視覚的知識のような入力固有の知識を捕捉できないため、識別性は低い。
事前訓練されたトークンに固有の識別・一般化機能を活用することで、自己拡張型プロンプトチューニング(SEP)という新しいアプローチを導入する。
SEPの中核となる原理は、各エンコーダ層における学習可能なプロンプトトークンを対応する自己予測トークンから適応させることであり、それによってテキストレベルと視覚レベルの両方の埋め込みを強化するために、差別的な事前知識を明示的に取り入れることである。
さらに、SEPの自己強化トークンは、差別を促進するだけでなく、目に見えない領域におけるドメインシフトを緩和し、一般化を促進する。
実際には、SEPはテキスト/視覚エンコーダの各層における各入力データに対して、事前訓練されたトークンからいくつかの代表トークンを選択する。
その後、Token Fusion Module(TFM)を導入し、これらの代表トークンと学習可能なトークンをクロスアテンション機構を用いてマージすることで、自己拡張トークンを生成する。
この自己拡張トークンは、後続のエンコーダ層の入力として機能し、関連する埋め込みを生成する。
様々なベンチマークやタスクに対する総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
コード: \href{Code}{https://github.com/htyao89/SEP}。
Prompt tuning based on Context Optimization (CoOp) effectively adapts visual-language models (VLMs) to downstream tasks by inferring additional learnable prompt tokens. However, these tokens are less discriminative as they are independent of the pre-trained tokens and fail to capture input-specific knowledge, such as class-aware textual or instance-aware visual knowledge. Leveraging the discriminative and generalization capabilities inherent in pre-trained tokens, we introduce a novel approach named Self-Enhanced Prompt Tuning (SEP). The core principle of SEP involves adapting the learnable prompt tokens at each encoder layer from the corresponding self-pretrained tokens, thereby explicitly incorporating discriminative prior knowledge to enhance both textual-level and visual-level embeddings. Furthermore, SEP's self-enhanced tokens not only boost discrimination but also mitigate domain shifts in unseen domains, enhancing generalization. In practice, SEP selects several representative tokens from all pre-trained tokens for each input data at every layer of the text/visual encoders. Subsequently, a Token Fusion Module (TFM) is introduced to generate a self-enhanced token by merging these representative tokens with the learnable tokens using a cross-attention mechanism. This self-enhanced token is then concatenated with all pre-trained tokens, serving as input for subsequent encoder layers to produce the relevant embeddings. Comprehensive evaluations across various benchmarks and tasks confirm SEP's efficacy in prompt tuning. Code: \href{Code}{https://github.com/htyao89/SEP}. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# SLIDE: オープンドメイン対話評価のための小規模および大規模言語モデルの統合フレームワーク
SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation ( http://arxiv.org/abs/2405.15924v3 ) ライセンス: Link先を確認 | Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin, Liang Zhan, | (参考訳) オープンドメイン対話システムにおけるゴールド標準応答の長年の課題は,自動評価指標の課題である。
以前の研究は、強力なLarge Language Models (LLMs) を適用することでいくつかの成功を収めたものの、既存のアプローチはまだ1対多の問題に苦戦しており、ドメイン固有のシナリオでサブパーパフォーマンスを示す。
LLM内のコモンセンス推論バイアスは、ドメイン固有の評価においてそれらの性能を阻害する可能性があると仮定する。
両課題に対処するため,オープンドメイン対話の評価に小型特殊化モデル (SLM) と LLM を併用した新しいフレームワークSLIDE (Small and Large Integrated for Dialogue Evaluation) を提案する。
提案手法では,(1)ロバストな応答埋め込みと非ロバストな応答埋め込みを区別するコントラスト学習,(2)ニューラルネットワークで学習した類似性と,(3)SLMとLCMの両方による評価結果を組み込むための,セマンティック・セマンティック・セマンティック・セマンティクスの指標を導入する。
実験の結果,本手法は分類タスクと評価タスクの両方において最先端性能を実現しており,SLIDE評価器は人的判断との相関性も良好であることがわかった。
私たちのコードはhttps:// github.com/hegehongcha/SLIDE-ACL2024.comで公開されています。
The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation metrics. Though prior works have demonstrated some success by applying powerful Large Language Models (LLMs), existing approaches still struggle with the one-to-many problem, and exhibit subpar performance in domain-specific scenarios. We assume the commonsense reasoning biases within LLMs may hinder their performance in domainspecific evaluations. To address both issues, we propose a novel framework SLIDE (Small and Large Integrated for Dialogue Evaluation), that leverages both a small, specialised model (SLM), and LLMs for the evaluation of open domain dialogues. Our approach introduces several techniques: (1) Contrastive learning to differentiate between robust and non-robust response embeddings; (2) A novel metric for semantic sensitivity that combines embedding cosine distances with similarity learned through neural networks, and (3) a strategy for incorporating the evaluation results from both the SLM and LLMs. Our empirical results demonstrate that our approach achieves state-of-the-art performance in both the classification and evaluation tasks, and additionally the SLIDE evaluator exhibits better correlation with human judgements. Our code is available at https:// github.com/hegehongcha/SLIDE-ACL2024. | 翻訳日:2024-05-31 20:05:24 公開日:2024-05-30 |
# FedSheafHN: グラフ構造化データによる個人化フェデレーション学習
FedSheafHN: Personalized Federated Learning on Graph-structured Data ( http://arxiv.org/abs/2405.16056v2 ) ライセンス: Link先を確認 | Wenfei Liang, Yanan Zhao, Rui She, Yiming Li, Wee Peng Tay, | (参考訳) パーソナライズされたサブグラフフェデレーション学習(FL)は、グラフニューラルネットワーク(GNN)を個々のクライアントのニーズに合わせてカスタマイズし、多様なデータ分散を調節するタスクである。
しかし、モデルパーソナライゼーションを促進することを目的としたFLでのハイパーネットの適用は、クライアント固有の特性の表現が不十分なため、しばしば課題に直面する。
これらの制約を克服するために、協調グラフの埋め込みと効率的なパーソナライズされたモデルパラメータ生成を用いたFedSheafHNと呼ばれるモデルを提案する。
具体的には、各クライアントのローカルサブグラフをサーバ構築コラボレーショングラフに埋め込む。
協調グラフにおけるせん断拡散を利用してクライアント表現を学習する。
我々のモデルは複雑なクライアント特性の統合と解釈を改善します。
さらに,クライアント間の並列処理に最適化された高度なハイパーネットによるパーソナライズされたモデルの生成も保証している。
実証的な評価では、FedSheafHNは、さまざまなグラフ構造化データセット上でのクライアントモデルのパフォーマンスにおいて、ほとんどのシナリオで既存のメソッドよりも優れています。
また、高速なモデル収束と効果的な新しいクライアントの一般化も備えている。
Personalized subgraph Federated Learning (FL) is a task that customizes Graph Neural Networks (GNNs) to individual client needs, accommodating diverse data distributions. However, applying hypernetworks in FL, while aiming to facilitate model personalization, often encounters challenges due to inadequate representation of client-specific characteristics. To overcome these limitations, we propose a model called FedSheafHN, using enhanced collaboration graph embedding and efficient personalized model parameter generation. Specifically, our model embeds each client's local subgraph into a server-constructed collaboration graph. We utilize sheaf diffusion in the collaboration graph to learn client representations. Our model improves the integration and interpretation of complex client characteristics. Furthermore, our model ensures the generation of personalized models through advanced hypernetworks optimized for parallel operations across clients. Empirical evaluations demonstrate that FedSheafHN outperforms existing methods in most scenarios, in terms of client model performance on various graph-structured datasets. It also has fast model convergence and effective new clients generalization. | 翻訳日:2024-05-31 19:55:34 公開日:2024-05-30 |
# LLM生成コード:コード書き換えによるゼロショット合成コード検出器
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting ( http://arxiv.org/abs/2405.16133v2 ) ライセンス: Link先を確認 | Tong Ye, Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji, Wenhai Wang, | (参考訳) LLM(Large Language Models)は、コード生成に優れた能力を発揮している。
しかし、LLM生成(合成)コードの誤用は、教育分野と産業分野の両方で懸念を引き起こしており、合成コード検出器の開発に必須の必要性が浮かび上がっている。
LLM生成されたコンテンツを検出する既存の方法は、主に一般的なテキスト用に調整されており、プログラミング言語の文法的構造や巨大な"低エントロピー"トークンのために、しばしばコードの内容に苦しむ。
そこで本研究では,コードと書き換え版との類似性に基づくゼロショット合成符号検出手法を提案する。
本手法は,LLM書き直し符号と原符号との差が,原符号が合成されたときに小さくなる傾向にあるという直感に依存する。
自己教師付きコントラスト学習を用いて、コード類似性を訓練し、2つの合成コード検出ベンチマークでアプローチを評価する。
以上の結果から,APPSベンチマークでは20.5%,MBPPベンチマークでは29.1%の改善が得られた。
Large Language Models (LLMs) have exhibited remarkable proficiency in generating code. However, the misuse of LLM-generated (Synthetic) code has prompted concerns within both educational and industrial domains, highlighting the imperative need for the development of synthetic code detectors. Existing methods for detecting LLM-generated content are primarily tailored for general text and often struggle with code content due to the distinct grammatical structure of programming languages and massive "low-entropy" tokens. Building upon this, our work proposes a novel zero-shot synthetic code detector based on the similarity between the code and its rewritten variants. Our method relies on the intuition that the differences between the LLM-rewritten and original codes tend to be smaller when the original code is synthetic. We utilize self-supervised contrastive learning to train a code similarity model and assess our approach on two synthetic code detection benchmarks. Our results demonstrate a notable enhancement over existing synthetic content detectors designed for general texts, with an improvement of 20.5% in the APPS benchmark and 29.1% in the MBPP benchmark. | 翻訳日:2024-05-31 19:55:34 公開日:2024-05-30 |
# 再活性化攻撃によるバックドアディフェンスのセキュリティ感覚の破壊
Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack ( http://arxiv.org/abs/2405.16134v2 ) ライセンス: Link先を確認 | Mingli Zhu, Siyuan Liang, Baoyuan Wu, | (参考訳) ディープニューラルネットワークは、バックドア攻撃に対する防御において永続的な課題に直面しており、攻撃と防御の間の戦いが進行中である。
既存のバックドア防衛戦略は、攻撃の成功率を下げるという有望な実績を示しているが、バックドアの脅威がモデルから真に排除されたと自信を持って主張できるだろうか?
そこで本研究では,防衛後のバックドアモデルの特徴を再検討する(防衛モデルとして記述する)。
意外なことに、既存の訓練後防衛戦略から派生した防衛モデルには、元のバックドアが依然として存在し、バックドアの存在率は、バックドアの存在係数と呼ばれる新しい指標によって測定される。
つまり、バックドアは取り除かれるのではなく休眠状態にあるということだ。
この発見をさらに検証するために、我々は、これらの休眠バックドアが推論中に容易に再活性化できることを実証的に示す。
より実践的に、我々はバックドアの再活性化をブラックボックスのシナリオに拡張し、このシナリオではディフェンスモデルは推論中に相手にのみ問い合わせることができ、クエリベースとトランスファーベースのバックドア再活性化攻撃という2つの効果的な方法を開発した。
提案手法の有効性を画像分類とマルチモーダルコントラスト学習(CLIP)の両課題で検証した。
結論として、この研究は既存の防衛戦略で調査されたことのない重大な脆弱性を明らかにし、より堅牢で先進的なバックドア防衛機構を設計する緊急性を強調した。
Deep neural networks face persistent challenges in defending against backdoor attacks, leading to an ongoing battle between attacks and defenses. While existing backdoor defense strategies have shown promising performance on reducing attack success rates, can we confidently claim that the backdoor threat has truly been eliminated from the model? To address it, we re-investigate the characteristics of the backdoored models after defense (denoted as defense models). Surprisingly, we find that the original backdoors still exist in defense models derived from existing post-training defense strategies, and the backdoor existence is measured by a novel metric called backdoor existence coefficient. It implies that the backdoors just lie dormant rather than being eliminated. To further verify this finding, we empirically show that these dormant backdoors can be easily re-activated during inference, by manipulating the original trigger with well-designed tiny perturbation using universal adversarial attack. More practically, we extend our backdoor reactivation to black-box scenario, where the defense model can only be queried by the adversary during inference, and develop two effective methods, i.e., query-based and transfer-based backdoor re-activation attacks. The effectiveness of the proposed methods are verified on both image classification and multimodal contrastive learning (i.e., CLIP) tasks. In conclusion, this work uncovers a critical vulnerability that has never been explored in existing defense strategies, emphasizing the urgency of designing more robust and advanced backdoor defense mechanisms in the future. | 翻訳日:2024-05-31 19:55:34 公開日:2024-05-30 |
# 周波数拡張状態空間モデルによる画像評価
Image Deraining with Frequency-Enhanced State Space Model ( http://arxiv.org/abs/2405.16470v2 ) ライセンス: Link先を確認 | Shugo Yamashita, Masaaki Ikehara, | (参考訳) 画像中の雨物の除去は重要な問題として認識されている。
この分野では、畳み込みニューラルネットワーク(CNN)やトランスフォーマーといったディープラーニングベースのアプローチが成功している。
近年、ステートスペースモデル(SSM)は、自然言語処理と画像処理の両方において、長距離依存をモデル化する能力により、様々なタスクにおいて優れた性能を示した。
本研究では,SSMを降雨除去に適用し,DFSSM(Deraining Frequency-Enhanced State Space Model)を提案する。
特定の方向に高強度の周波数成分を発生させる雨害を効果的に除去するために,SSMと並列に周波数領域処理を用いる。
さらに,複数のカーネルサイズを持つ畳み込みを用いて様々なスケールの劣化を効果的に捕捉し,情報の流れを管理するゲーティング機構を統合する,新しい混合スケールゲート畳み込みブロックを開発した。
最後に,合成および実世界の雨天画像データセットを用いた実験により,本手法が最先端の手法を超越していることが判明した。
Removing rain artifacts in images is recognized as a significant issue. In this field, deep learning-based approaches, such as convolutional neural networks (CNNs) and Transformers, have succeeded. Recently, State Space Models (SSMs) have exhibited superior performance across various tasks in both natural language processing and image processing due to their ability to model long-range dependencies. This study introduces SSM to rain removal and proposes a Deraining Frequency-Enhanced State Space Model (DFSSM). To effectively remove rain streaks, which produce high-intensity frequency components in specific directions, we employ frequency domain processing concurrently with SSM. Additionally, we develop a novel mixed-scale gated-convolutional block, which uses convolutions with multiple kernel sizes to capture various scale degradations effectively and integrates a gating mechanism to manage the flow of information. Finally, experiments on synthetic and real-world rainy image datasets show that our method surpasses state-of-the-art methods. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# 言語エージェントのためのメタタスク計画
Meta-Task Planning for Language Agents ( http://arxiv.org/abs/2405.16510v3 ) ライセンス: Link先を確認 | Cong Zhang, Derrick Goh Xin Deik, Dexun Li, Hao Zhang, Yong Liu, | (参考訳) ニューラルネットワークモデルの急速な進歩は、インテリジェントエージェント研究の新たな飛躍を引き起こした。
従来のエージェントとは異なり、大規模言語モデルベースエージェント(LLMエージェント)は、より優れた推論と一般化能力のために、人工知能(AGI)を実現するための有望なパラダイムとして登場した。
LLMエージェントが現実のタスクで成功するためには,効果的な計画が不可欠である。
現在の計画手法は通常、タスクを実行可能なアクションシーケンスに変換する。
しかし、複雑なタスクを細粒度で実行可能であるか最適な順序を決定することは、しばしば不均一なアクションの長い連鎖を構成することを必要とするが、依然として困難である。
本稿では,メタタスク計画(Meta-Task Planning, MTP)について紹介する。
各メタタスクは実行可能アクションにマッピングされる。
MTPはTravelPlannerとAPI-Bankの2つの厳格なベンチマークで評価された。
特に、MTPはTravelPlannerで平均$\sim40\%$成功率を達成し、最先端(SOTA)ベースライン(2.92\%$)よりもはるかに高く、API-BankでReActで$LLM_{api}$-4を上回り、LCMをマルチエージェントシステムに統合する可能性を示している。
The rapid advancement of neural language models has sparked a new surge of intelligent agent research. Unlike traditional agents, large language model-based agents (LLM agents) have emerged as a promising paradigm for achieving artificial general intelligence (AGI) due to their superior reasoning and generalization capabilities. Effective planning is crucial for the success of LLM agents in real-world tasks, making it a highly pursued topic in the community. Current planning methods typically translate tasks into executable action sequences. However, determining a feasible or optimal sequence for complex tasks at fine granularity, which often requires compositing long chains of heterogeneous actions, remains challenging. This paper introduces Meta-Task Planning (MTP), a zero-shot methodology for collaborative LLM-based multi-agent systems that simplifies complex task planning by decomposing it into a hierarchy of subordinate tasks, or meta-tasks. Each meta-task is then mapped into executable actions. MTP was assessed on two rigorous benchmarks, TravelPlanner and API-Bank. Notably, MTP achieved an average $\sim40\%$ success rate on TravelPlanner, significantly higher than the state-of-the-art (SOTA) baseline ($2.92\%$), and outperforming $LLM_{api}$-4 with ReAct on API-Bank by $\sim14\%$, showing the immense potential of integrating LLM with multi-agent systems. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# 微調整されたスパース・オブ・エクササイズにおけるエキスパートの選抜方法の確率的有効性
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts ( http://arxiv.org/abs/2405.16646v3 ) ライセンス: Link先を確認 | Mohammed Nowaz Rabbani Chowdhury, Meng Wang, Kaoutar El Maghraoui, Naigang Wang, Pin-Yu Chen, Christopher Carothers, | (参考訳) 疎結合のエキスパート(MoE)アーキテクチャは異なるサブネットワーク、すなわち訓練可能なルータを介して異なるサブネットワークに異なる入力を送信する。
MoEは大規模モデルのトレーニング計算を大幅に削減するが、ダウンストリームタスクではメモリや計算コストがかかる可能性がある。
モデルプルーニングは推論計算の削減に人気があるが、MoEアーキテクチャにおけるその応用は明らかにされていない。
我々の知る限り、本論文は、微調整されたMoEモデルのエキスパートを刈り取るための、初めて、証明可能な効率のよい技術を提供する。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更した専門家のプルーニングの優先順位付けは、テスト精度の維持を保証し、モデルサイズと計算要求を大幅に削減する。
我々の理論解析は、単純化されたMoEアーキテクチャのバイナリ分類タスクを中心にしているが、我々は、CIFAR10、CIFAR100、ImageNetなどのベンチマークデータセットに基づいて、VMoEやE3MoEのような大視的MoEモデルで検証する。
The sparsely gated mixture of experts (MoE) architecture sends different inputs to different subnetworks, i.e., experts, through trainable routers. MoE reduces the training computation significantly for large models, but its deployment can be still memory or computation expensive for some downstream tasks. Model pruning is a popular approach to reduce inference computation, but its application in MoE architecture is largely unexplored. To the best of our knowledge, this paper provides the first provably efficient technique for pruning experts in finetuned MoE models. We theoretically prove that prioritizing the pruning of the experts with a smaller change of the routers l2 norm from the pretrained model guarantees the preservation of test accuracy, while significantly reducing the model size and the computational requirements. Although our theoretical analysis is centered on binary classification tasks on simplified MoE architecture, our expert pruning method is verified on large vision MoE models such as VMoE and E3MoE finetuned on benchmark datasets such as CIFAR10, CIFAR100, and ImageNet. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# POMDPの解法における変圧器の再考
Rethinking Transformers in Solving POMDPs ( http://arxiv.org/abs/2405.17358v3 ) ライセンス: Link先を確認 | Chenhao Lu, Ruizhe Shi, Yuyao Liu, Kaizhe Hu, Simon S. Du, Huazhe Xu, | (参考訳) 実世界のシナリオにおける強化学習(RL)のような連続的な意思決定アルゴリズムは、必然的に部分観測可能な環境に直面している。
本稿では、部分的に観測可能なマルコフ決定プロセス(POMDP)におけるトランスフォーマー(transformers)という一般的なアーキテクチャの有効性を精査し、その理論的限界を明らかにする。
我々はトランスフォーマーがモデル化に苦慮している正規言語がPOMDPに還元可能であることを確立する。
このことはトランスフォーマーがPOMDP固有の帰納バイアスを学習する上で大きな課題となる。
本稿では、RLのシーケンスモデルとしてのトランスフォーマーの一般的な信念に疑問を呈し、ポイントワイズ・リカレント構造を導入することを提案する。
Deep Linear Recurrent Unit (LRU) は、部分的に観測可能なRLの代替としてよく適しており、Transformerの準最適性能とLRUのかなりの強度を強調した実証的な結果である。
Sequential decision-making algorithms such as reinforcement learning (RL) in real-world scenarios inevitably face environments with partial observability. This paper scrutinizes the effectiveness of a popular architecture, namely Transformers, in Partially Observable Markov Decision Processes (POMDPs) and reveals its theoretical limitations. We establish that regular languages, which Transformers struggle to model, are reducible to POMDPs. This poses a significant challenge for Transformers in learning POMDP-specific inductive biases, due to their lack of inherent recurrence found in other models like RNNs. This paper casts doubt on the prevalent belief in Transformers as sequence models for RL and proposes to introduce a point-wise recurrent structure. The Deep Linear Recurrent Unit (LRU) emerges as a well-suited alternative for Partially Observable RL, with empirical results highlighting the sub-optimal performance of the Transformer and considerable strength of LRU. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# オフライン模倣学習における多変量記述の活用法
How to Leverage Diverse Demonstrations in Offline Imitation Learning ( http://arxiv.org/abs/2405.17476v3 ) ライセンス: Link先を確認 | Sheng Yue, Jiani Liu, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang, | (参考訳) 不完全な実演を伴うオフライン模倣学習(IL)は、多くの現実世界のドメインで専門家データが不足しているため、注目を集めている。
このシナリオの根本的な問題は、ノイズの多いデータからポジティブな振る舞いを抽出する方法である。
一般に、この問題に対する現在のアプローチは、与えられた専門家のデモンストレーションとの状態-アクションの類似性に基づくデータ構築を選択し、(潜在的に豊富な)$\textit{diverse}$状態-アクションの貴重な情報を無視する。
本稿では,結果の状態に基づいて肯定的な振る舞いを識別する,単純で効果的なデータ選択手法を提案する。
さらに、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
実験では,連続制御や視覚に基づくタスクを含む,複雑で高次元のオフラインILベンチマークを用いて,本手法の評価を行った。
以上の結果から,本手法は現在の性能を$\textbf{20/21}$ベンチマークで上回り,通常$\textbf{2-5x}$と同等のランタイムを維持しつつ,振る舞いのクローン($\texttt{BC}$)と同等の性能を維持していることがわかった。
Offline Imitation Learning (IL) with imperfect demonstrations has garnered increasing attention owing to the scarcity of expert data in many real-world domains. A fundamental problem in this scenario is how to extract positive behaviors from noisy data. In general, current approaches to the problem select data building on state-action similarity to given expert demonstrations, neglecting precious information in (potentially abundant) $\textit{diverse}$ state-actions that deviate from expert ones. In this paper, we introduce a simple yet effective data selection method that identifies positive behaviors based on their resultant states -- a more informative criterion enabling explicit utilization of dynamics information and effective extraction of both expert and beneficial diverse behaviors. Further, we devise a lightweight behavior cloning algorithm capable of leveraging the expert and selected data correctly. In the experiments, we evaluate our method on a suite of complex and high-dimensional offline IL benchmarks, including continuous-control and vision-based tasks. The results demonstrate that our method achieves state-of-the-art performance, outperforming existing methods on $\textbf{20/21}$ benchmarks, typically by $\textbf{2-5x}$, while maintaining a comparable runtime to Behavior Cloning ($\texttt{BC}$). | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# OLLIE: オフライントレーニングからオンラインファインタニングまで
OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning ( http://arxiv.org/abs/2405.17477v3 ) ライセンス: Link先を確認 | Sheng Yue, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang, | (参考訳) 本稿では、静的な実演データから模倣ポリシーを事前学習するオフライン・オンライン・イミテーション・ラーニング(IL)について検討し、続いて環境相互作用を最小限に抑えた高速な微調整を行う。
既存のオフラインILとオンラインILメソッドの組み合わせは、初期識別器(しばしばオンラインILで使用される)がポリシー初期化に対してランダムかつ不一致に動作し、誤ったポリシー最適化と事前学習のための$\textit{unlearning}$が生じるため、この文脈では不適切な振る舞いをする傾向がある。
この課題を解決するために,$\textt{OLLIE}$と$\textit{aligned discriminator initialization}$を同時に学習し,スムーズかつ高速な微調整を実現する。
実証的には、$\texttt{OLLIE}$は、連続的な制御から視覚ベースのドメインまで、パフォーマンス、デモンストレーション効率、収束速度の点で、ベースラインメソッドを$\textbf{20}$チャレンジタスクで一貫して大幅に上回ります。
この研究は、ILの文脈における事前訓練と微調整のさらなる研究の基盤となるかもしれない。
In this paper, we study offline-to-online Imitation Learning (IL) that pretrains an imitation policy from static demonstration data, followed by fast finetuning with minimal environmental interaction. We find the na\"ive combination of existing offline IL and online IL methods tends to behave poorly in this context, because the initial discriminator (often used in online IL) operates randomly and discordantly against the policy initialization, leading to misguided policy optimization and $\textit{unlearning}$ of pretraining knowledge. To overcome this challenge, we propose a principled offline-to-online IL method, named $\texttt{OLLIE}$, that simultaneously learns a near-expert policy initialization along with an $\textit{aligned discriminator initialization}$, which can be seamlessly integrated into online IL, achieving smooth and fast finetuning. Empirically, $\texttt{OLLIE}$ consistently and significantly outperforms the baseline methods in $\textbf{20}$ challenging tasks, from continuous control to vision-based domains, in terms of performance, demonstration efficiency, and convergence speed. This work may serve as a foundation for further exploration of pretraining and finetuning in the context of IL. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# LLMによるコード修復が探索-探索トレードオフをもたらす
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff ( http://arxiv.org/abs/2405.17503v2 ) ライセンス: Link先を確認 | Hao Tang, Keya Hu, Jin Peng Zhou, Sicheng Zhong, Wei-Long Zheng, Xujie Si, Kevin Ellis, | (参考訳) 大規模な言語モデル(LLM)でソースコードを反復的に改善し、修復することが、一ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として登場した。
テストケースの銀行が、候補プログラムと共に、LCMは、失敗したテストケースでトリガーすることで、そのプログラムを改善することができる。
しかし、これまでは単純な欲求や広義の戦略を駆使して、コードを反復的に洗練する方法については、未解決の疑問が残る。
ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
我々はこれを、トンプソン・サンプリング(Thompson Sampling)によって解決される、アーム獲得バンディット問題(arm- Acquiring bandit problem)とみなす。
ループ不変合成, 視覚的推論パズル, 競合プログラミング問題などにより, より少ない言語モデル呼び出しで, より多くの問題を解くことができることがわかった。
Iteratively improving and repairing source code with large language models (LLMs), known as refinement, has emerged as a popular way of generating programs that would be too complex to construct in one shot. Given a bank of test cases, together with a candidate program, an LLM can improve that program by being prompted with failed test cases. But it remains an open question how to best iteratively refine code, with prior work employing simple greedy or breadth-first strategies. We show here that refinement exposes an explore-exploit tradeoff: exploit by refining the program that passes the most test cases, or explore by refining a lesser considered program. We frame this as an arm-acquiring bandit problem, which we solve with Thompson Sampling. The resulting LLM-based program synthesis algorithm is broadly applicable: Across loop invariant synthesis, visual reasoning puzzles, and competition programming problems, we find that our new method can solve more problems using fewer language model calls. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# C$^{3}$Bench: 大規模言語モデルのための包括的古典中国語理解ベンチマーク
C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models ( http://arxiv.org/abs/2405.17732v2 ) ライセンス: Link先を確認 | Jiahuan Cao, Yongxin Shi, Dezhi Peng, Yang Liu, Lianwen Jin, | (参考訳) 古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。
近年,CCUにおけるLarge Language Models (LLMs) の可能性を活用しようと試みている。
しかし、LLMのCCU機能を評価するための包括的なベンチマークは提供されていない。
このギャップを埋めるために、C$^{3}$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアからなる、包括的古典中国語理解ベンチマークである。
さらに、C$^{3}$benchのデータは10の異なる領域から生まれ、古典中国語のカテゴリの大半をカバーしている。
提案した C$^{3}$bench を用いて,5つのCCU タスクすべてに対する15の代表的な LLM の定量的性能を広範囲に評価した。
LLMのCCU機能の公開リーダボードを確立するだけでなく,いくつかの知見を得た。
具体的には、既存のLLMはCCUタスクに苦戦しており、教師付きモデルに劣っている。
さらに、CCUは特別な注意を要するタスクであることを示す。
この研究は、LCMベースのCCU研究の将来的な進歩のための標準ベンチマーク、包括的ベースライン、および貴重な洞察を提供することができると信じている。
評価パイプラインとデータセットは \url{https://github.com/SCUT-DLVCLab/C3bench} で公開されている。
Classical Chinese Understanding (CCU) holds significant value in preserving and exploration of the outstanding traditional Chinese culture. Recently, researchers have attempted to leverage the potential of Large Language Models (LLMs) for CCU by capitalizing on their remarkable comprehension and semantic capabilities. However, no comprehensive benchmark is available to assess the CCU capabilities of LLMs. To fill this gap, this paper introduces C$^{3}$bench, a Comprehensive Classical Chinese understanding benchmark, which comprises 50,000 text pairs for five primary CCU tasks, including classification, retrieval, named entity recognition, punctuation, and translation. Furthermore, the data in C$^{3}$bench originates from ten different domains, covering most of the categories in classical Chinese. Leveraging the proposed C$^{3}$bench, we extensively evaluate the quantitative performance of 15 representative LLMs on all five CCU tasks. Our results not only establish a public leaderboard of LLMs' CCU capabilities but also gain some findings. Specifically, existing LLMs are struggle with CCU tasks and still inferior to supervised models. Additionally, the results indicate that CCU is a task that requires special attention. We believe this study could provide a standard benchmark, comprehensive baselines, and valuable insights for the future advancement of LLM-based CCU research. The evaluation pipeline and dataset are available at \url{https://github.com/SCUT-DLVCLab/C3bench}. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# ORLM:最適化モデリングのための大規模言語モデルのトレーニング
ORLM: Training Large Language Models for Optimization Modeling ( http://arxiv.org/abs/2405.17743v2 ) ライセンス: Link先を確認 | Zhengyang Tang, Chenyu Huang, Xin Zheng, Shixi Hu, Zizhuo Wang, Dongdong Ge, Benyou Wang, | (参考訳) 大規模言語モデル(LLM)は、最適化モデリングを自動化する能力を提供することで、複雑なオペレーションリサーチ(OR)問題に対処するための強力なツールとして登場した。
しかし、現在の方法論はプロプライエタリなLCMとの迅速なエンジニアリング(マルチエージェントの協力など)に大きく依存しており、業界アプリケーションでは禁止される可能性のあるデータのプライバシに関する懸念を提起している。
この問題に対処するために、最適化モデリングのためのオープンソースのLLMのトレーニングを提案する。
OR LLMのトレーニングデータセットの4つの重要な要件を特定し,特定の要件に合わせた合成データを生成するための半自動プロセスであるOR-Instructを設計,実装する。
また、実世界のOR問題を解決する上でLLMをテストするための最初の産業ベンチマークであるIndustrialORベンチマークも導入した。
OR-Instruct のデータを 7b サイズの様々なオープンソース LLM (ORLMs と呼ぶ) に適用することにより,最適化モデルの性能を大幅に向上する。
我々は,NL4OPT,MAMO,IndustrialORベンチマークの最先端性能を実現する。
私たちのコードとデータは、 \url{https://github.com/Cardinal-Operations/ORLM}で利用可能です。
Large Language Models (LLMs) have emerged as powerful tools for tackling complex Operations Research (OR) problem by providing the capacity in automating optimization modeling. However, current methodologies heavily rely on prompt engineering (e.g., multi-agent cooperation) with proprietary LLMs, raising data privacy concerns that could be prohibitive in industry applications. To tackle this issue, we propose training open-source LLMs for optimization modeling. We identify four critical requirements for the training dataset of OR LLMs, design and implement OR-Instruct, a semi-automated process for creating synthetic data tailored to specific requirements. We also introduce the IndustryOR benchmark, the first industrial benchmark for testing LLMs on solving real-world OR problems. We apply the data from OR-Instruct to various open-source LLMs of 7b size (termed as ORLMs), resulting in a significantly improved capability for optimization modeling. Our best-performing ORLM achieves state-of-the-art performance on the NL4OPT, MAMO, and IndustryOR benchmarks. Our code and data are available at \url{https://github.com/Cardinal-Operations/ORLM}. | 翻訳日:2024-05-31 19:55:33 公開日:2024-05-30 |
# 臨床応用のための骨格型運動エンコーダモデルのベンチマーク:歩行系列におけるパーキンソン病重症度の推定
Benchmarking Skeleton-based Motion Encoder Models for Clinical Applications: Estimating Parkinson's Disease Severity in Walking Sequences ( http://arxiv.org/abs/2405.17817v2 ) ライセンス: Link先を確認 | Vida Adeli, Soroush Mehraban, Irene Ballester, Yasamin Zarghami, Andrea Sabo, Andrea Iaboni, Babak Taati, | (参考訳) 本研究では,PD患者の歩行パターンを解析するための大規模人体運動データセットを用いた一般的な人体運動エンコーダの応用について検討した。
これらのモデルは、ヒトの生体力学的知識の豊富さを学習しているが、パーキンソン歩行などの病理学的運動の分析における効果は、まだ完全には検証されていない。
本研究では, 運動障害社会の予測能力について, モーションキャプチャーデータから, パーキンソン病評価尺度 (MDS-UPDRS-III) の歩行スコアを推定し, 事前訓練した6つの人体動作エンコーダモデルについて, 比較枠組みを提案し, 評価を行った。
われわれはこれらのデータを、最近リリースされたPD患者を含む大規模なPDデータセットにおいて、伝統的な歩行特徴に基づく予測モデルと比較した。
機能ベースのモデルは現在、重み付けされた平均精度、精度、リコール、F1スコアを示している。
比較的類似した結果を持つモーションエンコーダモデルは、臨床環境でのスケーラビリティと効率性を示す。
このポテンシャルは、PDトレーニングセットの微調整時にエンコーダモデルの性能が向上したことによる。
ヒトの6つの運動モデルのうち4つは、オン・メディケーション状態とオフ・メディケーション状態の間に有意な差がある予測スコアを提供した。
この結果から, 運動エンコーダモデルの臨床的変化に対する感受性が示唆された。
また、これらのモデルの継続的なカスタマイズの必要性を強調し、疾患特有の特徴をよりよく捉え、労働集約的な特徴工学への依存を減らす。
最後に,臨床環境における骨格型モーションエンコーダモデルの解析のためのベンチマークを構築した。
私たちの知る限りでは、最先端のモデルをテストし、臨床環境での競争を可能にするベンチマークを提供するのは、今回が初めてです。
コードとベンチマークのリーダーボードは、コードで入手できる。
This study investigates the application of general human motion encoders trained on large-scale human motion datasets for analyzing gait patterns in PD patients. Although these models have learned a wealth of human biomechanical knowledge, their effectiveness in analyzing pathological movements, such as parkinsonian gait, has yet to be fully validated. We propose a comparative framework and evaluate six pre-trained state-of-the-art human motion encoder models on their ability to predict the Movement Disorder Society - Unified Parkinson's Disease Rating Scale (MDS-UPDRS-III) gait scores from motion capture data. We compare these against a traditional gait feature-based predictive model in a recently released large public PD dataset, including PD patients on and off medication. The feature-based model currently shows higher weighted average accuracy, precision, recall, and F1-score. Motion encoder models with closely comparable results demonstrate promise for scalability and efficiency in clinical settings. This potential is underscored by the enhanced performance of the encoder model upon fine-tuning on PD training set. Four of the six human motion models examined provided prediction scores that were significantly different between on- and off-medication states. This finding reveals the sensitivity of motion encoder models to nuanced clinical changes. It also underscores the necessity for continued customization of these models to better capture disease-specific features, thereby reducing the reliance on labor-intensive feature engineering. Lastly, we establish a benchmark for the analysis of skeleton-based motion encoder models in clinical settings. To the best of our knowledge, this is the first study to provide a benchmark that enables state-of-the-art models to be tested and compete in a clinical context. Codes and benchmark leaderboard are available at code. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# スペクトルトランニケーションカーネル:$C^*$-代数カーネルマシンにおける非可換性
Spectral Truncation Kernels: Noncommutativity in $C^*$-algebraic Kernel Machines ( http://arxiv.org/abs/2405.17823v2 ) ライセンス: Link先を確認 | Yuka Hashimoto, Ayoub Hafid, Masahiro Ikeda, Hachem Kadri, | (参考訳) 本稿では、非可換幾何学や$C^*$-代数の分野で議論されているスペクトルトランケーションに基づく、新しい正定値カーネルのクラスを提案する。
入力と出力が関数であり、多項式、積、分離可能なカーネルなどの既存のカーネルを一般化するカーネルに焦点を当て、カーネルに現れる製品の非可換性を記述したトランケーションパラメータ$n$を導入する。
n$が無限大になるとき、提案されたカーネルは既存の可換カーネルに傾向がある。
n$ が有限であれば、それらは異なる振る舞いを示し、非可換性はデータ関数領域に沿った相互作用を誘導する。
truncationパラメータ$n$は、性能向上につながる支配的要因であり、適切な$n$を設定することで、表現力と表現空間の複雑さのバランスをとることができる。
提案されたカーネルクラスの柔軟性により、以前の可換カーネルを超えることができる。
In this paper, we propose a new class of positive definite kernels based on the spectral truncation, which has been discussed in the fields of noncommutative geometry and $C^*$-algebra. We focus on kernels whose inputs and outputs are functions and generalize existing kernels, such as polynomial, product, and separable kernels, by introducing a truncation parameter $n$ that describes the noncommutativity of the products appearing in the kernels. When $n$ goes to infinity, the proposed kernels tend to the existing commutative kernels. If $n$ is finite, they exhibit different behavior, and the noncommutativity induces interactions along the data function domain. We show that the truncation parameter $n$ is a governing factor leading to performance enhancement: by setting an appropriate $n$, we can balance the representation power and the complexity of the representation space. The flexibility of the proposed class of kernels allows us to go beyond previous commutative kernels. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# 混合プロンプトによる拡散モデルパッチング
Diffusion Model Patching via Mixture-of-Prompts ( http://arxiv.org/abs/2405.17825v2 ) ライセンス: Link先を確認 | Seokil Ham, Sangmin Woo, Jin-Young Kim, Hyojun Go, Byeongjun Park, Changick Kim, | (参考訳) 本稿では,すでに収束した拡散モデルの性能を向上させるための簡易な手法である拡散モデルパッチング(DMP)を提案する。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
DMPの有効性は単にパラメータの追加によるものではなく、その動的ゲーティング機構に由来するもので、生成過程のすべてのステップ(例えば、逆認知ステップ)において学習可能なプロンプトのサブセットを選択・結合する。
この戦略は、我々が "mixture-of-prompts" と呼んでいるもので、モデルが各プロンプトの異なる専門知識に基づいて、本質的には最小限のパラメータで、各ステップでモデルの機能を"パッチ"することを可能にする。
DMPは、モデル収束によって通常、大幅な改善が期待できないシナリオであっても、当初トレーニングされていた同じデータセットでさらなるトレーニングを行うことで、モデルを強化します。
実験の結果、DMPはFFHQ 256x256上のDiT-L/2の収束FIDを10.38%向上させ、1.43%のパラメータ増加と50Kの追加訓練を繰り返した。
We present Diffusion Model Patching (DMP), a simple method to boost the performance of pre-trained diffusion models that have already reached convergence, with a negligible increase in parameters. DMP inserts a small, learnable set of prompts into the model's input space while keeping the original model frozen. The effectiveness of DMP is not merely due to the addition of parameters but stems from its dynamic gating mechanism, which selects and combines a subset of learnable prompts at every step of the generative process (e.g., reverse denoising steps). This strategy, which we term "mixture-of-prompts", enables the model to draw on the distinct expertise of each prompt, essentially "patching" the model's functionality at every step with minimal yet specialized parameters. Uniquely, DMP enhances the model by further training on the same dataset on which it was originally trained, even in a scenario where significant improvements are typically not expected due to model convergence. Experiments show that DMP significantly enhances the converged FID of DiT-L/2 on FFHQ 256x256 by 10.38%, achieved with only a 1.43% parameter increase and 50K additional training iterations. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# Deform3DGS: Gassian Splatting を用いた高速手術シーン再構成のためのフレキシブル変形
Deform3DGS: Flexible Deformation for Fast Surgical Scene Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2405.17835v3 ) ライセンス: Link先を確認 | Shuojue Yang, Qian Li, Daiyun Shen, Bingchen Gong, Qi Dou, Yueming Jin, | (参考訳) 組織変形は正確な手術シーンの再構築に重要な課題となる。
再現性が高いにもかかわらず、既存の手法ではレンダリング速度が遅く、訓練時間が長く、術中適用性が制限されている。
リアルタイム3Dレンダリングの新技術である3D Gaussian Splattingの最近の進歩に触発された本研究は、内視鏡手術中に変形可能な組織に対して、Deform3DGSと呼ばれる新しい高速再構築フレームワークを提示する。
具体的には3D GSを点雲初期化を統合して再現性を向上させることで手術シーンに導入する。
さらに,個々のガウスレベルにおける組織変形動態を学習するためのフレキシブルな変形モデリング手法 (FDM) を提案する。
我々のFDMは、効率的な表現で表面の変形をモデル化することができ、リアルタイムなレンダリング性能を実現することができる。
さらに重要なことは、FDMは外科的シーンの再構築を著しく加速し、特に時間効率が重要となる術中環境において、かなりの臨床的価値を示すことである。
DaVinciのロボット手術ビデオを用いた実験では, 再現率の優れたPSNR (37.90) とレンダリング速度 (338.8 FPS) を示すとともに, トレーニング時間を1分/秒に短縮した。
私たちのコードはhttps://github.com/jinlab-imvr/Deform3DGSで利用可能です。
Tissue deformation poses a key challenge for accurate surgical scene reconstruction. Despite yielding high reconstruction quality, existing methods suffer from slow rendering speeds and long training times, limiting their intraoperative applicability. Motivated by recent progress in 3D Gaussian Splatting, an emerging technology in real-time 3D rendering, this work presents a novel fast reconstruction framework, termed Deform3DGS, for deformable tissues during endoscopic surgery. Specifically, we introduce 3D GS into surgical scenes by integrating a point cloud initialization to improve reconstruction. Furthermore, we propose a novel flexible deformation modeling scheme (FDM) to learn tissue deformation dynamics at the level of individual Gaussians. Our FDM can model the surface deformation with efficient representations, allowing for real-time rendering performance. More importantly, FDM significantly accelerates surgical scene reconstruction, demonstrating considerable clinical values, particularly in intraoperative settings where time efficiency is crucial. Experiments on DaVinci robotic surgery videos indicate the efficacy of our approach, showcasing superior reconstruction fidelity PSNR: (37.90) and rendering speed (338.8 FPS) while substantially reducing training time to only 1 minute/scene. Our code is available at https://github.com/jinlab-imvr/Deform3DGS. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# MixDQ: メトリックデカップリング型混合精度量子化を用いたメモリ効率の良いFew-Stepテキスト-画像拡散モデル
MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization ( http://arxiv.org/abs/2405.17873v2 ) ライセンス: Link先を確認 | Tianchen Zhao, Xuefei Ning, Tongcheng Fang, Enshu Liu, Guyue Huang, Zinan Lin, Shengen Yan, Guohao Dai, Yu Wang, | (参考訳) 拡散モデルは視覚的生成の質を著しく向上させた。
しかし、その計算とメモリの大幅なコストは、リソースに制約のあるモバイルデバイスやデスクトップGPUでも、その応用に挑戦する。
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮する。
しかし、メモリ消費は依然として過大である。
ポストトレーニング量子化(PTQ)は、高ビット幅のFP表現を低ビット整数値(INT4/8)に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
この問題に対処するために、混合精度量子化フレームワークであるMixDQを提案する。
まず,高感度テキスト埋め込み量子化のための特殊なBOS対応量子化法を設計する。
次に,各層の感度を測定するために,距離分離感度解析を行う。
最後に,ビット幅割り当てを行う整数型プログラミング手法を開発した。
既存の量子化手法はW8A8では不足するが、MixDQは性能を損なわずにW8A8を達成でき、W4A8は視界の劣化を無視できる。
FP16と比較すると,モデルサイズとメモリコストの3~4倍の削減,レイテンシの1.45倍の高速化を実現している。
Diffusion models have achieved significant visual generation quality. However, their significant computational and memory costs pose challenge for their application on resource-constrained mobile devices or even desktop GPUs. Recent few-step diffusion models reduces the inference time by reducing the denoising steps. However, their memory consumptions are still excessive. The Post Training Quantization (PTQ) replaces high bit-width FP representation with low-bit integer values (INT4/8) , which is an effective and efficient technique to reduce the memory cost. However, when applying to few-step diffusion models, existing quantization methods face challenges in preserving both the image quality and text alignment. To address this issue, we propose an mixed-precision quantization framework - MixDQ. Firstly, We design specialized BOS-aware quantization method for highly sensitive text embedding quantization. Then, we conduct metric-decoupled sensitivity analysis to measure the sensitivity of each layer. Finally, we develop an integer-programming-based method to conduct bit-width allocation. While existing quantization methods fall short at W8A8, MixDQ could achieve W8A8 without performance loss, and W4A8 with negligible visual degradation. Compared with FP16, we achieve 3-4x reduction in model size and memory cost, and 1.45x latency speedup. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# Proof of Quality: ブロックチェーン上の信頼できない生成AIモデル推論のためのコストレスパラダイム
Proof of Quality: A Costless Paradigm for Trustless Generative AI Model Inference on Blockchains ( http://arxiv.org/abs/2405.17934v2 ) ライセンス: Link先を確認 | Zhenjie Zhang, Yuyang Rao, Hao Xiao, Xiaokui Xiao, Yin Yang, | (参考訳) GPT-4やStable Diffusionのような生成AIモデルは、自然言語や画像タスクにおいて強力で破壊的な機能を示している。
しかしながら、これらのモデルを分散化された環境にデプロイすることは依然として困難である。
従来の集中型デプロイメントとは異なり、完全に分散化された環境で、特に信頼性のないブロックチェーンにおいて、AIモデルサービスの整合性を保証することは、極めて重要かつ難しい。
本稿では,ブロックチェーンアーキテクチャ上の任意の大規模生成モデルのデプロイを可能にするために,‘emph{proof of quality}(PoQ)’と呼ばれる新たな推論パラダイムを提案する。
ZKMLやOPMLのような推論手順の検証に基づく従来のアプローチとは異なり、私たちのPoQパラダイムはモデル推論の結果品質に重点を置いています。
当社の基盤となる品質評価モデルとして、軽量BERTベースのクロスエンコーダを使用することで、Llama 3やMixtralといった一般的なオープンソースモデルに適した、ブロックチェーン上の実世界のNLP生成モデル推論のための、最初の実用的なプロトコルであるPQMLを設計し、実装しています。
我々の分析は、我々のプロトコルが敵対的だが合理的な生態系の参加者に対して堅牢であることを示す。
品質評価を検証する際の計算オーバーヘッドは最小限であり、品質検証者はCPUのみを使用しても1秒以内に品質チェックを完了することができる。
予備シミュレーションの結果は、PoQコンセンサスが既存のどのスキームよりも1000倍速いミリ秒で生成されることを示している。
Generative AI models, such as GPT-4 and Stable Diffusion, have demonstrated powerful and disruptive capabilities in natural language and image tasks. However, deploying these models in decentralized environments remains challenging. Unlike traditional centralized deployment, systematically guaranteeing the integrity of AI model services in fully decentralized environments, particularly on trustless blockchains, is both crucial and difficult. In this paper, we present a new inference paradigm called \emph{proof of quality} (PoQ) to enable the deployment of arbitrarily large generative models on blockchain architecture. Unlike traditional approaches based on validating inference procedures, such as ZKML or OPML, our PoQ paradigm focuses on the outcome quality of model inference. Using lightweight BERT-based cross-encoders as our underlying quality evaluation model, we design and implement PQML, the first practical protocol for real-world NLP generative model inference on blockchains, tailored for popular open-source models such as Llama 3 and Mixtral. Our analysis demonstrates that our protocol is robust against adversarial but rational participants in ecosystems, where lazy or dishonest behavior results in fewer benefits compared to well-behaving participants. The computational overhead of validating the quality evaluation is minimal, allowing quality validators to complete the quality check within a second, even using only a CPU. Preliminary simulation results show that PoQ consensus is generated in milliseconds, 1,000 times faster than any existing scheme. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# 大規模言語モデルによるツール学習: 調査
Tool Learning with Large Language Models: A Survey ( http://arxiv.org/abs/2405.17935v2 ) ライセンス: Link先を確認 | Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen, | (参考訳) 近年,大規模言語モデル (LLM) を用いたツール学習が,高度に複雑な問題に対処するLLMの能力向上のための有望なパラダイムとして出現している。
この分野での注目と急速な進歩にもかかわらず、既存の文献は断片化され、体系的な組織が欠如しており、新参者にとって障壁となっている。
このギャップは、LLMによるツール学習に関する既存の研究を包括的に調査する動機となります。
本研究では,ツール学習が有益である理由と,ツール学習の実施方法に焦点をあて,LLMによるツール学習の包括的理解を可能にした。
まず、ツール統合の利点と、ツール学習パラダイムの固有の利点の両方を6つの特定の側面から見直すことで、"なぜ"理由を探求します。
方法については,タスク計画,ツール選択,ツール呼び出し,応答生成という,ツール学習ワークフローにおける4つの重要な段階の分類に従って,文献を体系的にレビューする。
さらに,既存のベンチマークと評価手法の詳細な概要を示し,その関連性に応じて分類する。
最後に、現在の課題について議論し、将来的な方向性を概説し、研究者と工業開発者の両方に、この新興で有望な領域をさらに探求させることを目指している。
また、GitHubリポジトリを保持して、この上昇する領域にある関連論文やリソースを継続的に追跡しています。
Recently, tool learning with large language models (LLMs) has emerged as a promising paradigm for augmenting the capabilities of LLMs to tackle highly complex problems. Despite growing attention and rapid advancements in this field, the existing literature remains fragmented and lacks systematic organization, posing barriers to entry for newcomers. This gap motivates us to conduct a comprehensive survey of existing works on tool learning with LLMs. In this survey, we focus on reviewing existing literature from the two primary aspects (1) why tool learning is beneficial and (2) how tool learning is implemented, enabling a comprehensive understanding of tool learning with LLMs. We first explore the "why" by reviewing both the benefits of tool integration and the inherent benefits of the tool learning paradigm from six specific aspects. In terms of "how", we systematically review the literature according to a taxonomy of four key stages in the tool learning workflow: task planning, tool selection, tool calling, and response generation. Additionally, we provide a detailed summary of existing benchmarks and evaluation methods, categorizing them according to their relevance to different stages. Finally, we discuss current challenges and outline potential future directions, aiming to inspire both researchers and industrial developers to further explore this emerging and promising area. We also maintain a GitHub repository to continually keep track of the relevant papers and resources in this rising area at \url{https://github.com/quchangle1/LLM-Tool-Survey}. | 翻訳日:2024-05-31 19:45:41 公開日:2024-05-30 |
# ソースコード基盤モデルは、転送可能なバイナリ分析知識ベースである
Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases ( http://arxiv.org/abs/2405.19581v1 ) ライセンス: Link先を確認 | Zian Su, Xiangzhe Xu, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang, | (参考訳) Human-Oriented Binary Reverse Engineering (HOBRE) はバイナリとソースコードの交差点に位置し、バイナリコードをソースコードに関連するヒューマン可読コンテンツに引き上げることを目的としており、バイナリソースのセマンティックギャップを埋めることを目指している。
特に生成ソースコード基盤モデル(SCFM)とバイナリ理解モデルにおいて、一様コードモデル事前学習の最近の進歩は、HOBREに適用可能なトランスファー学習の基盤を築き上げている。
しかし、既存の HoOBRE のアプローチは、SCFM のような一様モデルに大きく依存しており、教師付き微調整や汎用 LLM をプロンプトに利用することで、サブ最適性能を実現している。
近年の大規模マルチモーダルモデルの進展に触発されて,両面からのユニモーダル符号モデルの強みを利用して,セマンティックギャップを効果的に橋渡しできることを提案する。
本稿では,バイナリソースエンコーダデコーダモデルとブラックボックスLLMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
提案手法では,SCFM内の事前学習した知識を利用して,関連性のある記号リッチコードフラグメントをコンテキストとして合成する。
この追加のコンテキストにより、ブラックボックスのLCMは回復精度を高めることができる。
ゼロショットのバイナリ・サマリゼーションとバイナリ関数名のリカバリでは,CHRFが10.3%,GPT4が16.7%,トークンレベルの精度が6.7%,名前のリカバリが7.4%向上した。
これらの結果は、バイナリコード解析の自動化と改善における我々のアプローチの有効性を強調します。
Human-Oriented Binary Reverse Engineering (HOBRE) lies at the intersection of binary and source code, aiming to lift binary code to human-readable content relevant to source code, thereby bridging the binary-source semantic gap. Recent advancements in uni-modal code model pre-training, particularly in generative Source Code Foundation Models (SCFMs) and binary understanding models, have laid the groundwork for transfer learning applicable to HOBRE. However, existing approaches for HOBRE rely heavily on uni-modal models like SCFMs for supervised fine-tuning or general LLMs for prompting, resulting in sub-optimal performance. Inspired by recent progress in large multi-modal models, we propose that it is possible to harness the strengths of uni-modal code models from both sides to bridge the semantic gap effectively. In this paper, we introduce a novel probe-and-recover framework that incorporates a binary-source encoder-decoder model and black-box LLMs for binary analysis. Our approach leverages the pre-trained knowledge within SCFMs to synthesize relevant, symbol-rich code fragments as context. This additional context enables black-box LLMs to enhance recovery accuracy. We demonstrate significant improvements in zero-shot binary summarization and binary function name recovery, with a 10.3% relative gain in CHRF and a 16.7% relative gain in a GPT4-based metric for summarization, as well as a 6.7% and 7.4% absolute increase in token-level precision and recall for name recovery, respectively. These results highlight the effectiveness of our approach in automating and improving binary code analysis. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# 高線:確率適応型学習率アルゴリズムの具体的なリスクと学習率曲線
The High Line: Exact Risk and Learning Rate Curves of Stochastic Adaptive Learning Rate Algorithms ( http://arxiv.org/abs/2405.19585v1 ) ライセンス: Link先を確認 | Elizabeth Collins-Woodfin, Inbar Seroussi, Begoña García Malaxechebarría, Andrew W. Mackenzie, Elliot Paquette, Courtney Paquette, | (参考訳) 本研究では,一パス確率勾配勾配(SGD)を適応的学習率で学習する高次最適化問題に対して,学習速度と学習速度のダイナミクスを解析するフレームワークを開発した。
我々は、ODEのシステムに対する決定論的解という観点から、リスクと学習率曲線の正確な表現を与える。
次に、最小二乗問題に対して、2つの適応学習率(理想化された正則線探索とAdaGrad-Norm)を詳細に検討する。
データ共分散行列が厳密な正の固有値を持つ場合、この理想化された正確な直線探索戦略は、SGDの最適固定学習率と比較して任意に遅い収束を示すことができる。
さらに、データ共分散が2つの異なる固有値しか持たない設定において、行探索の制限学習率(無限時間への時間)を正確に特徴付ける。
雑音のない対象に対しては、AdaGrad-Norm学習速度がデータ共分散行列の平均固有値に逆比例する決定論的定数に収束し、固有値の共分散密度が電力法則分布に従えば相転移を同定することを示した。
We develop a framework for analyzing the training and learning rate dynamics on a large class of high-dimensional optimization problems, which we call the high line, trained using one-pass stochastic gradient descent (SGD) with adaptive learning rates. We give exact expressions for the risk and learning rate curves in terms of a deterministic solution to a system of ODEs. We then investigate in detail two adaptive learning rates -- an idealized exact line search and AdaGrad-Norm -- on the least squares problem. When the data covariance matrix has strictly positive eigenvalues, this idealized exact line search strategy can exhibit arbitrarily slower convergence when compared to the optimal fixed learning rate with SGD. Moreover we exactly characterize the limiting learning rate (as time goes to infinity) for line search in the setting where the data covariance has only two distinct eigenvalues. For noiseless targets, we further demonstrate that the AdaGrad-Norm learning rate converges to a deterministic constant inversely proportional to the average eigenvalue of the data covariance matrix, and identify a phase transition when the covariance density of eigenvalues follows a power law distribution. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# SAM-E: 身体操作のためのシーケンス模倣によるビジュアルファウンデーションモデルの活用
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation ( http://arxiv.org/abs/2405.19586v1 ) ライセンス: Link先を確認 | Junjie Zhang, Chenjia Bai, Haoran He, Wenke Xia, Zhigang Wang, Bin Zhao, Xiu Li, Xuelong Li, | (参考訳) 3次元操作におけるマルチタスク模倣ポリシーの獲得は、シーン理解とアクション予測の観点からの課題を提起する。
現在の方法は、ロボットのエンドエフェクタのポーズを予測するために、3D表現とマルチビュー2D表現の両方を用いる。
しかし、それらはまだかなりの量の高品質なロボット軌道を必要としており、目に見えないタスクにおける限定的な一般化と、長距離推論における非効率な実行に悩まされている。
本稿では,視覚境界モデルを用いたロボット操作のための新しいアーキテクチャであるSAM-Eを提案する。
具体的には,タスク関連特徴を抽出するための基礎モデルとして,多数の画像とプロンプトマスクを事前訓練したSegment Anything(SAM)を採用し,ロボットデータにパラメータ効率のよい微調整を適用し,実施シナリオの理解を深める。
長軸推論に対処するため,単一パスにおけるアクションシーケンスの予測が可能な新しいマルチチャネルヒートマップを開発し,実行効率を向上する。
各種命令追従タスクによる実験結果から,SAM-Eはベースラインよりも高い実行効率で優れた性能を実現し,新規タスクへの少数ショット適応における一般化を著しく向上することが示された。
Acquiring a multi-task imitation policy in 3D manipulation poses challenges in terms of scene understanding and action prediction. Current methods employ both 3D representation and multi-view 2D representation to predict the poses of the robot's end-effector. However, they still require a considerable amount of high-quality robot trajectories, and suffer from limited generalization in unseen tasks and inefficient execution in long-horizon reasoning. In this paper, we propose SAM-E, a novel architecture for robot manipulation by leveraging a vision-foundation model for generalizable scene understanding and sequence imitation for long-term action reasoning. Specifically, we adopt Segment Anything (SAM) pre-trained on a huge number of images and promptable masks as the foundation model for extracting task-relevant features, and employ parameter-efficient fine-tuning on robot data for a better understanding of embodied scenarios. To address long-horizon reasoning, we develop a novel multi-channel heatmap that enables the prediction of the action sequence in a single pass, notably enhancing execution efficiency. Experimental results from various instruction-following tasks demonstrate that SAM-E achieves superior performance with higher execution efficiency compared to the baselines, and also significantly improves generalization in few-shot adaptation to new tasks. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# 射影測定における量子状態の不確実性
The uncertainty of quantum states with respect to the projective measurement ( http://arxiv.org/abs/2405.19588v1 ) ライセンス: Link先を確認 | Ming-Jing Zhao, Yuanhong Tao, | (参考訳) 不確実性関係は量子論の特徴的な特徴である。
不確実性は本質的に量子状態に根ざしている。
本研究では、不確かさを量子状態の本質的な性質とみなし、与えられた射影測度に関して体系的に特徴付ける。
不確実性に関する基本的な概念はこの文脈で再定義される。
我々は、不確実性保存業務の形式を証明し、入手する。
最大不確実性を有する量子状態が特徴づけられる。
古典的不確実性と量子的不確実性への普遍的な不確実性分解が提供される。
さらに、不確実性、コヒーレンス、および援助のコヒーレンスの間の統一的および一般的な関係が確立される。
これらの結果は明確な不確実性尺度とは無関係である。
最後に, 忠実度に基づく幾何不確実性と呼ばれる新しい不確実性尺度を提案し, 幾何コヒーレンスとリンクする。
The uncertainty relation is a distinctive characteristic of quantum theory. The uncertainty is essentially rooted in quantum states. In this work we regard the uncertainty as an intrinsic property of quantum state and characterize it systematically with respect to given projective measurement. Some basic concepts about uncertainty are reformulated in this context. We prove and get the form of the uncertainty preserving operations. The quantum states with maximal uncertainty are characterized. A universal decomposition of uncertainty into classical uncertainty and quantum uncertainty is provided. Furthermore, a unified and general relation among uncertainty, coherence and coherence of assistance is established. These results are independent of any explicit uncertainty measure. At last, we propose a new uncertainty measure called the geometric uncertainty based on the fidelity and link it with the geometric coherence. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# 体重増加、モデルダウンは今までに一度もなかった
Weights Augmentation: it has never ever ever ever let her model down ( http://arxiv.org/abs/2405.19590v1 ) ライセンス: Link先を確認 | Junbin Zhuang, Guiguang Din, Yunyi Yan, | (参考訳) ディープラーニングネットワークモデルでは、ウェイトが重要な役割を果たす。
本稿では, ネットワーク構造設計と異なり, 重み探索に着目した重み拡張の概念を提案する。
ウェイト拡張戦略(WAS)の中核は、パラメータ更新に影響を与える損失関数を計算するのに使用できるネットワークに対して、ランダムなトランスフォーメーションウェイト係数のトレーニングとトランスフォーメーション係数であるシャドウウェイト(SW)を採用することである。
しかし、確率勾配降下は、ランダム変換の前にネットワークの元々の重みと呼ばれる平地重み(PW)に適用される。
トレーニング中、多数のSWが一括して高次元空間を形成し、PWはデータの代わりにSWの分布から直接学習される。
精度指向モード(AOM)の重みはPWに依存しており、ネットワークは非常に堅牢で正確である。
欲求指向モード(DOM)ウェイトはSWを用いており、これはWATのパフォーマンス要求に基づいて決定されるネットワークモデルのユニークな機能、例えば計算複雑性の低下、特定のデータに対する感度の低下などである。
デュアルモードは必要に応じていつでも切り替えられる。
WATはデータ拡張技術から重みまで拡張し,理解と実装が容易だが,ほぼすべてのネットワークを驚くほど改善することができる。
我々の実験結果は、VGG-16、ResNet-18、ResNet-34、GoogleNet、MobilementV2、Efficientment-Liteといった畳み込みニューラルネットワークが、ほとんど、あるいは全くコストがかからないことを示しています。
CIFAR100とCIFAR10データセットの精度は7.32\%と9.28\%であり、最高値は13.42\%と18.93\%である。
さらに、DOMは浮動小数点演算(FLOP)を最大36.33\%削減できる。
コードはhttps://github.com/zlearh/Weight-Augmentation-Technologyで公開されている。
Weight play an essential role in deep learning network models. Unlike network structure design, this article proposes the concept of weight augmentation, focusing on weight exploration. The core of Weight Augmentation Strategy (WAS) is to adopt random transformed weight coefficients training and transformed coefficients, named Shadow Weight(SW), for networks that can be used to calculate loss function to affect parameter updates. However, stochastic gradient descent is applied to Plain Weight(PW), which is referred to as the original weight of the network before the random transformation. During training, numerous SW collectively form high-dimensional space, while PW is directly learned from the distribution of SW instead of the data. The weight of the accuracy-oriented mode(AOM) relies on PW, which guarantees the network is highly robust and accurate. The desire-oriented mode(DOM) weight uses SW, which is determined by the network model's unique functions based on WAT's performance desires, such as lower computational complexity, lower sensitivity to particular data, etc. The dual mode be switched at anytime if needed. WAT extends the augmentation technique from data augmentation to weight, and it is easy to understand and implement, but it can improve almost all networks amazingly. Our experimental results show that convolutional neural networks, such as VGG-16, ResNet-18, ResNet-34, GoogleNet, MobilementV2, and Efficientment-Lite, can benefit much at little or no cost. The accuracy of models is on the CIFAR100 and CIFAR10 datasets, which can be evaluated to increase by 7.32\% and 9.28\%, respectively, with the highest values being 13.42\% and 18.93\%, respectively. In addition, DOM can reduce floating point operations (FLOPs) by up to 36.33\%. The code is available at https://github.com/zlearh/Weight-Augmentation-Technology. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# より大規模な言語モデルでは、インコンテキスト学習はなぜ異なるのか?
Why Larger Language Models Do In-context Learning Differently? ( http://arxiv.org/abs/2405.19592v1 ) ライセンス: Link先を確認 | Zhenmei Shi, Junyi Wei, Zhuoyan Xu, Yingyu Liang, | (参考訳) 大規模言語モデル(LLM)は、AIの強力なツールとして登場し、コンテキスト内学習(ICL)の重要な能力を持つ。
最近の興味深い観察の1つは、異なるスケールのモデルは異なるICLの挙動を持つかもしれないということである。
本研究は,LLMとICLの理解向上を目的とした理論的研究である。
本研究では,(1) 単層線形変圧器を用いた線形回帰と(2) 多層多層頭部変圧器を用いたパリティ分類(非線形データと非線形モデル)の2つのスタイルを解析した。
両方の設定において、クローズドフォームの最適解を与え、より小さなモデルでは重要な隠れた特徴が強調され、大きなモデルではより隠れた特徴が強調される。
このことは、トランスフォーマーが注目する場所と、それがICLにどのように影響するかに光を当てています。
大規模ベースモデルとチャットモデルに関する予備実験の結果は、我々の分析を肯定的に支援する。
Large language models (LLM) have emerged as a powerful tool for AI, with the key ability of in-context learning (ICL), where they can perform well on unseen tasks based on a brief series of task examples without necessitating any adjustments to the model parameters. One recent interesting mysterious observation is that models of different scales may have different ICL behaviors: larger models tend to be more sensitive to noise in the test context. This work studies this observation theoretically aiming to improve the understanding of LLM and ICL. We analyze two stylized settings: (1) linear regression with one-layer single-head linear transformers and (2) parity classification with two-layer multiple attention heads transformers (non-linear data and non-linear model). In both settings, we give closed-form optimal solutions and find that smaller models emphasize important hidden features while larger ones cover more hidden features; thus, smaller models are more robust to noise while larger ones are more easily distracted, leading to different ICL behaviors. This sheds light on where transformers pay attention to and how that affects ICL. Preliminary experimental results on large base and chat models provide positive support for our analysis. | 翻訳日:2024-05-31 18:46:29 公開日:2024-05-30 |
# RSNA腹部外傷性CT(RATIC)データセット
The RSNA Abdominal Traumatic Injury CT (RATIC) Dataset ( http://arxiv.org/abs/2405.19595v1 ) ライセンス: Link先を確認 | Jeffrey D. Rudie, Hui-Ming Lin, Robyn L. Ball, Sabeena Jalal, Luciano M. Prevedello, Savvas Nicolaou, Brett S. Marinelli, Adam E. Flanders, Kirti Magudia, George Shih, Melissa A. Davis, John Mongan, Peter D. Chang, Ferco H. Berger, Sebastiaan Hermans, Meng Law, Tyler Richards, Jan-Peter Grunz, Andreas Steven Kunz, Shobhit Mathur, Sandro Galea-Soler, Andrew D. Chung, Saif Afat, Chin-Chi Kuo, Layal Aweidah, Ana Villanueva Campos, Arjuna Somasundaram, Felipe Antonio Sanchez Tijmes, Attaporn Jantarangkoon, Leonardo Kayat Bittencourt, Michael Brassil, Ayoub El Hajjami, Hakan Dogan, Muris Becircic, Agrahara G. Bharatkumar, Eduardo Moreno Júdice de Mattos Farina, Dataset Curator Group, Dataset Contributor Group, Dataset Annotator Group, Errol Colak, | (参考訳) RSNA腹部外傷性CT(RATIC)データセットは、外傷性外傷に注釈を付けた成人腹部CT研究の公開コレクションとしては最大である。
このデータセットには、14か国23の機関から4,274の研究が含まれている。
データセットは、https://www.kaggle.com/competitions/rsna-2023-abdominal-trauma-detectionでKaggle経由で無償で利用できる。
RSNA 2023腹部外傷検出コンペティションのために開発されたこのデータセットは、CTスキャンで腹部外傷を検出するための高度な機械学習モデルの開発を促進する。
このデータセットは、肝臓、脾臓、腎臓、腸、腸など、複数の臓器にわたる外傷性外傷の検出と分類を含んでいる。
アメリカ緊急放射線学会(ASER)と腹部放射線学会(SAR)の専門家によって注釈が作成された。
データセットには、損傷グレーディングを伴う3つの固形臓器の損傷の有無、アクティブな外転と腸の損傷に対する画像レベルのアノテーション、負傷する可能性のある各臓器のボクセルワイドセグメンテーションなど、さまざまなレベルで注釈が付けられている。
このデータセットのリリースにより、機械学習と腹部外傷の研究と開発が促進され、患者のケアと成果が向上することを期待します。
The RSNA Abdominal Traumatic Injury CT (RATIC) dataset is the largest publicly available collection of adult abdominal CT studies annotated for traumatic injuries. This dataset includes 4,274 studies from 23 institutions across 14 countries. The dataset is freely available for non-commercial use via Kaggle at https://www.kaggle.com/competitions/rsna-2023-abdominal-trauma-detection. Created for the RSNA 2023 Abdominal Trauma Detection competition, the dataset encourages the development of advanced machine learning models for detecting abdominal injuries on CT scans. The dataset encompasses detection and classification of traumatic injuries across multiple organs, including the liver, spleen, kidneys, bowel, and mesentery. Annotations were created by expert radiologists from the American Society of Emergency Radiology (ASER) and Society of Abdominal Radiology (SAR). The dataset is annotated at multiple levels, including the presence of injuries in three solid organs with injury grading, image-level annotations for active extravasations and bowel injury, and voxelwise segmentations of each of the potentially injured organs. With the release of this dataset, we hope to facilitate research and development in machine learning and abdominal trauma that can lead to improved patient care and outcomes. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# SVFT:特異ベクトルを用いたパラメータ効率の良いファインチューニング
SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors ( http://arxiv.org/abs/2405.19597v1 ) ライセンス: Link先を確認 | Vijay Lingam, Atula Tejaswi, Aditya Vavre, Aneesh Shetty, Gautham Krishna Gudur, Joydeep Ghosh, Alex Dimakis, Eunsol Choi, Aleksandar Bojchevski, Sujay Sanghavi, | (参考訳) LoRAやその変種のような一般的なパラメータ効率の微調整(PEFT)法は、事前訓練されたモデルの重みを凍結し、学習可能な行列を注入する。
これらの(\Delta W\)行列は、しばしばローランク近似やスケーリングベクトルのような手法を用いて、効率的なパラメータ化のために構成される。
しかし、これらの手法は通常、完全な微調整に比べて性能の差を示す。
最近のPEFT法はこのギャップを狭めたが、学習可能な追加パラメータを犠牲にしている。
既存の方法と根本的に異なる単純なアプローチであるSVFTを提案する: \(\Delta W\) に課される構造は、比重行列 \(W\) に依存する。
具体的には、SVFTは特異ベクトルの外積のスパース結合として \(W\) を更新し、これらのスパース結合の係数(スケール)のみを訓練する。
このアプローチは係数数による表現率のきめ細かい制御を可能にする。
言語と視覚のベンチマークに関する大規模な実験によると、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しか訓練していない。
Popular parameter-efficient fine-tuning (PEFT) methods, such as LoRA and its variants, freeze pre-trained model weights \(W\) and inject learnable matrices \(\Delta W\). These \(\Delta W\) matrices are structured for efficient parameterization, often using techniques like low-rank approximations or scaling vectors. However, these methods typically show a performance gap compared to full fine-tuning. Although recent PEFT methods have narrowed this gap, they do so at the cost of additional learnable parameters. We propose SVFT, a simple approach that fundamentally differs from existing methods: the structure imposed on \(\Delta W\) depends on the specific weight matrix \(W\). Specifically, SVFT updates \(W\) as a sparse combination of outer products of its singular vectors, training only the coefficients (scales) of these sparse combinations. This approach allows fine-grained control over expressivity through the number of coefficients. Extensive experiments on language and vision benchmarks show that SVFT recovers up to 96% of full fine-tuning performance while training only 0.006 to 0.25% of parameters, outperforming existing methods that only recover up to 85% performance using 0.03 to 0.8% of the trainable parameter budget. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 視覚的類似性に基づくフィッシング検出モデルの有効性とロバスト性の評価
Evaluating the Effectiveness and Robustness of Visual Similarity-based Phishing Detection Models ( http://arxiv.org/abs/2405.19598v1 ) ライセンス: Link先を確認 | Fujiao Ji, Kiho Lee, Hyungjoon Koo, Wenhao You, Euijin Choo, Hyoungshick Kim, Doowon Kim, | (参考訳) フィッシング攻撃はインターネットユーザーにとって重大な脅威となり、サイバー犯罪者は被害者を騙すために合法的なウェブサイトの視覚的外観を精巧に再現する。
視覚的類似性に基づく検出システムは効果的な対策として現れてきたが、実世界のシナリオにおけるその有効性と堅牢性は明らかにされていない。
本稿では,450KのリアルタイムフィッシングWebサイトの大規模データセットを用いて,最先端の視覚的類似性に基づくアンチフィッシングモデルを網羅的に検証し,評価する。
分析の結果,特定のモデルでは高い精度を維持しているが,他のモデルではキュレートされたデータセットの結果よりも明らかに低い性能を示し,実世界の評価の重要性を強調した。
さらに、フィッシング攻撃者が検出システムを回避するために使用する視覚コンポーネントを操作する現実世界の戦術を観察する。
敵の攻撃やロバスト性に対する既存モデルのレジリエンスを評価するため,敵が通常狙うウェブサイトのロゴに対して,可視的かつ摂動的操作を適用した。
次に、これらの逆サンプルを扱う際のモデルの堅牢性を評価する。
以上の結果から,より堅牢な視覚的類似性技術の必要性が強調され,高度な回避策を達成できる可能性が示唆された。
我々は、フィッシング防衛システムの安全性を高め、積極的な行動を促すための実用的な洞察を提供する。
我々の知る限り、本研究は、実環境におけるフィッシング検出のための視覚的類似性に基づく最初の大規模かつ体系的なモデルの評価であり、より効果的で堅牢な防御の開発を必要としている。
Phishing attacks pose a significant threat to Internet users, with cybercriminals elaborately replicating the visual appearance of legitimate websites to deceive victims. Visual similarity-based detection systems have emerged as an effective countermeasure, but their effectiveness and robustness in real-world scenarios have been unexplored. In this paper, we comprehensively scrutinize and evaluate state-of-the-art visual similarity-based anti-phishing models using a large-scale dataset of 450K real-world phishing websites. Our analysis reveals that while certain models maintain high accuracy, others exhibit notably lower performance than results on curated datasets, highlighting the importance of real-world evaluation. In addition, we observe the real-world tactic of manipulating visual components that phishing attackers employ to circumvent the detection systems. To assess the resilience of existing models against adversarial attacks and robustness, we apply visible and perturbation-based manipulations to website logos, which adversaries typically target. We then evaluate the models' robustness in handling these adversarial samples. Our findings reveal vulnerabilities in several models, emphasizing the need for more robust visual similarity techniques capable of withstanding sophisticated evasion attempts. We provide actionable insights for enhancing the security of phishing defense systems, encouraging proactive actions. To the best of our knowledge, this work represents the first large-scale, systematic evaluation of visual similarity-based models for phishing detection in real-world settings, necessitating the development of more effective and robust defenses. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 実時間熱相関関数のシミュレーションのためのハイブリッド量子アルゴリズム
Hybrid Quantum Algorithm for Simulating Real-Time Thermal Correlation Functions ( http://arxiv.org/abs/2405.19599v1 ) ライセンス: Link先を確認 | Elliot C. Eklund, Nandini Ananth, | (参考訳) 実時間量子熱相関関数を計算し,そのオープン量子システムへの応用を実証するハイブリッドパス積分モンテカルロ(hPIMC)アルゴリズムを提案する。
hPIMCアルゴリズムは、古典的コンピュータ上でのファインマン・ヴァーノンの影響関数を用いた散逸を正確にシミュレーションすることにより、高次元システム研究のための計算ツールとして古典的なPIMCの成功を利用する。
量子コンピュータ上での量子プロパゲータの短時間行列要素の計算により,古典的アルゴリズム上での量子スピードアップを実現する。
本稿では,最近開発された確率Imaginary-Time Evolution (PITE)アルゴリズムを用いて,仮想時間進化の成分を正確に行うことを示し,離散変数表現 (DVR) を用いた運動エネルギー演算子の下でのリアルタイム進化を近似する新しい低深度回路を提案する。
プロトン移動反応の位置-位置熱相関関数を計算して近似の精度を検証した。
We present a hybrid Path Integral Monte Carlo (hPIMC) algorithm to calculate real-time quantum thermal correlation functions and demonstrate its application to open quantum systems. The hPIMC algorithm leverages the successes of classical PIMC as a computational tool for high-dimensional system studies by exactly simulating dissipation using the Feynman-Vernon influence functional on a classical computer. We achieve a quantum speed-up over the classical algorithm by computing short-time matrix elements of the quantum propagator on a quantum computer. We show that the component of imaginary-time evolution can be performed accurately using the recently developed Probabilistic Imaginary-Time Evolution (PITE) algorithm, and we introduce a novel low-depth circuit for approximate real-time evolution under the kinetic energy operator using a Discrete Variable Representation (DVR). We test the accuracy of the approximation by computing the position-position thermal correlation function of a proton transfer reaction. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# コントラストに基づくグラフ自己教師学習においてスペクトル手がかりは問題か?
Do spectral cues matter in contrast-based graph self-supervised learning? ( http://arxiv.org/abs/2405.19600v1 ) ライセンス: Link先を確認 | Xiangru Jian, Xinjian Zhao, Wei Pang, Chaolong Ying, Yimu Wang, Yaoyao Xu, Tianshu Yu, | (参考訳) コントラストに基づくグラフ自己教師学習の最近の増加は、スペクトルの探究の強化を特徴としている。
しかし、スペクトル領域に関する一見矛盾する仮定やヒューリスティックなアプローチに基づく手法が、学習性能の顕著な向上を示すため、興味深いパラドックスが出現する。
このパラドックスは、コントラストベースのグラフ自己教師学習へのスペクトル情報の真の寄与について、批判的な調査を促す。
本研究は, スペクトル特性と現代の方法論の学習結果との関係について, 徹底的な調査を行っている。
この分析に基づいて,スペクトル情報の有効性と意義を問う必要がある。
ノードレベルの自己教師付き学習のために設計されたランダムエッジドロップと、グラフレベルの自己教師型学習を目的としたランダムエッジの追加。
これらの単純で効果的な戦略は、従来のスペクトル増強法に比べて計算資源をはるかに少なく要求しながら、常に優れた性能を得ることを示す証拠が提示されている。
提案した洞察は、グラフ自己教師型学習の理解と実装を再構築する可能性があり、この分野における大きな飛躍を示している。
The recent surge in contrast-based graph self-supervised learning has prominently featured an intensified exploration of spectral cues. However, an intriguing paradox emerges, as methods grounded in seemingly conflicting assumptions or heuristic approaches regarding the spectral domain demonstrate notable enhancements in learning performance. This paradox prompts a critical inquiry into the genuine contribution of spectral information to contrast-based graph self-supervised learning. This study undertakes an extensive investigation into this inquiry, conducting a thorough study of the relationship between spectral characteristics and the learning outcomes of contemporary methodologies. Based on this analysis, we claim that the effectiveness and significance of spectral information need to be questioned. Instead, we revisit simple edge perturbation: random edge dropping designed for node-level self-supervised learning and random edge adding intended for graph-level self-supervised learning. Compelling evidence is presented that these simple yet effective strategies consistently yield superior performance while demanding significantly fewer computational resources compared to all prior spectral augmentation methods. The proposed insights represent a significant leap forward in the field, potentially reshaping the understanding and implementation of graph self-supervised learning. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 雑音ラベルを用いた学習のための関係モデリングと蒸留
Relation Modeling and Distillation for Learning with Noisy Labels ( http://arxiv.org/abs/2405.19606v1 ) ライセンス: Link先を確認 | Xiaming Che, Junlin Zhang, Zhuang Qi, Xin Qi, | (参考訳) ノイズの多いラベルによる学習は、モデルの堅牢性を高める効果的な戦略となり、モデルが不正確なデータをよりよく許容することを可能にする。
既存の手法では、ノイズからの干渉を軽減するために損失関数を最適化することに注力するか、潜在的なノイズを検出し、誤りを正すための設計手順を設計する。
しかし、それらの効果は、モデルがノイズの多いラベルに過度に適合するジレンマのため、表現学習においてしばしば損なわれる。
そこで,本稿では,自己教師型学習によるサンプル間関係のモデル化と,雑音ラベルの影響を緩和する潜伏関係の理解を深めるため,知識蒸留を用いた関係モデリングと蒸留フレームワークを提案する。
具体的には、RMDNetと呼ばれる提案手法は、関係モデリング(RM)モジュールが、特徴抽出におけるノイズタグの干渉を効果的に排除する教師なしアプローチである、すべてのデータの表現を学習するためのコントラスト学習技術を実装する2つの主要なモジュールを含む。
リレーショナル誘導表現学習(RGRL)モジュールは、RMモジュールから学習したサンプル間関係を利用してノイズサンプルの表現分布を校正し、推論フェーズにおけるモデルの一般化を改善する。
特に、提案されているRDDNetは、複数のメソッドをその利点のために統合できるプラグイン・アンド・プレイのフレームワークである。
性能比較,アブレーション研究,深部分析,ケーススタディの2つのデータセットで実験を行った。
その結果, RMDNetはノイズの多いデータに対する識別表現を学習でき, 既存の手法よりも優れた性能が得られることがわかった。
Learning with noisy labels has become an effective strategy for enhancing the robustness of models, which enables models to better tolerate inaccurate data. Existing methods either focus on optimizing the loss function to mitigate the interference from noise, or design procedures to detect potential noise and correct errors. However, their effectiveness is often compromised in representation learning due to the dilemma where models overfit to noisy labels. To address this issue, this paper proposes a relation modeling and distillation framework that models inter-sample relationships via self-supervised learning and employs knowledge distillation to enhance understanding of latent associations, which mitigate the impact of noisy labels. Specifically, the proposed method, termed RMDNet, includes two main modules, where the relation modeling (RM) module implements the contrastive learning technique to learn representations of all data, an unsupervised approach that effectively eliminates the interference of noisy tags on feature extraction. The relation-guided representation learning (RGRL) module utilizes inter-sample relation learned from the RM module to calibrate the representation distribution for noisy samples, which is capable of improving the generalization of the model in the inference phase. Notably, the proposed RMDNet is a plug-and-play framework that can integrate multiple methods to its advantage. Extensive experiments were conducted on two datasets, including performance comparison, ablation study, in-depth analysis and case study. The results show that RMDNet can learn discriminative representations for noisy data, which results in superior performance than the existing methods. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# SMPLX-Lite:リッチジオメトリとテクスチャアノテーションを備えたリアルで予測可能なアバターベンチマーク
SMPLX-Lite: A Realistic and Drivable Avatar Benchmark with Rich Geometry and Texture Annotations ( http://arxiv.org/abs/2405.19609v1 ) ライセンス: Link先を確認 | Yujiao Jiang, Qingmin Liao, Zhaolong Wang, Xiangru Lin, Zongqing Lu, Yuxi Zhao, Hanqing Wei, Jingrui Ye, Yu Zhang, Zhijing Shao, | (参考訳) バーチャルリアリティー、3Dゲーム、テレプレゼンスなど、多くのアプリケーションにとって、フォトリアリスティックでドライビング可能なフルボディアバターの回収は不可欠である。
再構築や生成にせよ、ほとんどの方法は、多数の人間の動きシーケンスとそれに対応するテクスチャメッシュを必要とする。
乾燥可能なアバターを容易に学習するためには、統一トポロジを持つ合理的パラメトリックボディモデルが最重要である。
しかし、既存の人体データセットには画像またはテクスチャモデルがあり、衣服によくフィットするパラメトリックモデルがない。
本研究では,顔,手,足部の安定な形状を維持しつつ,走査メッシュの詳細な形状に適合する新しいパラメトリックモデルSMPLX-Lite-Dを提案する。
SMPLX-Liteデータセットは,多視点RGBシーケンス,キーポイントアノテーション,テクスチャ化されたメッシュ,テクスチャ化されたSMPLX-Lite-Dモデルを備えた,最も包括的な衣料アバターデータセットである。
SMPLX-Liteデータセットを用いて、人間のポーズと顔のキーポイントを入力として、条件付き変分オートエンコーダモデルを訓練し、フォトリアリスティックドライビング可能な人間のアバターを生成する。
Recovering photorealistic and drivable full-body avatars is crucial for numerous applications, including virtual reality, 3D games, and tele-presence. Most methods, whether reconstruction or generation, require large numbers of human motion sequences and corresponding textured meshes. To easily learn a drivable avatar, a reasonable parametric body model with unified topology is paramount. However, existing human body datasets either have images or textured models and lack parametric models which fit clothes well. We propose a new parametric model SMPLX-Lite-D, which can fit detailed geometry of the scanned mesh while maintaining stable geometry in the face, hand and foot regions. We present SMPLX-Lite dataset, the most comprehensive clothing avatar dataset with multi-view RGB sequences, keypoints annotations, textured scanned meshes, and textured SMPLX-Lite-D models. With the SMPLX-Lite dataset, we train a conditional variational autoencoder model that takes human pose and facial keypoints as input, and generates a photorealistic drivable human avatar. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 因子強化テンソル・オン・テンソルニューラルネットワーク
Factor Augmented Tensor-on-Tensor Neural Networks ( http://arxiv.org/abs/2405.19610v1 ) ライセンス: Link先を確認 | Guanhao Zhou, Yuefeng Han, Xiufan Yu, | (参考訳) 本稿では、共変量と応答が任意のテンソル次数とデータ次元を持つ多次元配列(テンソル)であるテンソル・オン・テンソル回帰の予測タスクについて検討する。
既存の方法は、共変量と応答の間の非線形関係を考慮せずに線形モデルに焦点を合わせるか、あるいは本質的にテンソル構造を利用できなかったブラックボックス深層学習アルゴリズムを直接使用するかのいずれかであった。
本研究では, テンソル因子モデルを深部ニューラルネットワークに統合したFATTNN(Facter Augmented Tensor-on-Tensor Neural Network)を提案する。
まず、複素構造テンソル共変体から有用な予測情報を要約して抽出し、その後、時間的畳み込みニューラルネットワークの入力として推定因子テンソルを用いて予測タスクを進める。
提案手法は, 複雑なデータ構造間の非線形性を効果的に処理し, 予測精度と計算コストの両面で従来の統計モデルおよび従来のディープラーニング手法よりも優れた手法である。
提案手法は, テンソル因子モデルを利用して, 基礎となる潜在因子構造を利用して予測を強化し, その間, 計算を高速化するデータ次元を大幅に削減する。
提案手法の実証的な性能は,シミュレーション研究と実世界の3つの公開データセットへの適用を通して実証される。
その結果,提案アルゴリズムは,ベンチマーク法と比較して予測精度の大幅な向上と計算時間の大幅な削減を実現していることがわかった。
This paper studies the prediction task of tensor-on-tensor regression in which both covariates and responses are multi-dimensional arrays (a.k.a., tensors) across time with arbitrary tensor order and data dimension. Existing methods either focused on linear models without accounting for possibly nonlinear relationships between covariates and responses, or directly employed black-box deep learning algorithms that failed to utilize the inherent tensor structure. In this work, we propose a Factor Augmented Tensor-on-Tensor Neural Network (FATTNN) that integrates tensor factor models into deep neural networks. We begin with summarizing and extracting useful predictive information (represented by the ``factor tensor'') from the complex structured tensor covariates, and then proceed with the prediction task using the estimated factor tensor as input of a temporal convolutional neural network. The proposed methods effectively handle nonlinearity between complex data structures, and improve over traditional statistical models and conventional deep learning approaches in both prediction accuracy and computational cost. By leveraging tensor factor models, our proposed methods exploit the underlying latent factor structure to enhance the prediction, and in the meantime, drastically reduce the data dimensionality that speeds up the computation. The empirical performances of our proposed methods are demonstrated via simulation studies and real-world applications to three public datasets. Numerical results show that our proposed algorithms achieve substantial increases in prediction accuracy and significant reductions in computational time compared to benchmark methods. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# LLMが誤る簡単な問題
Easy Problems That LLMs Get Wrong ( http://arxiv.org/abs/2405.19616v1 ) ライセンス: Link先を確認 | Sean Williams, James Huckle, | (参考訳) 本稿では,論理的推論や空間知性,言語理解などの領域において,LLM(Large Language Models)の限界を評価するために設計された包括的な言語ベンチマークを紹介する。
一連の簡単な質問を通じて、人間が簡単に管理するタスクを実行するための、よく考えられたモデルの重大な制限を明らかにする。
また、いくつかのエラーを軽減し、より良いトレーニング方法論の必要性を浮き彫りにするエンジニアリングの可能性を強調している。
本研究は,企業アプリケーションにおけるヒューマン・イン・ザ・ループの必要性を強調し,人間の推論と常識によるLLMの基盤化の重要性を強調した。
この研究が、新しいモデルの有用性と信頼性を高めるための将来の研究の道を開くことを願っている。
We introduce a comprehensive Linguistic Benchmark designed to evaluate the limitations of Large Language Models (LLMs) in domains such as logical reasoning, spatial intelligence, and linguistic understanding, among others. Through a series of straightforward questions, it uncovers the significant limitations of well-regarded models to perform tasks that humans manage with ease. It also highlights the potential of prompt engineering to mitigate some errors and underscores the necessity for better training methodologies. Our findings stress the importance of grounding LLMs with human reasoning and common sense, emphasising the need for human-in-the-loop for enterprise applications. We hope this work paves the way for future research to enhance the usefulness and reliability of new models. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# SparseDrive: スパースシーン表現によるエンドツーエンドの自動運転
SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation ( http://arxiv.org/abs/2405.19620v1 ) ライセンス: Link先を確認 | Wenchao Sun, Xuewu Lin, Yining Shi, Chuang Zhang, Haoran Wu, Sifa Zheng, | (参考訳) 十分に確立されたモジュラー自動運転システムは、知覚、予測、計画、情報損失、モジュール間のエラー蓄積といった、さまざまなスタンドアロンタスクに分離されている。
対照的に、エンドツーエンドのパラダイムはマルチタスクを完全に差別化可能なフレームワークに統合し、計画指向の精神で最適化を可能にします。
エンド・ツー・エンドのパラダイムの大きな可能性にもかかわらず、既存の手法の性能と効率は、特に計画上の安全性において満足できない。
計算コストのかかるBEV(Bird's Eye View)機能と、予測と計画のための簡単な設計による。
この目的のために、スパース表現を探求し、SparseDriveという新しいパラダイムを提案し、エンドツーエンドの自動運転のためのタスク設計をレビューする。
具体的には、SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーから構成される。
スパース認識モジュールは、検出、追跡、オンラインマッピングを対称モデルアーキテクチャで統一し、運転シーンの完全なスパース表現を学習する。
動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。
マルチモーダル問題として計画をモデル化するこの並列設計に基づいて,衝突認識再スコアモジュールを組み込んだ階層的計画選択戦略を提案し,最終的な計画出力として合理的かつ安全な軌道を選択する。
このような効果的な設計により、SparseDriveは従来の最先端のタスクをはるかに上回り、より高いトレーニングと推論効率を実現している。
コードは、将来の研究を促進するためにhttps://github.com/swc-17/SparseDriveで無効になる。
The well-established modular autonomous driving system is decoupled into different standalone tasks, e.g. perception, prediction and planning, suffering from information loss and error accumulation across modules. In contrast, end-to-end paradigms unify multi-tasks into a fully differentiable framework, allowing for optimization in a planning-oriented spirit. Despite the great potential of end-to-end paradigms, both the performance and efficiency of existing methods are not satisfactory, particularly in terms of planning safety. We attribute this to the computationally expensive BEV (bird's eye view) features and the straightforward design for prediction and planning. To this end, we explore the sparse representation and review the task design for end-to-end autonomous driving, proposing a new paradigm named SparseDrive. Concretely, SparseDrive consists of a symmetric sparse perception module and a parallel motion planner. The sparse perception module unifies detection, tracking and online mapping with a symmetric model architecture, learning a fully sparse representation of the driving scene. For motion prediction and planning, we review the great similarity between these two tasks, leading to a parallel design for motion planner. Based on this parallel design, which models planning as a multi-modal problem, we propose a hierarchical planning selection strategy , which incorporates a collision-aware rescore module, to select a rational and safe trajectory as the final planning output. With such effective designs, SparseDrive surpasses previous state-of-the-arts by a large margin in performance of all tasks, while achieving much higher training and inference efficiency. Code will be avaliable at https://github.com/swc-17/SparseDrive for facilitating future research. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 課題ログからの自動設計情報マイニングのための新しいアプローチ
A Novel Approach for Automated Design Information Mining from Issue Logs ( http://arxiv.org/abs/2405.19623v1 ) ライセンス: Link先を確認 | Jiuang Zhao, Zitian Yang, Li Zhang, Xiaoli Lian, Donghao Yang, | (参考訳) ソフトウェアアーキテクチャは通常、複数の品質問題に対処し、長期的なメンテナンスをサポートするために慎重に設計されている。
しかしながら、設計の合理性を文書化するコストと価値の不均衡(すなわち、設計の代替案と決定を下すための根底にある議論)のため、これらの合理性はしばしば時代遅れまたは欠落している。
デザイン知識の欠如は、近年、様々なプラットフォームからデザイン情報を抽出する多くの研究の動機となっている。
残念なことに、オープンソースコミュニティのようなプラットフォームが提供する設計情報に関する豊富な議論記録にもかかわらず、既存の研究は、議論の複雑な意味論や設計の合理性抽出のためのベンチマークの欠如といった課題によって、代替案の背後にある議論を無視することが多い。
本稿では,オープンソースコミュニティにおける開発者のライブディスカッション(つまりJiraの発行ログ)から,遅延設計の論理的根拠を自動的に抽出する,DRMinerという新しい手法を提案する。
DRMinerは、解とそれらをサポートする引数をより正確に識別するために、問題を複数のテキスト分類タスクに巧みに分解し、言語モデルの迅速なチューニングとカスタマイズされたテキスト関連機能を使用してそれらに取り組む。
DRMinerを評価するために、JiraのCassandra、Flink、Solrリポジトリからイシューログを取得し、厳密なスキームの下で注釈付けして処理し、最終的には設計合理的マイニングのためのデータセットを作成します。
実験の結果、DRMinerは設計の合理性についてF1スコアを65%達成し、GPT-4.0よりも7%改善した。
さらに,DRMinerによる自動プログラム修復(APR)設計の合理性について検討し,設計の合理性によってAPRが大幅に向上し,平均14倍の完全整合性が得られることを示した。
Software architectures are usually meticulously designed to address multiple quality concerns and support long-term maintenance. However, due to the imbalance between the cost and value for developers to document design rationales (i.e., the design alternatives and the underlying arguments for making or rejecting decisions), these rationales are often obsolete or even missing. The lack of design knowledge has motivated a number of studies to extract design information from various platforms in recent years. Unfortunately, despite the wealth of discussion records related to design information provided by platforms like open-source communities, existing research often overlooks the underlying arguments behind alternatives due to challenges such as the intricate semantics of discussions and the lack of benchmarks for design rationale extraction. In this paper, we propose a novel method, named by DRMiner, to automatically mine latent design rationales from developers' live discussion in open-source community (i.e., issue logs in Jira). To better identify solutions and the arguments supporting them, DRMiner skillfully decomposes the problem into multiple text classification tasks and tackles them using prompt tuning of language models and customized text-related features. To evaluate DRMiner, we acquire issue logs from Cassandra, Flink, and Solr repositories in Jira, and then annotate and process them under a rigorous scheme, ultimately forming a dataset for design rationale mining. Experimental results show that DRMiner achieves an F1 score of 65% for mining design rationales, outperforming all baselines with a 7% improvement over GPT-4.0. Furthermore, we investigate the usefulness of the design rationales mined by DRMiner for automated program repair (APR) and find that the design rationales significantly enhance APR, achieving 14 times higher full-match repairs on average. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# YotoR-Youは1つの表現だけを変換する
YotoR-You Only Transform One Representation ( http://arxiv.org/abs/2405.19629v1 ) ライセンス: Link先を確認 | José Ignacio Díaz Villa, Patricio Loncomilla, Javier Ruiz-del-Solar, | (参考訳) 本稿では,スウィントランスフォーマーとYoloRアーキテクチャを組み合わせたオブジェクト検出のための新しいディープラーニングモデルであるYotoRを紹介する。
自然言語処理の革命的技術であるTransformersは、コンピュータビジョンにも大きな影響を与え、精度と計算効率を高める可能性を提供している。
YotoRは頑丈なSwin TransformerのバックボーンとYoloRのネックとヘッドを組み合わせている。
実験では, YotoR モデル TP5 と BP4 は YoloR P6 と Swin Transformer を一貫して上回り,オブジェクト検出性能の向上と, Swin Transformer モデルよりも高速な推論速度を実現している。
これらの結果は、トランスフォーマーを用いたリアルタイムオブジェクト検出のさらなるモデル組み合わせと改善の可能性を強調している。
この論文は、画像関連タスクのトランスフォーマーベースモデルを強化する可能性を含む、YotoRの幅広い意味を強調して、結論付けている。
This paper introduces YotoR (You Only Transform One Representation), a novel deep learning model for object detection that combines Swin Transformers and YoloR architectures. Transformers, a revolutionary technology in natural language processing, have also significantly impacted computer vision, offering the potential to enhance accuracy and computational efficiency. YotoR combines the robust Swin Transformer backbone with the YoloR neck and head. In our experiments, YotoR models TP5 and BP4 consistently outperform YoloR P6 and Swin Transformers in various evaluations, delivering improved object detection performance and faster inference speeds than Swin Transformer models. These results highlight the potential for further model combinations and improvements in real-time object detection with Transformers. The paper concludes by emphasizing the broader implications of YotoR, including its potential to enhance transformer-based models for image-related tasks. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# インテリジェントルータを用いたオープンソースの大規模言語モデルによる健康決定因子の符号化
Leveraging Open-Source Large Language Models for encoding Social Determinants of Health using an Intelligent Router ( http://arxiv.org/abs/2405.19631v1 ) ライセンス: Link先を確認 | Akul Goel, Surya Narayanan Hari, Belinda Waltman, Matt Thomson, | (参考訳) SDOH(Social Determinants of Health)は、患者の健康に重要な役割を担っている。
Center of Disease Control (CDC)は、医療システムにおけるSDOHを公式に認識し測定するために、Zコードと呼ばれるICD-10コードの一部を導入した。
しかしながら、これらのコードは患者の電子健康記録(EHR)に注釈付けされることは稀であり、多くの場合、臨床記録から推測する必要がある。
従来の研究では、大規模言語モデル(LLM)は、EHRから非構造化データを抽出する可能性を示唆している。
しかしながら、ユニークなアーキテクチャとトレーニングセットから数千のモデルを選択すると、コーディングタスクで最高のパフォーマンスを発揮する1つのモデルを選択するのは困難です。
さらに、臨床ノートには、商用ベンダーからのクローズドソース言語モデルの使用を困難にしている信頼できる健康情報が含まれているため、保健機関内で実行でき、SDOHタスク上で高いパフォーマンスを示すオープンソースLLMの識別は緊急の問題である。
本稿では,言語モデルルータを用いたSDOH符号化のためのインテリジェントルーティングシステムを提案する。
インテリジェントルーティングシステムは、GPT-4oのようなクローズドモデルと同等の、ホームレスや食料の安全性を含む5つのコードで平均97.4%の精度で最先端のパフォーマンスを示す。
また、ルーティングシステムをトレーニングし、モデルを検証するために、プライバシ保護された医療記録を必要とせずに、トレーニングデータの規模を拡大する合成データ生成および検証パラダイムを導入する。
本稿では,タスク最適言語モデルに入力をインテリジェントにルーティングし,医療用符号化サブタスクのセット間で高い性能を実現するアーキテクチャを実証する。
Social Determinants of Health (SDOH) play a significant role in patient health outcomes. The Center of Disease Control (CDC) introduced a subset of ICD-10 codes called Z-codes in an attempt to officially recognize and measure SDOH in the health care system. However, these codes are rarely annotated in a patient's Electronic Health Record (EHR), and instead, in many cases, need to be inferred from clinical notes. Previous research has shown that large language models (LLMs) show promise on extracting unstructured data from EHRs. However, with thousands of models to choose from with unique architectures and training sets, it's difficult to choose one model that performs the best on coding tasks. Further, clinical notes contain trusted health information making the use of closed-source language models from commercial vendors difficult, so the identification of open source LLMs that can be run within health organizations and exhibits high performance on SDOH tasks is an urgent problem. Here, we introduce an intelligent routing system for SDOH coding that uses a language model router to direct medical record data to open source LLMs that demonstrate optimal performance on specific SDOH codes. The intelligent routing system exhibits state of the art performance of 97.4% accuracy averaged across 5 codes, including homelessness and food insecurity, on par with closed models such as GPT-4o. In order to train the routing system and validate models, we also introduce a synthetic data generation and validation paradigm to increase the scale of training data without needing privacy protected medical records. Together, we demonstrate an architecture for intelligent routing of inputs to task-optimal language models to achieve high performance across a set of medical coding sub-tasks. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# Dicke二量体における相転移と多重性
Phase transition and multistability in Dicke dimer ( http://arxiv.org/abs/2405.19633v1 ) ライセンス: Link先を確認 | Yilun Xu, Feng-Xiao Sun, Wei Zhang, Qiongyi He, Han Pu, | (参考訳) 原子空洞結合系におけるエキゾチック相転移と多重性は近年大きな関心を集めている。
本研究では,2つのディックキャビティ間の光子ホッピング効果について検討し,定常状態と動的過程に対する豊富な量子位相を誘導する。
2つのキャビティが必ずしも同一でない汎用二量体システムから始めると、数値計算によって確かめられる全ての定常状態相を解析的に証明する。
次に、すべての定常状態が正確な解によって確認される2つの同一の空洞を持つ特別なケースに焦点を当てる。
我々は,光子ホッピングが量子位相を制御し,マルチスタブルな振る舞いを誘導する便利な,強力なツールであることを示す。
The exotic phase transitions and multistabilities in atom-cavity coupled systems have attracted tremendous interests recently. In this work, we investigate the effect of photon hopping between two Dicke cavities, which induces rich quantum phases for steady states and dynamic process. Starting from a generic dimer system where the two cavities are not necessarily identical, we analytically prove all possible steady-state phases, which are confirmed by numerical calculations. We then focus on the special case with two identical cavities, where all the steady states are confirmed by exact solutions. We show that photon hopping is a convenient and powerful tool to manipulate the quantum phases and induce multistable behavior in this system. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# GKT: 効率的なクラウドエッジコラボレーションLLMデプロイメントのためのガイダンスベースの知識伝達フレームワーク
GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment ( http://arxiv.org/abs/2405.19635v1 ) ライセンス: Link先を確認 | Yao Yao, Zuchao Li, Hai Zhao, | (参考訳) LLM(Large Language Models)の急成長するサイズは、推論時間の増加とリソース要求の増大を犠牲にして、応答を生成する能力の向上につながっている。
既存の加速法は、主に知識蒸留に依存しており、Llama-7Bのようなかなり大きなモデルの微調整を必要とする。
さらに、推論の迅速化とコスト削減のための技術が独立して動作する。
これらの問題に対処するために、我々は、新しく直感的なガイダンスベースの知識伝達(GKT)フレームワークを導入する。
このアプローチでは、より大きなLLMを'teacher'として活用してガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
注目すべきなのは、GKTは微調整を必要とせず、教師と生徒のモデルが同じ語彙を持つ必要はなく、大規模なバッチ生成がプロセスの高速化とユーザのカスタマイズの確保を可能にすることだ。
GKTはクラウド・エッジのコラボレーション・アーキテクチャにシームレスに統合することができ、様々なモデルにまたがるプラグイン・アンド・プレイ・アプリケーションに最適である。
効率性と手頃さの両面で優れており、'チープで快活'なソリューションを誇示している。
GKTは14.18%の精度向上、GSM8Kの10.72倍のスピードアップ、14.00%の精度向上、CSQAの7.73倍のスピードアップを実現している。
ChatGPTを教師モデル、Llama2-70Bを学生モデルとして利用する場合、ChatGPTのパフォーマンスの95.00%をコストの52%で達成できる。
その結果、GSM8KデータセットとCSQAデータセットの精度と処理速度が大幅に向上し、生徒モデルと教師モデルの両方を単独で使用する性能を上回った。
The burgeoning size of Large Language Models (LLMs) has led to enhanced capabilities in generating responses, albeit at the expense of increased inference times and elevated resource demands. Existing methods of acceleration, predominantly hinged on knowledge distillation, generally necessitate fine-tuning of considerably large models, such as Llama-7B, posing a challenge for average users. Furthermore, present techniques for expediting inference and reducing costs operate independently. To address these issues, we introduce a novel and intuitive Guidance-based Knowledge Transfer (GKT) framework. This approach leverages a larger LLM as a ''teacher'' to create guidance prompts, paired with a smaller ''student'' model to finalize responses. Remarkably, GKT requires no fine-tuning and doesn't necessitate the teacher and student models to have the same vocabulary, allowing for extensive batch generation to accelerate the process while ensuring user customization. GKT can be seamlessly integrated into cloud-edge collaboration architectures, and is versatile enough for plug-and-play application across various models. It excels in both efficiency and affordability, epitomizing a ''cheap and cheerful'' solution. GKT achieves a maximum accuracy improvement of 14.18%, along with a 10.72 times speed-up on GSM8K and an accuracy improvement of 14.00 % along with a 7.73 times speed-up in CSQA. When utilizing ChatGPT as teacher model and Llama2-70B as the student model, we can achieve 95.00% of ChatGPT's performance at 52% of the cost. The results highlight substantial enhancements in accuracy and processing speed on the GSM8K and CSQA datasets, surpassing the performance of using either the student or teacher models in isolation. | 翻訳日:2024-05-31 18:36:41 公開日:2024-05-30 |
# 弱改良Few-Shotセグメンテーションのための基礎モデルとロバスト相関の学習
Learning Robust Correlation with Foundation Model for Weakly-Supervised Few-Shot Segmentation ( http://arxiv.org/abs/2405.19638v1 ) ライセンス: Link先を確認 | Xinyang Huang, Chuang Zhu, Kebin Liu, Ruiying Ren, Shengjie Liu, | (参考訳) 既存の数ショットセグメンテーション(FSS)は、正確なピクセルマスクの下で学習支援-クエリ相関と見えないカテゴリのセグメンテーションのみを考慮する。
しかし、トレーニング中の大量の画素マスクのコストは高くつく。
本稿では、より困難なシナリオとして、分類(画像レベル)のみを提供するWS-FSS(弱教師付き小ショットセグメンテーション)を考える。
生成したマスクが不正確なときに、堅牢なサポートクエリ情報を学ぶ必要がある。
本研究では,多情報ガイダンスを用いた相関強化ネットワーク(CORENet)を基礎モデルで設計し,相関関係の堅牢さを学習する。
具体的には、相関誘導変換器(CGT)は、自監督型ViTトークンを使用して、局所的および大域的両方の視点から堅牢な相関を学習する。
セマンティックなカテゴリの観点から、クラス誘導モジュール(CGM)は、事前訓練されたCLIPを通して、価値ある相関を見つけるためにモデルをガイドする。
最後に、埋め込み誘導モジュール(EGM)は、元の外観埋め込みによる相関学習中に必然的な情報損失を補うよう暗黙的に誘導し、最終的にクエリマスクを生成する。
PASCAL-5$^i$とCOCO-20$^i$の大規模な実験により、CORENetは既存の手法と比較して優れた性能を示した。
Existing few-shot segmentation (FSS) only considers learning support-query correlation and segmenting unseen categories under the precise pixel masks. However, the cost of a large number of pixel masks during training is expensive. This paper considers a more challenging scenario, weakly-supervised few-shot segmentation (WS-FSS), which only provides category ($i.e.$ image-level) labels. It requires the model to learn robust support-query information when the generated mask is inaccurate. In this work, we design a Correlation Enhancement Network (CORENet) with foundation model, which utilizes multi-information guidance to learn robust correlation. Specifically, correlation-guided transformer (CGT) utilizes self-supervised ViT tokens to learn robust correlation from both local and global perspectives. From the perspective of semantic categories, the class-guided module (CGM) guides the model to locate valuable correlations through the pre-trained CLIP. Finally, the embedding-guided module (EGM) implicitly guides the model to supplement the inevitable information loss during the correlation learning by the original appearance embedding and finally generates the query mask. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ have shown that CORENet exhibits excellent performance compared to existing methods. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 安全測定の見直しと動的保証
Reconciling Safety Measurement and Dynamic Assurance ( http://arxiv.org/abs/2405.19641v1 ) ライセンス: Link先を確認 | Ewen Denney, Ganesh Pai, | (参考訳) 安全ケースのコア保証アーティファクトと安全性能の測定を関連付けることにより、安全ケースアプローチにおける動的保証を容易にする新しい枠組みを提案する。
主な焦点は安全アーキテクチャであり、その基盤となるリスク評価モデルは、安全性の測定から運用リスクへの具体的なリンクを与える。
航空分野における自律タクシーの例を用いて,安全指標を導出し,安全性測定に基づくリスク評価を改訂するアプローチについて述べる。
次に,安全指標の収集と安全事例の整合性の概念を,提案したフレームワークをツールAdvoCATEに実装するための公式な基礎として概説する。
We propose a new framework to facilitate dynamic assurance within a safety case approach by associating safety performance measurement with the core assurance artifacts of a safety case. The focus is mainly on the safety architecture, whose underlying risk assessment model gives the concrete link from safety measurement to operational risk. Using an aviation domain example of autonomous taxiing, we describe our approach to derive safety indicators and revise the risk assessment based on safety measurement. We then outline a notion of consistency between a collection of safety indicators and the safety case, as a formal basis for implementing the proposed framework in our tool, AdvoCATE. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 産業用マルチスケールグラフ畳み込みフィルタによる断層診断
Few-shot fault diagnosis based on multi-scale graph convolution filtering for industry ( http://arxiv.org/abs/2405.19642v1 ) ライセンス: Link先を確認 | Mengjie Gan, Penglong Lian, Zhiheng Su, Jiyang Zhang, Jialong Huang, Benhao Wang, Jianxiao Zou, Shicai Fan, | (参考訳) 産業機器故障診断は、断層データの不足、複雑な運転条件、様々な種類の故障などの問題に遭遇することが多い。
信号解析,データ統計学習,および従来のディープラーニング技術は,これらの条件下での制約に直面している。
本稿では,MSGCF(Multi-Scale Graph Convolution Filtering)を用いた故障診断手法を提案する。
MSGCFは、ローカルおよびグローバル情報融合モジュールをグラフ畳み込みフィルタブロックに統合することにより、従来のグラフニューラルネットワーク(GNN)フレームワークを強化する。
この進歩は、広い受容場を維持しながら、グラフ畳み込み層の過剰な層化に伴う過度に平滑な問題を効果的に緩和する。
また、数発の診断において過度に適合するリスクを減らし、それによってモデルの表現能力が増大する。
パーダーボルン大学ベアリングデータセット(PU)の実験により、提案したMSGCF法は、精度の代替アプローチを超越し、数ショットの学習シナリオにおける産業的故障診断のための貴重な洞察を提供することを示した。
Industrial equipment fault diagnosis often encounter challenges such as the scarcity of fault data, complex operating conditions, and varied types of failures. Signal analysis, data statistical learning, and conventional deep learning techniques face constraints under these conditions due to their substantial data requirements and the necessity for transfer learning to accommodate new failure modes. To effectively leverage information and extract the intrinsic characteristics of faults across different domains under limited sample conditions, this paper introduces a fault diagnosis approach employing Multi-Scale Graph Convolution Filtering (MSGCF). MSGCF enhances the traditional Graph Neural Network (GNN) framework by integrating both local and global information fusion modules within the graph convolution filter block. This advancement effectively mitigates the over-smoothing issue associated with excessive layering of graph convolutional layers while preserving a broad receptive field. It also reduces the risk of overfitting in few-shot diagnosis, thereby augmenting the model's representational capacity. Experiments on the University of Paderborn bearing dataset (PU) demonstrate that the MSGCF method proposed herein surpasses alternative approaches in accuracy, thereby offering valuable insights for industrial fault diagnosis in few-shot learning scenarios. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 量子回路テンソルと列挙器と量子フォールトトレランスへの応用
Quantum Circuit Tensors and Enumerators with Applications to Quantum Fault Tolerance ( http://arxiv.org/abs/2405.19643v1 ) ライセンス: Link先を確認 | Alon Kukliansky, Brad Lackey, | (参考訳) 我々は最近導入されたテンソル列挙子の概念を回路列挙子に拡張する。
モンテカルロ法を使わずに回路や誤差モデルを解析するための新しい手法を提供する数学的枠組みを提供する。
本稿では, 直接列挙を必要としない符号のシンドローム抽出回路において, 誤り経路数を正確に計算する手法を提案する。
提案手法の有効性は,従来シミュレーションでは実現不可能と考えられていた様々なエラーモデルの下で,距離5面符号の誤り経路数を明示的に示すことで実証する。
また, 回路列挙器は, チャネルのプロセス行列と関連していることを示す。
We extend the recently introduced notion of tensor enumerator to the circuit enumerator. We provide a mathematical framework that offers a novel method for analyzing circuits and error models without resorting to Monte Carlo techniques. We introduce an analogue of the Poisson summation formula for stabilizer codes, facilitating a method for the exact computation of the number of error paths within the syndrome extraction circuit of the code that does not require direct enumeration. We demonstrate the efficacy of our approach by explicitly providing the number of error paths in a distance five surface code under various error models, a task previously deemed infeasible via simulation. We also show our circuit enumerator is related to the process matrix of a channel through a type of MacWilliams identity. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# EgoSurgery-Phase: Egocentric Open Surgery Videos による外科的位相認識のデータセット
EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos ( http://arxiv.org/abs/2405.19644v1 ) ライセンス: Link先を確認 | Ryo Fujii, Masashi Hatano, Hideo Saito, Hiroki Kajita, | (参考訳) 現代の手術室の多くの要求に対する解決策を提供する可能性から、外科的位相認識が注目されている。
しかし,既存の術式の多くはミニマル侵襲手術(MIS)に集中しており,開腹手術の外科的位相認識が検討されている。
この相違は主に、外科的位相認識のための公開手術ビデオデータセットの不足によるものである。
この問題に対処するために、EgoSurgery-Phaseという位相認識のための新しいエゴセントリックオープン手術ビデオデータセットを導入する。
このデータセットは、9つの異なる手術フェーズにまたがる15時間の実際の手術ビデオで構成されている。
ビデオに加えて、EgoSurgery-Phaseは視線を提供する。
われわれの知る限りでは、これは外科的位相認識のための、最初の実際のオープンな手術ビデオデータセットである。
さらに,映像理解タスク(例えば行動認識)におけるマスク付きオートエンコーダ(MAE)の顕著な成功に着想を得て,視線誘導型マスク付きオートエンコーダ(GGMAE)を提案する。
我々のGGMAEでは、外科医の視線が焦点を合わせる領域が外科的位相認識(例えば、外科的領域)に欠かせないことを考えると、視線情報はマスキングを導く前に経験的意味豊かさとして機能し、意味的に豊かな空間領域に注意を向ける。
GGMAEは、EgoSurgery-Phase上の従来の最先端認識法(6.4%)とマスク付きオートエンコーダ(3.1%)を著しく改善する。
データセットはhttps://github.com/Fujiry0/EgoSurgery.comでリリースされる。
Surgical phase recognition has gained significant attention due to its potential to offer solutions to numerous demands of the modern operating room. However, most existing methods concentrate on minimally invasive surgery (MIS), leaving surgical phase recognition for open surgery understudied. This discrepancy is primarily attributed to the scarcity of publicly available open surgery video datasets for surgical phase recognition. To address this issue, we introduce a new egocentric open surgery video dataset for phase recognition, named EgoSurgery-Phase. This dataset comprises 15 hours of real open surgery videos spanning 9 distinct surgical phases all captured using an egocentric camera attached to the surgeon's head. In addition to video, the EgoSurgery-Phase offers eye gaze. As far as we know, it is the first real open surgery video dataset for surgical phase recognition publicly available. Furthermore, inspired by the notable success of masked autoencoders (MAEs) in video understanding tasks (e.g., action recognition), we propose a gaze-guided masked autoencoder (GGMAE). Considering the regions where surgeons' gaze focuses are often critical for surgical phase recognition (e.g., surgical field), in our GGMAE, the gaze information acts as an empirical semantic richness prior to guiding the masking process, promoting better attention to semantically rich spatial regions. GGMAE significantly improves the previous state-of-the-art recognition method (6.4% in Jaccard) and the masked autoencoder-based method (3.1% in Jaccard) on EgoSurgery-Phase. The dataset will be released at https://github.com/Fujiry0/EgoSurgery. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# FaceLift: 半教師付き3D顔ランドマークのローカライゼーション
FaceLift: Semi-supervised 3D Facial Landmark Localization ( http://arxiv.org/abs/2405.19646v1 ) ライセンス: Link先を確認 | David Ferman, Pablo Garrido, Gaurav Bharaj, | (参考訳) 3D顔ランドマークのローカライゼーションは、顔追跡、3D顔モデリング、画像ベースの3D顔再構成などのアプリケーションで特に有用であることが証明されている。
教師付き学習の場合、このような方法は、しばしば空間的定義の整合性に欠ける3DMMベースの登録から得られる3Dランドマークデータセットに依存している。
これにより、高品質な2Dラベルと3DMMによって生成されるランドマークデータセット間のギャップが生じ、最終的にはその有効性が制限される。
この問題に対処するために,手書きの2Dランドマークを直接持ち上げ,3Dランドマークデータセットを必要とせず,より優れた定義アライメントを確保することによって,3Dランドマークを学習する,新しい半教師付き学習手法を導入する。
2Dのランドマークを3Dに上げるために、3D対応のGANを活用して、より優れたマルチビュー一貫性学習と、堅牢なクロスジェネリゼーションのためのマルチフレームビデオを提供します。
実験により,本手法は2次元3次元ランドマーク間のより良い定義アライメントを実現するだけでなく,3次元MMラベル付きおよび光グラム付き地上真実評価データセット上での他の教師あり学習3次元ランドマーク定位法よりも優れることが示された。
Project Page: https://davidcferman.github.io/FaceLift
3D facial landmark localization has proven to be of particular use for applications, such as face tracking, 3D face modeling, and image-based 3D face reconstruction. In the supervised learning case, such methods usually rely on 3D landmark datasets derived from 3DMM-based registration that often lack spatial definition alignment, as compared with that chosen by hand-labeled human consensus, e.g., how are eyebrow landmarks defined? This creates a gap between landmark datasets generated via high-quality 2D human labels and 3DMMs, and it ultimately limits their effectiveness. To address this issue, we introduce a novel semi-supervised learning approach that learns 3D landmarks by directly lifting (visible) hand-labeled 2D landmarks and ensures better definition alignment, without the need for 3D landmark datasets. To lift 2D landmarks to 3D, we leverage 3D-aware GANs for better multi-view consistency learning and in-the-wild multi-frame videos for robust cross-generalization. Empirical experiments demonstrate that our method not only achieves better definition alignment between 2D-3D landmarks but also outperforms other supervised learning 3D landmark localization methods on both 3DMM labeled and photogrammetric ground truth evaluation datasets. Project Page: https://davidcferman.github.io/FaceLift | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# FTS: 忠実なタイムセーブを見つけるためのフレームワーク
FTS: A Framework to Find a Faithful TimeSieve ( http://arxiv.org/abs/2405.19647v1 ) ライセンス: Link先を確認 | Songning Lai, Ninghui Feng, Haochen Sui, Ze Ma, Hao Wang, Zichen Song, Hang Zhao, Yutao Yue, | (参考訳) 時系列予測の分野は近年大きな注目を集め、TimeSieveのような先進的なモデルの開発に拍車をかけた。
しかし、分析の結果、ランダムな種子に対する高い感度や微小な入力ノイズの摂動など、ある種の不誠実さの問題が明らかになった。
これらの課題を認識し、信頼性と堅牢な予測を一貫して提供するモデルである \textbf{\underline{F}aithful \underline{T}ime\underline{S}ieve \underline{S}ieve \underline{(FTS)}} の概念を定義する。
これらの課題に対処するため,TimeSieveにおける不信の識別と修正を目的とした新しいフレームワークを提案する。
我々のフレームワークはモデルの安定性とレジリエンスを高めるために設計されており、その出力が上記の要因の影響を受けないようにしている。
実験により,提案手法の有効性が検証され,モデルの振舞いにおける忠実性の向上が示された。
今後は、実験範囲を広げて、アルゴリズムのさらなる検証と最適化を行い、幅広いシナリオにまたがる包括的忠実性を確保することを計画している。
最終的には、このフレームワークをTimeSieveだけでなく、他の最先端の時間的手法の忠実性を高めるために利用できるようにすることを目標とし、時間的モデリング全体の信頼性と堅牢性に寄与する。
The field of time series forecasting has garnered significant attention in recent years, prompting the development of advanced models like TimeSieve, which demonstrates impressive performance. However, an analysis reveals certain unfaithfulness issues, including high sensitivity to random seeds and minute input noise perturbations. Recognizing these challenges, we embark on a quest to define the concept of \textbf{\underline{F}aithful \underline{T}ime\underline{S}ieve \underline{(FTS)}}, a model that consistently delivers reliable and robust predictions. To address these issues, we propose a novel framework aimed at identifying and rectifying unfaithfulness in TimeSieve. Our framework is designed to enhance the model's stability and resilience, ensuring that its outputs are less susceptible to the aforementioned factors. Experimentation validates the effectiveness of our proposed framework, demonstrating improved faithfulness in the model's behavior. Looking forward, we plan to expand our experimental scope to further validate and optimize our algorithm, ensuring comprehensive faithfulness across a wide range of scenarios. Ultimately, we aspire to make this framework can be applied to enhance the faithfulness of not just TimeSieve but also other state-of-the-art temporal methods, thereby contributing to the reliability and robustness of temporal modeling as a whole. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 大規模言語モデル生成における幻覚の検出:トークン確率的アプローチ
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach ( http://arxiv.org/abs/2405.19648v1 ) ライセンス: Link先を確認 | Ernesto Quevedo, Jorge Yero, Rachel Koerner, Pablo Rivas, Tomas Cerny, | (参考訳) 幻覚として知られる不正確なアウトプットを生成するためのLLM(Large Language Models)の妥当性に関する懸念が高まっている。
それらを検出することは、LCM生成コンテンツに依存するアプリケーションの信頼性を確保するために不可欠である。
現在の手法は、しばしばかなりのリソースを必要とし、広範囲のLLMに依存するか、多次元の特徴を持つ教師あり学習を採用するか、複雑な言語的・意味分析は再現が困難であり、幻覚したLLMを使うのに大きく依存する。
本稿では,トークンから得られる4つの数値的特徴と,他のLLM評価器から得られる語彙的確率を利用する2つの単純な分類器を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
さらに,本手法の長所と短所を総合的に検討し,得られた特徴とLCMを評価対象として用いることの重要性を強調した。
私たちはhttps://github.com/Baylor-AI/HalluDetect.comでコードを公開しました。
Concerns regarding the propensity of Large Language Models (LLMs) to produce inaccurate outputs, also known as hallucinations, have escalated. Detecting them is vital for ensuring the reliability of applications relying on LLM-generated content. Current methods often demand substantial resources and rely on extensive LLMs or employ supervised learning with multidimensional features or intricate linguistic and semantic analyses difficult to reproduce and largely depend on using the same LLM that hallucinated. This paper introduces a supervised learning approach employing two simple classifiers utilizing only four numerical features derived from tokens and vocabulary probabilities obtained from other LLM evaluators, which are not necessarily the same. The method yields promising results, surpassing state-of-the-art outcomes in multiple tasks across three different benchmarks. Additionally, we provide a comprehensive examination of the strengths and weaknesses of our approach, highlighting the significance of the features utilized and the LLM employed as an evaluator. We have released our code publicly at https://github.com/Baylor-AI/HalluDetect. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# PPRに基づく埋め込みアプローチのより深い理解に向けて:トポロジカル視点
Towards Deeper Understanding of PPR-based Embedding Approaches: A Topological Perspective ( http://arxiv.org/abs/2405.19649v1 ) ライセンス: Link先を確認 | Xingyi Zhang, Zixuan Weng, Sibo Wang, | (参考訳) ノード埋め込みはグラフ内のノードの低次元ベクトルを学習する。
最近の最先端の埋め込み手法は、Personalized PageRank(PPR)を近接測定として、PPR行列またはその適応を分解して埋め込みを生成する。
しかし、これらの手法によって符号化された情報と、下流タスクにおけるそれらのスーパーブのパフォーマンスとがどのように関連しているかを、これまでの研究はほとんど分析しなかった。
本研究では,PPR関連行列を分解する最先端の埋め込み手法を,閉形式フレームワークに統合できることを最初に示す。
そこで我々は,この戦略によって生成された埋め込みが,ランダムウォークによる埋め込みよりもグラフトポロジ情報をよりよく復元できるかどうかを考察した。
そこで本研究では,解析手法と最適化手法を含む,PPRに基づく埋め込みによるグラフトポロジの復元手法を提案する。
大規模な実験結果から,PPR関連行列の分解によって生成された埋め込みは,ランダムウォークによって生成されたものよりも,共通エッジやコミュニティ構造などのトポロジ的な情報を保持し,PPRベースのノード埋め込みが様々な下流タスクにおいてランダムウォークベースの代替手段より優れている理由を体系的に理解する新たな方法が提示された。
我々の知る限りでは、PPRベースのノード埋め込みアプローチの解釈可能性に焦点を当てた最初の研究である。
Node embedding learns low-dimensional vectors for nodes in the graph. Recent state-of-the-art embedding approaches take Personalized PageRank (PPR) as the proximity measure and factorize the PPR matrix or its adaptation to generate embeddings. However, little previous work analyzes what information is encoded by these approaches, and how the information correlates with their superb performance in downstream tasks. In this work, we first show that state-of-the-art embedding approaches that factorize a PPR-related matrix can be unified into a closed-form framework. Then, we study whether the embeddings generated by this strategy can be inverted to better recover the graph topology information than random-walk based embeddings. To achieve this, we propose two methods for recovering graph topology via PPR-based embeddings, including the analytical method and the optimization method. Extensive experimental results demonstrate that the embeddings generated by factorizing a PPR-related matrix maintain more topological information, such as common edges and community structures, than that generated by random walks, paving a new way to systematically comprehend why PPR-based node embedding approaches outperform random walk-based alternatives in various downstream tasks. To the best of our knowledge, this is the first work that focuses on the interpretability of PPR-based node embedding approaches. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 多くの人のために:Tchebycheff Set Scalarization for Many-Objective Optimization
Few for Many: Tchebycheff Set Scalarization for Many-Objective Optimization ( http://arxiv.org/abs/2405.19650v1 ) ライセンス: Link先を確認 | Xi Lin, Yilu Liu, Xiaoyuan Zhang, Fei Liu, Zhenkun Wang, Qingfu Zhang, | (参考訳) 多目的最適化は、競合する目的を1つのソリューションで最適化できない現実の多くのアプリケーションで見られる。
既存の最適化手法は、目的によって異なる最適なトレードオフを持つParetoソリューションの集合を見つけることに重点を置いていることが多い。
しかし、パレート最適集合全体をうまく近似するために必要となる解の数は、目的の個数に関して指数関数的に大きいため、多くの最適化目的を扱うには不適当である。
本研究では、パレート解の密集集合を見つける代わりに、多数の目的(例えば、$>100$)を協調的かつ相補的にカバーするいくつかの代表解(例、5)を見つけるための新しいチェビシェフ集合スカラー化法を提案する。
このようにして、それぞれの目的は、小さな解集合の少なくとも1つの解によってうまく対応できる。
さらに,理論的な保証を得た効率的な最適化のためのスムーズなTchebycheff集合スカラー化手法を更に開発する。
多くの最適化目標を持つ異なる問題に対する実験により,提案手法の有効性が示された。
Multi-objective optimization can be found in many real-world applications where some conflicting objectives can not be optimized by a single solution. Existing optimization methods often focus on finding a set of Pareto solutions with different optimal trade-offs among the objectives. However, the required number of solutions to well approximate the whole Pareto optimal set could be exponentially large with respect to the number of objectives, which makes these methods unsuitable for handling many optimization objectives. In this work, instead of finding a dense set of Pareto solutions, we propose a novel Tchebycheff set scalarization method to find a few representative solutions (e.g., 5) to cover a large number of objectives (e.g., $>100$) in a collaborative and complementary manner. In this way, each objective can be well addressed by at least one solution in the small solution set. In addition, we further develop a smooth Tchebycheff set scalarization approach for efficient optimization with good theoretical guarantees. Experimental studies on different problems with many optimization objectives demonstrate the effectiveness of our proposed method. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# デュアルスパーストレーニングフレームワーク: Transformed $\ell1$ regularizationによるアクティベーションマップのスパーシティの誘導
Dual sparse training framework: inducing activation map sparsity via Transformed $\ell1$ regularization ( http://arxiv.org/abs/2405.19652v1 ) ライセンス: Link先を確認 | Xiaolong Yu, Cong Tian, | (参考訳) 深層畳み込みニューラルネットワークは急速な発展を遂げているが、計算とストレージの制限のため、これらのモデルを低消費電力デバイスに広く普及させ、適用することは困難である。
この問題に対処するため、モデル圧縮、アクティベーション・スパシティ・インジェクション、ハードウェア・アクセラレーターなどの手法が提案されている。
本稿では,Transformed $\ell1$ regularization に基づく活性化マップのスパーシリティを誘導する手法を提案する。
さらに、この方法は従来の刈り込みと革新的に組み合わされ、二重スパーストレーニングフレームワークを構成する。
以前の方法と比較すると、Transformed $\ell1$ はより高い空間性を実現し、異なるネットワーク構造に適応できる。
実験結果から,ほとんどのモデルおよび対応するデータセット上でのアクティベーションマップの間隔が20\%以上向上し,精度を損なうことなく達成できることが示唆された。
具体的には、ImageNetデータセットでResNet18が27.52\%改善され、MNISTデータセットでLeNet5が44.04\%改善された。
さらに、デュアルスパーストレーニングフレームワークは、計算負荷を大幅に削減し、実行時に必要なストレージを削減できる可能性がある。
具体的には、デュアルスパーストレーニングフレームワークによって得られたResNet18とResNet50モデルは、精度と低プルーニング率を維持しながら、乗算浮動小数点演算の81.7\%と84.13\%をそれぞれ削減した。
Although deep convolutional neural networks have achieved rapid development, it is challenging to widely promote and apply these models on low-power devices, due to computational and storage limitations. To address this issue, researchers have proposed techniques such as model compression, activation sparsity induction, and hardware accelerators. This paper presents a method to induce the sparsity of activation maps based on Transformed $\ell1$ regularization, so as to improve the research in the field of activation sparsity induction. Further, the method is innovatively combined with traditional pruning, constituting a dual sparse training framework. Compared to previous methods, Transformed $\ell1$ can achieve higher sparsity and better adapt to different network structures. Experimental results show that the method achieves improvements by more than 20\% in activation map sparsity on most models and corresponding datasets without compromising the accuracy. Specifically, it achieves a 27.52\% improvement for ResNet18 on the ImageNet dataset, and a 44.04\% improvement for LeNet5 on the MNIST dataset. In addition, the dual sparse training framework can greatly reduce the computational load and provide potential for reducing the required storage during runtime. Specifically, the ResNet18 and ResNet50 models obtained by the dual sparse training framework respectively reduce 81.7\% and 84.13\% of multiplicative floating-point operations, while maintaining accuracy and a low pruning rate. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# SysCaps:複雑なシステムのシミュレーションサロゲートのための言語インタフェース
SysCaps: Language Interfaces for Simulation Surrogates of Complex Systems ( http://arxiv.org/abs/2405.19653v1 ) ライセンス: Link先を確認 | Patrick Emami, Zhaonan Li, Saumya Sinha, Truc Nguyen, | (参考訳) データ駆動シミュレーションは、計算科学者が複雑なシステムを研究するのに役立つ。
また、影響のある政策決定を知らせるのにも役立ちます。
本稿では,言語がシミュレートされたシステムと対話するために使用される代理モデリングのための学習フレームワークを提案する。
システムの言語記述を「システムキャプション」または「システムキャプション」と呼ぶ。
ペア型自然言語SysCapsのデータセットとシミュレーション実行の欠如に対処するために,我々は,高品質なキャプションを合成するために大規模言語モデル(LLM)を使用している。
本フレームワークを用いて,複素エネルギーシステムの実世界の2つのシミュレータに対して,マルチモーダルテキストと時系列回帰モデルを訓練する。
本実験は,実世界のサロゲートモデルに対して,標準ベースラインと同等の精度で言語インタフェースを設計可能であることを示す。
我々は、SysCapsがテキストプロンプトスタイルのサロゲートモデリングと、以前可能だった以上の新しい一般化能力の解き放つことを質的に定量的に示す。
生成されたSysCapsデータセットと、フォローオン研究をサポートするためのコードをリリースします。
Data-driven simulation surrogates help computational scientists study complex systems. They can also help inform impactful policy decisions. We introduce a learning framework for surrogate modeling where language is used to interface with the underlying system being simulated. We call a language description of a system a "system caption", or SysCap. To address the lack of datasets of paired natural language SysCaps and simulation runs, we use large language models (LLMs) to synthesize high-quality captions. Using our framework, we train multimodal text and timeseries regression models for two real-world simulators of complex energy systems. Our experiments demonstrate the feasibility of designing language interfaces for real-world surrogate models at comparable accuracy to standard baselines. We qualitatively and quantitatively show that SysCaps unlock text-prompt-style surrogate modeling and new generalization abilities beyond what was previously possible. We will release the generated SysCaps datasets and our code to support follow-on studies. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 医療用マルチモーダルプレトレーニングにおける空間情報と時間情報のアンロック
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training ( http://arxiv.org/abs/2405.19654v1 ) ライセンス: Link先を確認 | Jinxia Yang, Bing Su, Wayne Xin Zhao, Ji-Rong Wen, | (参考訳) 医用視覚言語による事前訓練法は, 主に, 医用画像と放射線学的報告の対応を利用する。
市販のマルチモーダル医療データセットでは,多視点空間画像と画像報告ペアの時間的シーケンスが利用できるが,既存の手法の多くは,このような広範囲な監視信号に完全には適用されていない。
本稿では,胸部X線写真と時間的歴史的記録の複数の空間的視点から情報を利用するための,微細な空間的・時間的モデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
より包括的なアライメントを実現するため、Med-STは画像全体とテキスト間のグローバルアライメントを確立するだけでなく、テキストトークンと画像空間領域間のモダリティ重み付き局所アライメントを導入する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
時間的情報を単純から複雑に知覚することで、Med-STは時間的意味論を学ぶことができる。
4つの異なるタスクにまたがる実験結果は、特に時間的分類タスクにおいて、Med-STの有効性を示す。
私たちのコードとモデルはhttps://github.com/SVT-Yang/MedST.comで公開されています。
Medical vision-language pre-training methods mainly leverage the correspondence between paired medical images and radiological reports. Although multi-view spatial images and temporal sequences of image-report pairs are available in off-the-shelf multi-modal medical datasets, most existing methods have not thoroughly tapped into such extensive supervision signals. In this paper, we introduce the Med-ST framework for fine-grained spatial and temporal modeling to exploit information from multiple spatial views of chest radiographs and temporal historical records. For spatial modeling, Med-ST employs the Mixture of View Expert (MoVE) architecture to integrate different visual features from both frontal and lateral views. To achieve a more comprehensive alignment, Med-ST not only establishes the global alignment between whole images and texts but also introduces modality-weighted local alignment between text tokens and spatial regions of images. For temporal modeling, we propose a novel cross-modal bidirectional cycle consistency objective by forward mapping classification (FMC) and reverse mapping regression (RMR). By perceiving temporal information from simple to complex, Med-ST can learn temporal semantics. Experimental results across four distinct tasks demonstrate the effectiveness of Med-ST, especially in temporal classification tasks. Our code and model are available at https://github.com/SVT-Yang/MedST. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 相互輸送アンサンブルによる精度・信頼性予測
Accurate and Reliable Predictions with Mutual-Transport Ensemble ( http://arxiv.org/abs/2405.19656v1 ) ライセンス: Link先を確認 | Han Liu, Peng Cui, Bingning Wang, Jun Zhu, Xiaolin Hu, | (参考訳) ディープニューラルネットワーク(DNN)は、特に予測精度に関して、様々なタスクにおいて顕著な成功を収めている。
しかし、特に安全クリティカルなアプリケーションにおいて、複雑な現実世界のシナリオでは、高い精度だけでは不十分である。
信頼性の高い不確実性評価が不可欠である。
現代のDNNは、しばしばクロスエントロピー損失で訓練され、特にあいまいなサンプルで過信される傾向にある。
不確実性の校正を改善するため、多くの技術が開発されているが、予測精度を損なうことがしばしばある。
この課題に対処するため、我々は `mutual-transport ensemble' (MTE) を提案する。
提案手法は, 共学習補助モデルを導入し, 一次モデルと補助モデルの予測分布間のKL偏差を用いて, クロスエントロピー損失を適応的に正則化する。
提案手法の有効性を検証するため,様々なベンチマークについて広範な研究を行った。
その結果,MTEは精度と不確実性の両方を同時に向上させることができることがわかった。
例えば、CIFAR-100データセットでは、我々のResNet34/50のMTE法は、従来の最先端手法に比べて大幅に改善され、絶対精度は2.4%/3.7%、ECEの相対低下は42.3%/29.4%、クラスワイズECEの相対低下は11.6%/15.3%であった。
Deep Neural Networks (DNNs) have achieved remarkable success in a variety of tasks, especially when it comes to prediction accuracy. However, in complex real-world scenarios, particularly in safety-critical applications, high accuracy alone is not enough. Reliable uncertainty estimates are crucial. Modern DNNs, often trained with cross-entropy loss, tend to be overconfident, especially with ambiguous samples. To improve uncertainty calibration, many techniques have been developed, but they often compromise prediction accuracy. To tackle this challenge, we propose the ``mutual-transport ensemble'' (MTE). This approach introduces a co-trained auxiliary model and adaptively regularizes the cross-entropy loss using Kullback-Leibler (KL) divergence between the prediction distributions of the primary and auxiliary models. We conducted extensive studies on various benchmarks to validate the effectiveness of our method. The results show that MTE can simultaneously enhance both accuracy and uncertainty calibration. For example, on the CIFAR-100 dataset, our MTE method on ResNet34/50 achieved significant improvements compared to previous state-of-the-art method, with absolute accuracy increases of 2.4%/3.7%, relative reductions in ECE of $42.3%/29.4%, and relative reductions in classwise-ECE of 11.6%/15.3%. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# 深度監督されたスパースビュー3次元ガウスにおける不確かさ誘導最適輸送
Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian ( http://arxiv.org/abs/2405.19657v1 ) ライセンス: Link先を確認 | Wei Sun, Qi Zhang, Yanzhao Zhou, Qixiang Ye, Jianbin Jiao, Yuan Li, | (参考訳) 3次元ガウシアンスプラッティングは、リアルタイムな新規なビュー合成において顕著な性能を示した。
しかし、RGB画像からの再構成を成功させるためには、通常、静的条件下でキャプチャされた複数の入力ビューが必要である。
スパース・インプット・ビューの課題に対処するため、従来のアプローチでは、事前訓練された深度ネットワークからの密集した予測を擬似地下真実として利用して、3Dガウスのトレーニングに深度監視を組み込んでオーバーフィッティングを緩和している。
それにもかかわらず、単分子深度推定モデルによる深度予測は、本質的に特定の領域において重大な不確実性を示す。
画素単位のL2損失のみに頼れば、これらの不確実な領域からの有害ノイズを必然的に取り込むことができる。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
深度予測におけるこれらの局所誤差に対処するため,従来のL2損失を補完するパッチワイド輸送戦略を統合した。
LLFF,DTU,Blenderのデータセットを用いて行った大規模な実験により,我々のアプローチであるUGOTが優れた新規なビュー合成を実現し,常に最先端の手法より優れた性能を発揮することが示された。
3D Gaussian splatting has demonstrated impressive performance in real-time novel view synthesis. However, achieving successful reconstruction from RGB images generally requires multiple input views captured under static conditions. To address the challenge of sparse input views, previous approaches have incorporated depth supervision into the training of 3D Gaussians to mitigate overfitting, using dense predictions from pretrained depth networks as pseudo-ground truth. Nevertheless, depth predictions from monocular depth estimation models inherently exhibit significant uncertainty in specific areas. Relying solely on pixel-wise L2 loss may inadvertently incorporate detrimental noise from these uncertain areas. In this work, we introduce a novel method to supervise the depth distribution of 3D Gaussians, utilizing depth priors with integrated uncertainty estimates. To address these localized errors in depth predictions, we integrate a patch-wise optimal transport strategy to complement traditional L2 loss in depth supervision. Extensive experiments conducted on the LLFF, DTU, and Blender datasets demonstrate that our approach, UGOT, achieves superior novel view synthesis and consistently outperforms state-of-the-art methods. | 翻訳日:2024-05-31 18:26:21 公開日:2024-05-30 |
# CSANet:ロバスト3次元顔アライメントと再構成のためのチャネル空間アテンションネットワーク
CSANet: Channel Spatial Attention Network for Robust 3D Face Alignment and Reconstruction ( http://arxiv.org/abs/2405.19659v1 ) ライセンス: Link先を確認 | Yilin Liu, Xuezhou Guo, Xinqi Wang, Fangzhou Du, | (参考訳) 本稿では,エンドツーエンドの3次元顔アライメント・再構築ネットワークを提案する。
私たちのモデルのバックボーンは、Depth-wise Separable Convolutionを通じてBottle-Neck構造で構築されています。
コーディネート・アテンション・メカニズムと空間群ワイド・エンハンスメントを統合し,より代表的な特徴を抽出する。
より安定したトレーニングプロセスとより良い収束のために、Wing損失とWeighted Parameter Distance Costを併用して、3D Morphableモデルと3D頂点のパラメータを学習する。
提案手法は, 定量的, 定性的に全てのベースラインモデルより優れている。
Our project proposes an end-to-end 3D face alignment and reconstruction network. The backbone of our model is built by Bottle-Neck structure via Depth-wise Separable Convolution. We integrate Coordinate Attention mechanism and Spatial Group-wise Enhancement to extract more representative features. For more stable training process and better convergence, we jointly use Wing loss and the Weighted Parameter Distance Cost to learn parameters for 3D Morphable model and 3D vertices. Our proposed model outperforms all baseline models both quantitatively and qualitatively. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 患者---大規模言語モデルを用いたメンタルヘルス専門家の育成
PATIENT-Ψ: Using Large Language Models to Simulate Patients for Training Mental Health Professionals ( http://arxiv.org/abs/2405.19660v1 ) ライセンス: Link先を確認 | Ruiyi Wang, Stephanie Milani, Jamie C. Chiu, Shaun M. Eack, Travis Labrum, Samuel M. Murphy, Nev Jones, Kate Hardy, Hong Shen, Fei Fang, Zhiyu Zoey Chen, | (参考訳) 精神病は、利用可能なメンタルヘルスサポートと患者のニーズとの間に大きなギャップがある、最も重要な公衆衛生問題の一つである。
多くのメンタルヘルス専門家は、トレーニングと実世界の患者との相互作用の断絶を強調しており、一部の研修生は準備が整っていないと感じ、初期のキャリアの成功に影響を及ぼす可能性がある。
本稿では,認知行動療法(CBT)トレーニングのための新しい患者シミュレーションフレームワークであるPatent-{\Psi}を提案する。
患者-{\Psi} を構築するために, CBT の原理に基づく多様な患者プロファイルとそれに対応する認知モデルを構築し, 患者認知モデルを用いた大規模言語モデル(LLM)を用いてシミュレートされた治療患者として機能させた。
精神保健研修生を対象に,患者-{\Psiとセラピーセッションのロールプレイングを通じて,CBT(認知モデル)の重要なスキルを実践するための対話型トレーニングスキーム「患者-{\Psi}-TRAINER」を提案する。
そこで我々は,4人の精神保健研修生と10人の専門家を対象に,患者-{\Psi} の評価を行った。
その結果,患者-{\Psi}-TRAINERの実践は,教科書やビデオ,非患者とのロールプレイといった既存の学習形態を超えて,学習者のスキル獲得と自信を高めることが示唆された。
専門家の認識から,患者-{\Psi} は GPT-4 よりも実際の患者間相互作用に近いと認識され,患者-{\Psi}-TRAINER は訓練能力の向上を強く約束している。
LLMを用いた先駆的な患者シミュレーショントレーニングフレームワークは、精神保健訓練の強化と進歩に大きな可能性を秘めており、最終的には患者のケアと成果の改善につながっている。
すべてのデータ、コード、トレーニングプラットフォームをリリースします。
Mental illness remains one of the most critical public health issues, with a significant gap between the available mental health support and patient needs. Many mental health professionals highlight a disconnect between their training and real-world patient interactions, leaving some trainees feeling unprepared and potentially affecting their early career success. In this paper, we propose PATIENT-{\Psi}, a novel patient simulation framework for cognitive behavior therapy (CBT) training. To build PATIENT-{\Psi}, we constructed diverse patient profiles and their corresponding cognitive models based on CBT principles, and then used large language models (LLMs) programmed with the patient cognitive models to act as a simulated therapy patient. We propose an interactive training scheme, PATIENT-{\Psi}-TRAINER, for mental health trainees to practice a key skill in CBT -- formulating the cognitive model of the patient -- through role-playing a therapy session with PATIENT-{\Psi}. To evaluate PATIENT-{\Psi}, we conducted a user study of 4 mental health trainees and 10 experts. The results demonstrate that practice using PATIENT-{\Psi}-TRAINER greatly enhances the perceived skill acquisition and confidence of the trainees beyond existing forms of training such as textbooks, videos, and role-play with non-patients. Based on the experts' perceptions, PATIENT-{\Psi} is perceived to be closer to real patient interactions than GPT-4, and PATIENT-{\Psi}-TRAINER holds strong promise to improve trainee competencies. Our pioneering patient simulation training framework, using LLMs, holds great potential to enhance and advance mental health training, ultimately leading to improved patient care and outcomes. We will release all our data, code, and the training platform. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# MGCP:多変量時系列のための多点相関に基づく予測ネットワーク
MGCP: A Multi-Grained Correlation based Prediction Network for Multivariate Time Series ( http://arxiv.org/abs/2405.19661v1 ) ライセンス: Link先を確認 | Zhicheng Chen, Xi Xiao, Ke Xu, Zhong Zhang, Yu Rong, Qing Li, Guojun Gan, Zhiqiang Xu, Peilin Zhao, | (参考訳) 多変量時系列予測は日常生活で広く使われており、多粒度に存在する複雑な相関関係のために大きな課題が生じる。
残念なことに、現在の時系列予測モデルの大半は、多変量時系列の相関を多粒度で同時に学習することができず、結果として準最適性能が得られる。
そこで本研究では,3つの粒度レベルの相関を同時に検討し,予測性能を向上するMGCP(Multi-Grained correlations-based Prediction)ネットワークを提案する。
具体的には、アダプティブフーリエニューラル演算子とグラフ畳み込みネットワークを用いて、大域的時空間相関と系列間相関を学習し、細粒度および中粒度レベルで多変量時系列から潜在的な特徴を抽出することができる。
さらに、MGCPは、注意機構に基づく予測器と条件判別器を用いて、粗い粒度の予測結果を最適化し、生成した予測結果と実際のデータ分布との間の高い忠実性を確保する。
最後に、MGCPを実世界のベンチマークデータセット上での最先端時系列予測アルゴリズムと比較し、提案モデルの有効性と有効性を示す。
Multivariate time series prediction is widely used in daily life, which poses significant challenges due to the complex correlations that exist at multi-grained levels. Unfortunately, the majority of current time series prediction models fail to simultaneously learn the correlations of multivariate time series at multi-grained levels, resulting in suboptimal performance. To address this, we propose a Multi-Grained Correlations-based Prediction (MGCP) Network, which simultaneously considers the correlations at three granularity levels to enhance prediction performance. Specifically, MGCP utilizes Adaptive Fourier Neural Operators and Graph Convolutional Networks to learn the global spatiotemporal correlations and inter-series correlations, enabling the extraction of potential features from multivariate time series at fine-grained and medium-grained levels. Additionally, MGCP employs adversarial training with an attention mechanism-based predictor and conditional discriminator to optimize prediction results at coarse-grained level, ensuring high fidelity between the generated forecast results and the actual data distribution. Finally, we compare MGCP with several state-of-the-art time series prediction algorithms on real-world benchmark datasets, and our results demonstrate the generality and effectiveness of the proposed model. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 量子散逸系におけるゼヌライトの非局在性と絡み合いに対する量子ゼノ効果
Quantum Zeno Effect on Genuine Tripartite Nonlocality and Entanglement in Quantum Dissipative System ( http://arxiv.org/abs/2405.19664v1 ) ライセンス: Link先を確認 | Zi-Yu Xiong, Yong-Jun Xiao, Ye-Qi Zhang, Qi-Liang He, | (参考訳) 量子情報における重要なグローバルリソースとして、真の三部構造非局所性(GTN)はSvetlichnyの不等式に違反することで定量化することができる。
しかし、理論計算の難しさのため、一般的な3量子状態に対する解析的表現はいまだに存在しない。
本稿では,任意の3量子ビット量子状態に対するGTNの高精度量子化を実現する。
例えば、W状態に対するGTNと真の三部構造エンタングルメント(GTE)のダイナミクスについて検討する。
さらに,GTNの相補性は,三部岩と二部岩の非局所性を調べることによって検証される。
最後に, ゼノ効果を利用してGTNとGTEの相関をデコヒーレンスで保護するための有用な戦略も見出した。
As a precious global resource in quantum information, genuine tripartite nonlocality(GTN) can be quantified by violating Svetlichny inequality. However, there is still no analytical expression for the general three-qubit states due to the difficulty of theoretical calculations. In this paper, we achieve highly accurate quantization of GTN for arbitrary three-qubit quantum states numerically. As an example, we study the dynamics of GTN and genuine tripartite entanglement(GTE) for the W state. Moreover, the complementarity of GTN is verified by examining the nonlocality between the tripartite and the bipartite. Finally, we also find a useful strategy to protect the correlation of GTN and GTE under decoherence by utilizing the Zeno effect. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 水力発電ユニットのデータ改質による新しい断層定位法
A novel fault localization with data refinement for hydroelectric units ( http://arxiv.org/abs/2405.19665v1 ) ライセンス: Link先を確認 | Jialong Huang, Junlin Song, Penglong Lian, Mengjie Gan, Zhiheng Su, Benhao Wang, Wenji Zhu, Xiaomin Pu, Jianxiao Zou, Shicai Fan, | (参考訳) 水力発電ユニットにおける断層試料の不足と非線形・非平滑特性データの複雑さのため、従来の水力発電ユニットの断層定位法のほとんどは正確な位置決めを行うのが困難である。
これらの問題に対処するために, 疎自己エンコーダ(SAE)-生成逆数ネットワーク(GAN)-ウェーブレット雑音低減(WNR)-多様体型深層学習(SG-WMBDL)に基づく水力発電ユニットの故障局所化法を提案する。
データ不足を克服するため、SAEはGANに埋め込まれ、データ生成モジュールでより高品質なサンプルを生成する。
非線形および非滑らかな特性を含む信号を考慮すると、軟弱しきい値と局所線形埋め込み(LLE)を併用した改良WNRをデータ前処理モジュールに利用することにより、ノイズを低減し、局所的な特徴を効果的に捉えることができる。
さらに, 高い性能を求めるために, 複数深度学習を併用した小説Adaptive Boost (AdaBoost) を提案する。
実験結果から,SG-WMBDLは,他のフロンティア法と比較して高精度かつ高精度な非直線・非平滑特性を有する少数の断層試料の下で,水力発電ユニットの断層を見つけることができ,本手法の有効性と実用性を確認した。
Due to the scarcity of fault samples and the complexity of non-linear and non-smooth characteristics data in hydroelectric units, most of the traditional hydroelectric unit fault localization methods are difficult to carry out accurate localization. To address these problems, a sparse autoencoder (SAE)-generative adversarial network (GAN)-wavelet noise reduction (WNR)- manifold-boosted deep learning (SG-WMBDL) based fault localization method for hydroelectric units is proposed. To overcome the data scarcity, a SAE is embedded into the GAN to generate more high-quality samples in the data generation module. Considering the signals involving non-linear and non-smooth characteristics, the improved WNR which combining both soft and hard thresholding and local linear embedding (LLE) are utilized to the data preprocessing module in order to reduce the noise and effectively capture the local features. In addition, to seek higher performance, the novel Adaptive Boost (AdaBoost) combined with multi deep learning is proposed to achieve accurate fault localization. The experimental results show that the SG-WMBDL can locate faults for hydroelectric units under a small number of fault samples with non-linear and non-smooth characteristics on higher precision and accuracy compared to other frontier methods, which verifies the effectiveness and practicality of the proposed method. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 下流決定のためのモデル多重度再構成
Reconciling Model Multiplicity for Downstream Decision Making ( http://arxiv.org/abs/2405.19667v1 ) ライセンス: Link先を確認 | Ally Yalei Du, Dung Daniel Ngo, Zhiwei Steven Wu, | (参考訳) 本稿では、下流決定におけるモデル乗法の問題について考察する。これは、下流損失関数に対する最良の応答動作に対して、等価な精度の2つの予測モデルが一致しないような設定である。
2つの予測モデルがほぼ至るところでそれぞれの予測にほぼ一致しているとしても、最も応答性の高い行動が人口のかなりの部分で相違していることが示される。
本稿では,下流の意思決定問題と個別の確率予測の両方に関して,予測モデルを校正する枠組みを提案する。
具体的には,マルチキャリブレーションからツールを活用することで,まず各タイミングで個々の確率予測の違いを分解し,次に,実際の確率分布と区別できないような更新モデルのキャリブレーションを行うアルゴリズムを提案する。
我々はその結果を、真の確率分布への直接アクセスを持たず、実験的な分布であるi.i.dデータの集合に依存するような設定にまで拡張する。
最後に,提案手法を実証的に評価する実験のセットを提供する。既存手法と比較して,提案アルゴリズムは,下流の意思決定損失を改善した2つの予測モデルを作成し,ほぼ至るところで最高の応答行動に同意する。
We consider the problem of model multiplicity in downstream decision-making, a setting where two predictive models of equivalent accuracy cannot agree on the best-response action for a downstream loss function. We show that even when the two predictive models approximately agree on their individual predictions almost everywhere, it is still possible for their induced best-response actions to differ on a substantial portion of the population. We address this issue by proposing a framework that calibrates the predictive models with regard to both the downstream decision-making problem and the individual probability prediction. Specifically, leveraging tools from multi-calibration, we provide an algorithm that, at each time-step, first reconciles the differences in individual probability prediction, then calibrates the updated models such that they are indistinguishable from the true probability distribution to the decision-maker. We extend our results to the setting where one does not have direct access to the true probability distribution and instead relies on a set of i.i.d data to be the empirical distribution. Finally, we provide a set of experiments to empirically evaluate our methods: compared to existing work, our proposed algorithm creates a pair of predictive models with both improved downstream decision-making losses and agrees on their best-response actions almost everywhere. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# AutoBreach: 効率的なWordplay-Guided最適化によるユニバーサルで適応的なジェイルブレーク
AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization ( http://arxiv.org/abs/2405.19668v1 ) ライセンス: Link先を確認 | Jiawei Chen, Xiao Yang, Zhengwei Fang, Yu Tian, Yinpeng Dong, Zhaoxia Yin, Hang Su, | (参考訳) 大規模言語モデル(LLM)が様々なタスクに広く適用されているにもかかわらず、最近の研究は、これらがジェイルブレイク攻撃の影響を受けやすいことを示唆している。
しかし、以前のジェイルブレイクの研究は、限られた普遍性、最適下限の効率、手工芸への依存によってしばしば制限されてきた。
そこで我々は, ジェイルブレイク手法の設計の指針となる3つの重要な特性を, 攻撃者の視点で正式に定義し, ジェイルブレイク手法のアプローチを再考する。
ブラックボックスアクセスのみを必要とするLDMをジェイルブレイクする新しい方法であるAutoBreachについても紹介する。
ワードプレイの汎用性にインスパイアされたAutoBreachは、ワードプレイ誘導マッピングルールサンプリング戦略を使用して、敵のプロンプトを生成するための様々なユニバーサルマッピングルールを生成する。
この生成プロセスはLLMの自動要約と推論機能を活用し、手作業による負担を軽減する。
ジェイルブレイクの成功率を高めるために、ターゲットLLMにおける誤りや単語の誤りを訂正するための文圧縮とチェーン・オブ・ソート・マッピング・ルールを提案する。
さらに,2段階のマッピングルール最適化手法を提案し,まず最初に目標LLMを問合せする前にマッピングルールを最適化し,AutoBreachの効率を向上する。
AutoBreachは、Claude-3、GPT-3.5、GPT-4 Turbo、および2つのLLMのWebプラットフォームを含む、様々なLLMのセキュリティ脆弱性を効率的に識別することができる。
Despite the widespread application of large language models (LLMs) across various tasks, recent studies indicate that they are susceptible to jailbreak attacks, which can render their defense mechanisms ineffective. However, previous jailbreak research has frequently been constrained by limited universality, suboptimal efficiency, and a reliance on manual crafting. In response, we rethink the approach to jailbreaking LLMs and formally define three essential properties from the attacker' s perspective, which contributes to guiding the design of jailbreak methods. We further introduce AutoBreach, a novel method for jailbreaking LLMs that requires only black-box access. Inspired by the versatility of wordplay, AutoBreach employs a wordplay-guided mapping rule sampling strategy to generate a variety of universal mapping rules for creating adversarial prompts. This generation process leverages LLMs' automatic summarization and reasoning capabilities, thus alleviating the manual burden. To boost jailbreak success rates, we further suggest sentence compression and chain-of-thought-based mapping rules to correct errors and wordplay misinterpretations in target LLMs. Additionally, we propose a two-stage mapping rule optimization strategy that initially optimizes mapping rules before querying target LLMs to enhance the efficiency of AutoBreach. AutoBreach can efficiently identify security vulnerabilities across various LLMs, including three proprietary models: Claude-3, GPT-3.5, GPT-4 Turbo, and two LLMs' web platforms: Bingchat, GPT-4 Web, achieving an average success rate of over 80% with fewer than 10 queries | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 深い特徴のためのテクスチャ誘導符号化
Texture-guided Coding for Deep Features ( http://arxiv.org/abs/2405.19669v1 ) ライセンス: Link先を確認 | Lei Xiong, Xin Luo, Zihao Wang, Chaofan He, Shuyuan Zhu, Bing Zeng, | (参考訳) 近年、機械ビジョン技術の急速な発展に伴い、多くの研究者が機械ビジョンタスクに適した特徴圧縮に焦点を合わせ始めている。
特徴圧縮のターゲットは、事前訓練された畳み込みニューラルネットワークの中層における畳み込みから生じる深い特徴である。
しかし、大量のデータと深い特徴の高レベルの抽象化のため、主にマシン中心のシナリオに限られており、人間とコンピュータの相互作用を必要とする状況では大きな制約が生じる。
本稿では,特徴とテクスチャを考察し,その特徴に基づくテクスチャ誘導型特徴圧縮戦略を提案する。
具体的には、その戦略は特徴層とテクスチャ層から構成される。
特徴層は、特徴選択モジュールと特徴再構成ネットワークを含むマシンに提供される。
テクスチャ画像の助けを借りて、視覚的なタスクに関連するチャンネルを選択的に圧縮し、送信し、特徴データを低減し、マシンに高品質な機能を提供する。
テクスチャ層は主に人間に仕え、画像再構成ネットワークから構成される。
この画像再構成ネットワークは、特徴とテクスチャ画像を活用して、ヒトのプレビュー画像の再構成を行う。
本手法はテクスチャの特徴と特徴を完全に活用する。
特徴の冗長性を排除し、人間の高品質なプレビュー画像を再構築し、意思決定をサポートする。
実験の結果,提案手法を用いて深部特徴を圧縮する際の優れた性能を示した。
With the rapid development of machine vision technology in recent years, many researchers have begun to focus on feature compression that is better suited for machine vision tasks. The target of feature compression is deep features, which arise from convolution in the middle layer of a pre-trained convolutional neural network. However, due to the large volume of data and high level of abstraction of deep features, their application is primarily limited to machine-centric scenarios, which poses significant constraints in situations requiring human-computer interaction. This paper investigates features and textures and proposes a texture-guided feature compression strategy based on their characteristics. Specifically, the strategy comprises feature layers and texture layers. The feature layers serve the machine, including a feature selection module and a feature reconstruction network. With the assistance of texture images, they selectively compress and transmit channels relevant to visual tasks, reducing feature data while providing high-quality features for the machine. The texture layers primarily serve humans and consist of an image reconstruction network. This image reconstruction network leverages features and texture images to reconstruct preview images for humans. Our method fully exploits the characteristics of texture and features. It eliminates feature redundancy, reconstructs high-quality preview images for humans, and supports decision-making. The experimental results demonstrate excellent performance when employing our proposed method to compress the deep features. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 検索可能な大規模言語モデルのためのスケーラブルでプラガブルな仮想トークンの学習
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.19670v1 ) ライセンス: Link先を確認 | Yutao Zhu, Zhaoheng Huang, Zhicheng Dou, Ji-Rong Wen, | (参考訳) Retrieval-augmented Generation (RAG)は、より現実的で正確で最新のコンテンツを生成するために、大規模言語モデル(LLM)を改善するための有望な方法である。
既存の手法は、取得した情報を活用するためにLSMを誘導するプロンプトを最適化するか、RAGシナリオに適応するためにLSMを直接調整する。
微調整により性能は向上するが、パラメータを変更することでLCMのジェネラルジェネレーション能力を損なうことがしばしばある。
この制限は、特に LLM が既にデプロイされている場合、パラメータ調整が元の機能に影響を与える可能性があるため、実用上の問題を引き起こす。
そこで本研究では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
LLMの本来のパラメータを維持し,これらプラグ可能なトークンの埋め込みのみを微調整することにより,LLMの性能を向上するだけでなく,汎用的な生成能力も維持する。
さらに,本手法のスケーラビリティ,柔軟性,一般化性を向上させるために,いくつかのトレーニング戦略を設計する。
9つの質問応答タスクの総合的な実験は、我々のアプローチの優位性を示している。
Retrieval-augmented generation (RAG) is a promising way to improve large language models (LLMs) for generating more factual, accurate, and up-to-date content. Existing methods either optimize prompts to guide LLMs in leveraging retrieved information or directly fine-tune the LLMs to adapt to RAG scenarios. Although fine-tuning can yield better performance, it often compromises the LLMs' general generation capabilities by modifying their parameters. This limitation poses challenges in practical applications, especially when LLMs are already deployed, as parameter adjustments may affect their original functionality. To address this, we propose a novel method that involves learning scalable and pluggable virtual tokens for RAG. By maintaining the LLMs' original parameters and fine-tuning only the embeddings of these pluggable tokens, our approach not only enhances LLMs' performance but also preserves their general generation capacities. Furthermore, we design several training strategies to improve the scalability, flexibility, and generalizability of our method. Comprehensive experiments across nine question-answering tasks demonstrate the superiority of our approach. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# Gaussian Room:SDF誘導による3次元ガウス切削の改善と屋内シーン再構築のための単眼クイズ
GaussianRoom: Improving 3D Gaussian Splatting with SDF Guidance and Monocular Cues for Indoor Scene Reconstruction ( http://arxiv.org/abs/2405.19671v1 ) ライセンス: Link先を確認 | Haodong Xiang, Xinghui Li, Xiansong Lai, Wanting Zhang, Zhichao Liao, Kai Cheng, Xueping Liu, | (参考訳) 最近、3D Gaussian Splatting(3DGS)は、その高品質なレンダリングとリアルタイムのスピードでニューラルレンダリングに革命をもたらした。
しかし, 室内のテクスチャのない部分が多く, 3DGSは点雲の初期化が不十分で, 過度に制約された最適化のため, 不完全でノイズの多い復元結果が得られる。
3DGSとニューラルSDFを統合した一貫した最適化フレームワークを提案する。
このフレームワークには学習可能なニューラルネットワークSDFフィールドが組み込まれており、ガウスの密度化と刈り取りをガイドし、初期化点雲が貧弱である場合でも、ガウスのシーンを正確にモデル化することができる。
同時に、ガウスによって表される幾何学は、点サンプリングを操縦することによって SDF 場の効率を向上する。
さらに,テクスチャのない領域における幾何学的曖昧さを排除し,細部を改良するため,正規およびエッジ先行の最適化を正規化する。
ScanNetとScanNet++の大規模な実験により,本手法は表面再構成と新しいビュー合成の両方において最先端の性能を実現する。
Recently, 3D Gaussian Splatting(3DGS) has revolutionized neural rendering with its high-quality rendering and real-time speed. However, when it comes to indoor scenes with a significant number of textureless areas, 3DGS yields incomplete and noisy reconstruction results due to the poor initialization of the point cloud and under-constrained optimization. Inspired by the continuity of signed distance field (SDF), which naturally has advantages in modeling surfaces, we present a unified optimizing framework integrating neural SDF with 3DGS. This framework incorporates a learnable neural SDF field to guide the densification and pruning of Gaussians, enabling Gaussians to accurately model scenes even with poor initialized point clouds. At the same time, the geometry represented by Gaussians improves the efficiency of the SDF field by piloting its point sampling. Additionally, we regularize the optimization with normal and edge priors to eliminate geometry ambiguity in textureless areas and improve the details. Extensive experiments in ScanNet and ScanNet++ show that our method achieves state-of-the-art performance in both surface reconstruction and novel view synthesis. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# CRIS:Polypセグメンテーションのためのセグメンテーションを統合したコラボレーションリファインメント
CRIS: Collaborative Refinement Integrated with Segmentation for Polyp Segmentation ( http://arxiv.org/abs/2405.19672v1 ) ライセンス: Link先を確認 | Ankush Gajanan Arudkar, Bernard J. E. Evans, | (参考訳) 大腸癌の正確な検出と早期予防は,消化管内視鏡検査における正確なポリープ同定に大きく依存している。
限られたデータのため、ポリプセグメンテーションのための最先端のディープラーニング手法の多くは、ノイズを低減し、結果を向上するためにマスクの処理後に依存することが多い。
本研究では,マスク強化と二項セマンティックセグメンテーションを統合し,現在広く使われているリファインメント戦略を超越した新しい協調学習戦略を活用するアプローチを提案する。
確立されたベンチマークデータセットの包括的な評価と、様々な医用画像セグメンテーションアーキテクチャにおけるその成功例を通じて、我々のアプローチの優位性を実証する。
Accurate detection of colorectal cancer and early prevention heavily rely on precise polyp identification during gastrointestinal colonoscopy. Due to limited data, many current state-of-the-art deep learning methods for polyp segmentation often rely on post-processing of masks to reduce noise and enhance results. In this study, we propose an approach that integrates mask refinement and binary semantic segmentation, leveraging a novel collaborative training strategy that surpasses current widely-used refinement strategies. We demonstrate the superiority of our approach through comprehensive evaluation on established benchmark datasets and its successful application across various medical image segmentation architectures. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 拡散モデルの保守的微調整によるブリッジモデルに基づく最適化と生成モデル
Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2405.19673v1 ) ライセンス: Link先を確認 | Masatoshi Uehara, Yulai Zhao, Ehsan Hajiramezanali, Gabriele Scalia, Gökcen Eraslan, Avantika Lal, Sergey Levine, Tommaso Biancalani, | (参考訳) DNA/タンパク質配列設計のようなAI駆動設計問題は通常、2つの角度から取り組まれる: 生成モデリングは、実現可能な設計空間(例えば、自然画像や生物学的配列)を効率的にキャプチャし、モデルベースの最適化は、外挿に報酬モデルを利用する。
両手法の強みを組み合わせるために,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を採用する。
以前の作業では同様の方法が検討されているが、それらは主に、正確な報酬モデルにアクセス可能なシナリオに焦点を当てている。
対照的に、報酬モデルが未知のオフライン設定に集中しており、科学領域における一般的なシナリオである静的オフラインデータセットから学ぶ必要がある。
オフラインのシナリオでは、既存のアプローチは配布外領域の報酬モデルによって誤解される可能性があるため、過度な最適化に悩まされる傾向がある。
そこで本研究では,オフラインデータ配信以外のペナル化を含む,保守的な報酬モデルの最適化により,保守的な微調整手法であるBRAIDを導入する。
実験的および理論的解析を通じて,本手法がオフラインデータにおいて最良の設計を上回り,事前学習した拡散モデルによる不正な設計の発生を回避しつつ,報酬モデルの補間能力を活用できることを実証する。
AI-driven design problems, such as DNA/protein sequence design, are commonly tackled from two angles: generative modeling, which efficiently captures the feasible design space (e.g., natural images or biological sequences), and model-based optimization, which utilizes reward models for extrapolation. To combine the strengths of both approaches, we adopt a hybrid method that fine-tunes cutting-edge diffusion models by optimizing reward models through RL. Although prior work has explored similar avenues, they primarily focus on scenarios where accurate reward models are accessible. In contrast, we concentrate on an offline setting where a reward model is unknown, and we must learn from static offline datasets, a common scenario in scientific domains. In offline scenarios, existing approaches tend to suffer from overoptimization, as they may be misled by the reward model in out-of-distribution regions. To address this, we introduce a conservative fine-tuning approach, BRAID, by optimizing a conservative reward model, which includes additional penalization outside of offline data distributions. Through empirical and theoretical analysis, we demonstrate the capability of our approach to outperform the best designs in offline data, leveraging the extrapolation capabilities of reward models while avoiding the generation of invalid designs through pre-trained diffusion models. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 視覚言語モデルのための知識接地型適応戦略:居住者訓練のためのマンモグラムスクリーニングのための特異なケースセットの構築
Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training ( http://arxiv.org/abs/2405.19675v1 ) ライセンス: Link先を確認 | Aisha Urooj Khan, John Garrett, Tyler Bradshaw, Lonie Salkowski, Jiwoong Jason Jeong, Amara Tariq, Imon Banerjee, | (参考訳) 自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、ドメインシフトによる医学的コンテキストに適用する場合、大きな障壁となる。
しかし、これらのVLMを医療用途に適応または微調整することは、ドメインのミスアライメント、広範囲なデータセットへのアクセス制限、高レベルの不均衡など、かなりのハードルをもたらす。
したがって、これらのVLMを医療分野に効果的に適応させる戦略は、医療応用において非常に有用であることが証明されるため、強く求められている。
本研究では,VLMを医用領域に適応させるためのフレームワークを提案する。
提案手法の有効性を,ドメイン内VLM(MedCLIP)とドメイン外VLM(ALBEF)の2つの異なるVLMにまたがって実装することで検証する。
提案したトレーニング戦略を,マンモグラムとそれに対応するレポートを含む2つの広範囲なデータセットを用いて実施し,本モデルの性能評価を行った。
評価はゼロショット、少数ショット、および教師付きシナリオにまたがる。
本稿では,画像テキスト検索タスクにおけるRecall@K性能の顕著な向上を観察する。
A visual-language model (VLM) pre-trained on natural images and text pairs poses a significant barrier when applied to medical contexts due to domain shift. Yet, adapting or fine-tuning these VLMs for medical use presents considerable hurdles, including domain misalignment, limited access to extensive datasets, and high-class imbalances. Hence, there is a pressing need for strategies to effectively adapt these VLMs to the medical domain, as such adaptations would prove immensely valuable in healthcare applications. In this study, we propose a framework designed to adeptly tailor VLMs to the medical domain, employing selective sampling and hard-negative mining techniques for enhanced performance in retrieval tasks. We validate the efficacy of our proposed approach by implementing it across two distinct VLMs: the in-domain VLM (MedCLIP) and out-of-domain VLMs (ALBEF). We assess the performance of these models both in their original off-the-shelf state and after undergoing our proposed training strategies, using two extensive datasets containing mammograms and their corresponding reports. Our evaluation spans zero-shot, few-shot, and supervised scenarios. Through our approach, we observe a notable enhancement in Recall@K performance for the image-text retrieval task. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 混合整数プログラミングによる大規模言語モデルウォーターマークステアリング
Large Language Model Watermark Stealing With Mixed Integer Programming ( http://arxiv.org/abs/2405.19677v1 ) ライセンス: Link先を確認 | Zhaoxi Zhang, Xiaomei Zhang, Yanjun Zhang, Leo Yu Zhang, Chao Chen, Shengshan Hu, Asif Gill, Shirui Pan, | (参考訳) 大規模言語モデル(LLM)の透かしは、LLM著作権に関する懸念に対処し、AI生成したテキストを監視し、その誤用を防ぐという、新たな技術である。
LLM透かしスキームは一般的に、語彙を緑と赤のリストに分割する秘密鍵を生成し、グリーンリストのトークンのロジットに摂動を適用してサンプリング可能性を高めることで、グリーントークンの割合がしきい値を超えた場合にAI生成テキストを識別する透かし検出を容易にする。
しかし,近年の研究では,多数のキーを用いた透かし手法は,トークン編集や同義語置換,パラフレージングなどの攻撃の影響を受けやすく,キー数の増加とともにロバスト性は低下している。
したがって、より少ないまたは単一のキーを使用する最先端の透かしスキームは、テキスト編集やパラフレージングに対してより堅牢であることが示されている。
本稿では,最先端のLLM透かしシステムに対する新たなグリーンリスト盗難攻撃を提案し,その脆弱性を系統的に検証する。
我々は、制約付き混合整数プログラミング問題として攻撃を形式化する。
我々は,攻撃者が事前の知識を持っていない,透かし検出APIにアクセスできない,LCMのパラメータ設定や透かし注入・検出方式に関する情報を持たない,極端なシナリオを含む包括的脅威モデルの下で攻撃を評価した。
OPT や LLaMA のような LLM に関する大規模な実験は、我々の攻撃がグリーンリストを盗み、すべての設定で透かしを除去できることを示した。
The Large Language Model (LLM) watermark is a newly emerging technique that shows promise in addressing concerns surrounding LLM copyright, monitoring AI-generated text, and preventing its misuse. The LLM watermark scheme commonly includes generating secret keys to partition the vocabulary into green and red lists, applying a perturbation to the logits of tokens in the green list to increase their sampling likelihood, thus facilitating watermark detection to identify AI-generated text if the proportion of green tokens exceeds a threshold. However, recent research indicates that watermarking methods using numerous keys are susceptible to removal attacks, such as token editing, synonym substitution, and paraphrasing, with robustness declining as the number of keys increases. Therefore, the state-of-the-art watermark schemes that employ fewer or single keys have been demonstrated to be more robust against text editing and paraphrasing. In this paper, we propose a novel green list stealing attack against the state-of-the-art LLM watermark scheme and systematically examine its vulnerability to this attack. We formalize the attack as a mixed integer programming problem with constraints. We evaluate our attack under a comprehensive threat model, including an extreme scenario where the attacker has no prior knowledge, lacks access to the watermark detector API, and possesses no information about the LLM's parameter settings or watermark injection/detection scheme. Extensive experiments on LLMs, such as OPT and LLaMA, demonstrate that our attack can successfully steal the green list and remove the watermark across all settings. | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 超音速特徴場を用いたビュー一貫性階層型3次元セグメンテーション
View-Consistent Hierarchical 3D SegmentationUsing Ultrametric Feature Fields ( http://arxiv.org/abs/2405.19678v1 ) ライセンス: Link先を確認 | Haodi He, Colton Stearns, Adam W. Harley, Leonidas J. Guibas, | (参考訳) Segment Anything (SAM)のような大規模ビジョン基盤モデルは、ゼロショット画像のセグメンテーションにおいて、複数のレベルの粒度で印象的な性能を示す。
しかし、これらのゼロショット予測は3D一貫性がほとんどない。
カメラの視点がシーンで変化するにつれて、セグメンテーション予測や ` `coarse" や ` `fine" の粒度のキャラクタリゼーションも変化する。
本研究では,階層的かつ3D一貫性の表現に多粒性およびビュー非一貫性のイメージセグメンテーションを持ち上げるという課題に対処する。
我々は、特徴距離の異なるしきい値を用いることで、分割構造を異なるスケールで明らかにできる3次元シーンを表すニューラルレージアンス場(NeRF)内の新しい特徴場を学習する。
私たちのキーとなる考え方は、ユークリッド空間とは異なり、距離に基づくグループ化において推移性を示し、自然に階層的クラスタリングにつながる超測度特徴空間を学習することである。
提案手法は、ビュー一貫性のない多粒性2Dセグメンテーションを入力とし、出力として3D一貫性セグメンテーションの階層を生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
さらに、実世界のシーンにおけるモデルの3次元階層的セグメンテーションの定性的な例を示す。
コードとデータセットは以下の通り。
Large-scale vision foundation models such as Segment Anything (SAM) demonstrate impressive performance in zero-shot image segmentation at multiple levels of granularity. However, these zero-shot predictions are rarely 3D-consistent. As the camera viewpoint changes in a scene, so do the segmentation predictions, as well as the characterizations of ``coarse" or ``fine" granularity. In this work, we address the challenging task of lifting multi-granular and view-inconsistent image segmentations into a hierarchical and 3D-consistent representation. We learn a novel feature field within a Neural Radiance Field (NeRF) representing a 3D scene, whose segmentation structure can be revealed at different scales by simply using different thresholds on feature distance. Our key idea is to learn an ultrametric feature space, which unlike a Euclidean space, exhibits transitivity in distance-based grouping, naturally leading to a hierarchical clustering. Put together, our method takes view-inconsistent multi-granularity 2D segmentations as input and produces a hierarchy of 3D-consistent segmentations as output. We evaluate our method and several baselines on synthetic datasets with multi-view images and multi-granular segmentation, showcasing improved accuracy and viewpoint-consistency. We additionally provide qualitative examples of our model's 3D hierarchical segmentations in real world scenes.\footnote{The code and dataset are available at: | 翻訳日:2024-05-31 18:16:37 公開日:2024-05-30 |
# 近似平均化を用いたワッサーシュタイン空間の効率的な軌道推定
Efficient Trajectory Inference in Wasserstein Space Using Consecutive Averaging ( http://arxiv.org/abs/2405.19679v1 ) ライセンス: Link先を確認 | Amartya Banerjee, Harlin Lee, Nir Sharon, Caroline Moosmüller, | (参考訳) 計算生物学などの多くの分野において、動的プロセスから断面積の測定を通じてデータをキャプチャする。
軌道推論は、そのような観測から連続的な過程を再構築する挑戦を扱う。
本研究では、ワッサーシュタイン空間に直交する連続平均化による点雲のB-スプライン近似と補間法を提案する。
提案手法は, 最適輸送に基づく測地法と組み合わせて, 選択された精度と滑らか度で軌道推定を行い, 時間とともに粒子が分裂するシナリオを自動的に処理する。
本手法は,両分岐とマージを特徴とするシミュレーションセルデータに対して収束保証を提供し,その性能を最先端の軌道推定と補間法と比較することにより,厳密に評価する。
その結果,トラジェクトリを推定する上での手法の有効性だけでなく,データ固有の幾何学的性質を尊重する補間や近似を行うことのメリットも浮き彫りにした。
Capturing data from dynamic processes through cross-sectional measurements is seen in many fields such as computational biology. Trajectory inference deals with the challenge of reconstructing continuous processes from such observations. In this work, we propose methods for B-spline approximation and interpolation of point clouds through consecutive averaging that is instrinsic to the Wasserstein space. Combining subdivision schemes with optimal transport-based geodesic, our methods carry out trajectory inference at a chosen level of precision and smoothness, and can automatically handle scenarios where particles undergo division over time. We rigorously evaluate our method by providing convergence guarantees and testing it on simulated cell data characterized by bifurcations and merges, comparing its performance against state-of-the-art trajectory inference and interpolation methods. The results not only underscore the effectiveness of our method in inferring trajectories, but also highlight the benefit of performing interpolation and approximation that respect the inherent geometric properties of the data. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# Bayesian Online Natural Gradient (BONG)
Bayesian Online Natural Gradient (BONG) ( http://arxiv.org/abs/2405.19681v1 ) ライセンス: Link先を確認 | Matt Jones, Peter Chang, Kevin Murphy, | (参考訳) 本稿では,変分ベイズに基づく逐次ベイズ推定手法を提案する。
重要な洞察は、オンライン環境では、事前に正規化するためにKL項を追加する必要はなく(これは以前の時間ステップの後方から来ている)、予測されるログライクな状態だけを最適化し、先行予測から始まる自然な勾配降下の1ステップを実行することができるということです。
本手法は,モデルが共役である場合,正確にベイズ推定を復元し,特に計算コストの制御において,ニューラルネットワークのオンライン学習などの非共役環境において,他のオンラインVB手法よりも経験的に優れていることを示す。
We propose a novel approach to sequential Bayesian inference based on variational Bayes. The key insight is that, in the online setting, we do not need to add the KL term to regularize to the prior (which comes from the posterior at the previous timestep); instead we can optimize just the expected log-likelihood, performing a single step of natural gradient descent starting at the prior predictive. We prove this method recovers exact Bayesian inference if the model is conjugate, and empirically outperforms other online VB methods in the non-conjugate setting, such as online learning for neural networks, especially when controlling for computational costs. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 単眼3次元物体検出のための完全テスト時間適応法
Fully Test-Time Adaptation for Monocular 3D Object Detection ( http://arxiv.org/abs/2405.19682v1 ) ライセンス: Link先を確認 | Hongbin Lin, Yifan Zhang, Shuaicheng Niu, Shuguang Cui, Zhen Li, | (参考訳) モノクロ3Dオブジェクト検出(Mono 3Det)は、単一のRGB画像から3Dオブジェクトを識別することを目的としている。
しかし、既存の手法では、トレーニングとテストデータは、実際のテストシナリオでは適用できないような、同じ分布に従っていると仮定することが多い。
アウト・オブ・ディストリビューション(OOD)問題に対処するため、Mono 3Detの新しい適応パラダイムを探求する。
トレーニングデータやテストラベルにアクセスせずに、テスト時に潜在的なデータ分散シフトを処理して、ラベルのないテストデータに十分にトレーニングされたモデルを適用することを目指している。
しかし、Mono 3Detにこのパラダイムを適用すると、OODテストデータがオブジェクト検出スコアを著しく低下させるため、大きな課題が生じる。
この減少は、既存の検出方法の既定スコア閾値と矛盾し、重い物体の欠落(まれな正の検出と多くの偽陰性)を引き起こす。
その結果、限定された肯定的な検出と多くのノイズ予測が、Mono 3Detでテスト時の適応に失敗する。
この問題に対処するために,2つの新しい戦略に基づいたモノクロテスト時間適応法を提案する。
1) 信頼性駆動型適応: ハイスコアオブジェクトは信頼性が保たれており, ハイスコアオブジェクトの最適化により全検出における信頼性が向上する。
そこで我々は、モデル適応のための信頼性のあるオブジェクトを同定し、潜在的なオブジェクトを発見し、省略を緩和する自己適応戦略を考案した。
2)ノイズガード適応:高音域の物体は少ないため、負の学習によって多数の低音域の物体を悪用し、ノイズや自明な解への過度な適合を防ぎ、負の正則化項を開発する。
実験の結果、MonoTTAはOODテストシナリオでMono 3Detモデルに大幅なパフォーマンス向上をもたらし、KITTIでは平均で約190%、nuSceneでは198%向上した。
Monocular 3D object detection (Mono 3Det) aims to identify 3D objects from a single RGB image. However, existing methods often assume training and test data follow the same distribution, which may not hold in real-world test scenarios. To address the out-of-distribution (OOD) problems, we explore a new adaptation paradigm for Mono 3Det, termed Fully Test-time Adaptation. It aims to adapt a well-trained model to unlabeled test data by handling potential data distribution shifts at test time without access to training data and test labels. However, applying this paradigm in Mono 3Det poses significant challenges due to OOD test data causing a remarkable decline in object detection scores. This decline conflicts with the pre-defined score thresholds of existing detection methods, leading to severe object omissions (i.e., rare positive detections and many false negatives). Consequently, the limited positive detection and plenty of noisy predictions cause test-time adaptation to fail in Mono 3Det. To handle this problem, we propose a novel Monocular Test-Time Adaptation (MonoTTA) method, based on two new strategies. 1) Reliability-driven adaptation: we empirically find that high-score objects are still reliable and the optimization of high-score objects can enhance confidence across all detections. Thus, we devise a self-adaptive strategy to identify reliable objects for model adaptation, which discovers potential objects and alleviates omissions. 2) Noise-guard adaptation: since high-score objects may be scarce, we develop a negative regularization term to exploit the numerous low-score objects via negative learning, preventing overfitting to noise and trivial solutions. Experimental results show that MonoTTA brings significant performance gains for Mono 3Det models in OOD test scenarios, approximately 190% gains by average on KITTI and 198% gains on nuScenes. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# トランスファーラーニングによる識別不可能性の破滅:SPECK32/64軽量ブロック暗号の初見
Breaking Indistinguishability with Transfer Learning: A First Look at SPECK32/64 Lightweight Block Ciphers ( http://arxiv.org/abs/2405.19683v1 ) ライセンス: Link先を確認 | Jimmy Dani, Kalyan Nakka, Nitesh Saxena, | (参考訳) 本研究では,ブロック暗号の不明瞭性,特にCBCモード(Cipher Block Chaining)におけるSPECK32/64暗号アルゴリズム(KPA)に挑戦するために,深層学習(DL)と伝達学習(TL)を用いた新たな攻撃フレームワークであるMIND-Cryptを紹介する。
本手法は,同じ鍵を用いて暗号化された2つのメッセージの暗号文を用いたDLモデルのトレーニングを含む。
選択されたメッセージは同じバイト長で、バイナリレベルでは1ビットだけ異なる。
このDLモデルは残余のネットワークアーキテクチャを採用している。
TLでは、トレーニング済みのDLモデルを特徴抽出器として使用し、これらの機能はXGBoostのような浅い機械学習のトレーニングに使用される。
この二重戦略は、2つの暗号化されたメッセージの暗号文を区別することを目的としており、従来の暗号解析の課題に対処している。
その結果,SPECK32/64暗号を用いて,一貫した暗号条件(Same Key, Rounds)で約99%の精度が得られることがわかった。
しかし、異なるキーまたは異なる暗号化ラウンドのSPECK32/64から生成された暗号文でテストすると、性能はランダムな推測レベル(50%)に低下する。
結果を強化するために、DLモデルは、より大きなデータセット(10^7サンプル)を使用して、異なるキーや暗号化ラウンドで再トレーニングする必要がある。
この制限を克服するため、我々は1万サンプルで約53%の精度を達成し、ランダムな推測よりも優れているTLを実装した。
580,000サンプルによるさらなるトレーニングでは、精度が99%近く向上し、データ要求が94%以上削減された。
これは、攻撃者が機械学習モデルを使用して、通信相手と直接対話することなく、一対の平文とその対応する暗号文に同じキーで暗号化された暗号文にアクセスすることで、識別不能を破ることができることを示している。
In this research, we introduce MIND-Crypt, a novel attack framework that uses deep learning (DL) and transfer learning (TL) to challenge the indistinguishability of block ciphers, specifically SPECK32/64 encryption algorithm in CBC mode (Cipher Block Chaining) against Known Plaintext Attacks (KPA). Our methodology includes training a DL model with ciphertexts of two messages encrypted using the same key. The selected messages have the same byte-length and differ by only one bit at the binary level. This DL model employs a residual network architecture. For the TL, we use the trained DL model as a feature extractor, and these features are then used to train a shallow machine learning, such as XGBoost. This dual strategy aims to distinguish ciphertexts of two encrypted messages, addressing traditional cryptanalysis challenges. Our findings demonstrate that the DL model achieves an accuracy of approximately 99% under consistent cryptographic conditions (Same Key or Rounds) with the SPECK32/64 cipher. However, performance degrades to random guessing levels (50%) when tested with ciphertext generated from different keys or different encryption rounds of SPECK32/64. To enhance the results, the DL model requires retraining with different keys or encryption rounds using larger datasets (10^7 samples). To overcome this limitation, we implement TL, achieving an accuracy of about 53% with just 10,000 samples, which is better than random guessing. Further training with 580,000 samples increases accuracy to nearly 99%, showing a substantial reduction in data requirements by over 94%. This shows that an attacker can utilize machine learning models to break indistinguishability by accessing pairs of plaintexts and their corresponding ciphertexts encrypted with the same key, without directly interacting with the communicating parties. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 深層学習に基づく水中画像強調に関する総合調査
A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning ( http://arxiv.org/abs/2405.19684v1 ) ライセンス: Link先を確認 | Xiaofeng Cong, Yu Zhao, Jie Gui, Junming Hou, Dacheng Tao, | (参考訳) 水中画像強調(UIE)はコンピュータビジョンの分野で難しい研究課題である。
何百ものUIEアルゴリズムが提案されているが、包括的で体系的なレビューはまだ不足している。
今後の研究を促進するために,複数の視点からUIEタスクを要約する。
まず、物理モデル、データ構築プロセス、評価指標、損失関数を紹介する。
次に, ネットワークアーキテクチャ, 学習戦略, 学習段階, 支援課題, ドメイン視点, 絡み合い融合の6つの視点から, 提案したアルゴリズムについて検討・分類した。
第3に、異なる文献における実験的な設定の不整合を考えると、包括的で公平な比較はまだ存在しない。
この目的のために、複数のベンチマークデータセット上で最先端のアルゴリズムを定量的に定性的に評価する。
最後に、UIEタスクのさらなる研究に値する課題が提起される。
有用な資料のコレクションはhttps://github.com/YuZhao1999/UIEで入手できる。
Underwater image enhancement (UIE) is a challenging research task in the field of computer vision. Although hundreds of UIE algorithms have been proposed, a comprehensive and systematic review is still lacking. To promote future research, we summarize the UIE task from multiple perspectives. First, the physical models, data construction processes, evaluation metrics, and loss functions are introduced. Second, according to the contributions brought by different literatures, recent proposed algorithms are discussed and classified from six perspectives, namely network architecture, learning strategy, learning stage, assistance task, domain perspective and disentanglement fusion, respectively. Third, considering the inconsistencies in experimental settings in different literatures, a comprehensive and fair comparison does not yet exist. To this end, we quantitatively and qualitatively evaluate state-of-the-art algorithms on multiple benchmark datasets. Finally, issues worthy of further research in the UIE task are raised. A collection of useful materials is available at https://github.com/YuZhao1999/UIE. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 知識グラフチューニング:人間のフィードバックに基づくリアルタイム大規模言語モデルのパーソナライズ
Knowledge Graph Tuning: Real-time Large Language Model Personalization based on Human Feedback ( http://arxiv.org/abs/2405.19686v1 ) ライセンス: Link先を確認 | Jingwei Sun, Zhixu Du, Yiran Chen, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な習熟性を示している。
デプロイされると、LLMはパーソナライズされた事実知識を持つユーザと遭遇し、そのようなパーソナライズされた知識はLLMとのインタラクションを通じて一貫して反映される。
ユーザエクスペリエンスを向上させるためには、リアルタイムモデルパーソナライズが不可欠である。
既存の手法は、主にモデルパラメータを微調整するためにバックプロパゲーションを必要とし、高い計算とメモリコストを発生させる。
さらに,これらの手法は,ユーザのパーソナライズされた知識が広範囲に蓄積される長期使用時のモデル性能に予期せぬ影響を生じさせる低い解釈性に悩まされ,知識グラフを利用したLLMのパーソナライズ手法である知識グラフチューニング(KGT)を提案する。
KGTはユーザのクエリとフィードバックからパーソナライズされた事実知識を抽出し、LLMパラメータを変更することなくKGを最適化する。
GPT-2, Llama2, Llama3 などの最先端 LLM による実験により, KGT は遅延と GPU メモリコストを低減しつつ, パーソナライズ性能を著しく向上させることを示した。
最終的に、KGT は LLM とのユーザインタラクションにおいて、効果的で効率的で解釈可能なリアルタイム LLM パーソナライゼーションの有望なソリューションを提供する。
Large language models (LLMs) have demonstrated remarkable proficiency in a range of natural language processing tasks. Once deployed, LLMs encounter users with personalized factual knowledge, and such personalized knowledge is consistently reflected through users' interactions with the LLMs. To enhance user experience, real-time model personalization is essential, allowing LLMs to adapt user-specific knowledge based on user feedback during human-LLM interactions. Existing methods mostly require back-propagation to finetune the model parameters, which incurs high computational and memory costs. In addition, these methods suffer from low interpretability, which will cause unforeseen impacts on model performance during long-term use, where the user's personalized knowledge is accumulated extensively.To address these challenges, we propose Knowledge Graph Tuning (KGT), a novel approach that leverages knowledge graphs (KGs) to personalize LLMs. KGT extracts personalized factual knowledge triples from users' queries and feedback and optimizes KGs without modifying the LLM parameters. Our method improves computational and memory efficiency by avoiding back-propagation and ensures interpretability by making the KG adjustments comprehensible to humans.Experiments with state-of-the-art LLMs, including GPT-2, Llama2, and Llama3, show that KGT significantly improves personalization performance while reducing latency and GPU memory costs. Ultimately, KGT offers a promising solution of effective, efficient, and interpretable real-time LLM personalization during user interactions with the LLMs. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# スパイクニューラルネットワークによる自律走行
Autonomous Driving with Spiking Neural Networks ( http://arxiv.org/abs/2405.19687v1 ) ライセンス: Link先を確認 | Rui-Jie Zhu, Ziqing Wang, Leilani Gilpin, Jason K. Eshraghian, | (参考訳) 自律運転は、スケーラビリティと環境持続可能性を高めるために厳しいエネルギー制約の下で運用しながら、知覚、予測、計画を含む統合されたアプローチを要求する。
我々は、イベント駆動とエネルギー効率の両面で自律運転システムに直面するエネルギー問題に対処するために、最初の統合スパイキングニューラルネットワーク(SNN)であるスパイキング自律運転(\name{})を提示する。
SADはエンドツーエンドで訓練され、多視点カメラからの入力を処理して時空間の鳥の視線を構築する知覚、スパイクニューロンによる新しいデュアルパスを利用して将来の状態を予測する予測、予測占有率、交通規則、乗り心地を考慮した安全な軌道を生成する計画の3つの主要モジュールから構成される。
SADはnuScenesデータセットに基づいて評価され、SNNのエネルギー効率を図りながら、知覚、予測、計画タスクにおける競争性能を達成する。
この研究は、エネルギー効率の高い自動運転に適用されるニューロモルフィックコンピューティングの可能性を強調している。
私たちのコードは \url{https://github.com/ridgerchu/SAD} で利用可能です。
Autonomous driving demands an integrated approach that encompasses perception, prediction, and planning, all while operating under strict energy constraints to enhance scalability and environmental sustainability. We present Spiking Autonomous Driving (\name{}), the first unified Spiking Neural Network (SNN) to address the energy challenges faced by autonomous driving systems through its event-driven and energy-efficient nature. SAD is trained end-to-end and consists of three main modules: perception, which processes inputs from multi-view cameras to construct a spatiotemporal bird's eye view; prediction, which utilizes a novel dual-pathway with spiking neurons to forecast future states; and planning, which generates safe trajectories considering predicted occupancy, traffic rules, and ride comfort. Evaluated on the nuScenes dataset, SAD achieves competitive performance in perception, prediction, and planning tasks, while drawing upon the energy efficiency of SNNs. This work highlights the potential of neuromorphic computing to be applied to energy-efficient autonomous driving, a critical step toward sustainable and safety-critical automotive technology. Our code is available at \url{https://github.com/ridgerchu/SAD}. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# DNPM:顔の幾何学的詳細の合成のためのニューラルパラメトリックモデル
DNPM: A Neural Parametric Model for the Synthesis of Facial Geometric Details ( http://arxiv.org/abs/2405.19688v1 ) ライセンス: Link先を確認 | Haitao Cao, Baoping Cheng, Qiran Pu, Haocheng Zhang, Bin Luo, Yixiang Zhuang, Juncong Lin, Liyan Chen, Xuan Cheng, | (参考訳) パラメトリック3Dモデルは、人間の顔、体、手をモデル化するなど、幅広いコンピュータビジョンとグラフィックタスクを可能にした。
3次元顔モデリングでは、3DMMが最も広く使われているパラメトリックモデルであるが、アイデンティティや表現入力のみから詳細な幾何学的詳細を生成することはできない。
この制限に対処するために,ディープニューラルネットワークを用いて細部やしわを符号化した顔変位マップから潜時符号を抽出するDNPMと呼ばれるニューラルパラメトリックモデルを提案する。
DNPMをベースとして、Detailed3DMMと呼ばれる新しい3DMMが提案されている。
さらに、DNPMとDetailed3DMMは、音声駆動の詳細な3D顔アニメーションと劣化画像からの3D顔再構成の2つのダウンストリーム応用を促進することができることを示す。
DNPMとDetailed3DMMの有用性、および2つの提案された応用の進歩性を示した。
Parametric 3D models have enabled a wide variety of computer vision and graphics tasks, such as modeling human faces, bodies and hands. In 3D face modeling, 3DMM is the most widely used parametric model, but can't generate fine geometric details solely from identity and expression inputs. To tackle this limitation, we propose a neural parametric model named DNPM for the facial geometric details, which utilizes deep neural network to extract latent codes from facial displacement maps encoding details and wrinkles. Built upon DNPM, a novel 3DMM named Detailed3DMM is proposed, which augments traditional 3DMMs by including the synthesis of facial details only from the identity and expression inputs. Moreover, we show that DNPM and Detailed3DMM can facilitate two downstream applications: speech-driven detailed 3D facial animation and 3D face reconstruction from a degraded image. Extensive experiments have shown the usefulness of DNPM and Detailed3DMM, and the progressiveness of two proposed applications. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 確率分布モデルを用いた不確かさ認識手話ビデオ検索
Uncertainty-aware sign language video retrieval with probability distribution modeling ( http://arxiv.org/abs/2405.19689v1 ) ライセンス: Link先を確認 | Xuan Wu, Hongxiang Li, Yuanjiang Luo, Xuxin Cheng, Xianwei Zhuang, Meng Cao, Keren Fu, | (参考訳) 手話ビデオ検索は、聴覚障害者コミュニティの情報アクセスを促進する上で重要な役割を担っている。
ビデオテキスト検索の大幅な進歩にもかかわらず、手話の複雑さと固有の不確実性は、これらの技法の直接適用を妨げる。
従来は手話ビデオとテキストのマッピングを微粒なモーダルアライメントによって実現していた。
しかし、微粒なアノテーションが不足しているため、手話ビデオに固有の不確実性は過小評価され、手話検索タスクのさらなる発展が制限される。
この課題に対処するために,手話ビデオとテキストのマッピングプロセスを確率分布の観点から概念化し,それらの潜在的な相互関係を探究し,柔軟なマッピングを可能にする,不確実性対応確率分布検索法(UPRet)を提案する。
How2Sign (59.1%)、PHOENIX-2014T (72.0%)、CSL-Daily (78.4%) の3つのベンチマークで実験を行った。
Sign language video retrieval plays a key role in facilitating information access for the deaf community. Despite significant advances in video-text retrieval, the complexity and inherent uncertainty of sign language preclude the direct application of these techniques. Previous methods achieve the mapping between sign language video and text through fine-grained modal alignment. However, due to the scarcity of fine-grained annotation, the uncertainty inherent in sign language video is underestimated, limiting the further development of sign language retrieval tasks. To address this challenge, we propose a novel Uncertainty-aware Probability Distribution Retrieval (UPRet), that conceptualizes the mapping process of sign language video and text in terms of probability distributions, explores their potential interrelationships, and enables flexible mappings. Experiments on three benchmarks demonstrate the effectiveness of our method, which achieves state-of-the-art results on How2Sign (59.1%), PHOENIX-2014T (72.0%), and CSL-Daily (78.4%). | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# オフライン強化学習のための信頼領域を作成する拡散政策
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19690v1 ) ライセンス: Link先を確認 | Tianyu Chen, Zhendong Wang, Mingyuan Zhou, | (参考訳) オフライン強化学習(RL)は、コンパイル済みデータセットを活用して最適なポリシをトレーニングする。
Diffusion Q-Learning (DQL)は、拡散モデルを強力で表現力豊かなポリシークラスとして導入し、オフラインRLの性能を大幅に向上させる。
しかし、行動を生成するための反復的偏執サンプリングに依存しているため、トレーニングと推論の両方が遅くなる。
拡散-QLを加速しようとする最近の試みはいくつかあるが、トレーニングおよび/または推論速度の改善は、しばしば性能の低下をもたらす。
本稿では,Diffusion Trusted Q-Learning (DTQL, Diffusion Trusted Q-Learning) という2つのポリシーアプローチを導入する。
我々は新たに導入された拡散信頼領域の喪失によって2つの警察を橋渡しする。
拡散政策は表現性を維持し、信頼領域の損失は1段階の政策を自由に探索し、拡散政策で定義された領域内でモードを求めるよう指示する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
2次元バンディットシナリオとジムタスクにおけるKLを用いた蒸留法の有効性とアルゴリズム特性について検討した。
次に、DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も証明できることを示した。
PyTorchの実装が利用可能になる。
Offline reinforcement learning (RL) leverages pre-collected datasets to train optimal policies. Diffusion Q-Learning (DQL), introducing diffusion models as a powerful and expressive policy class, significantly boosts the performance of offline RL. However, its reliance on iterative denoising sampling to generate actions slows down both training and inference. While several recent attempts have tried to accelerate diffusion-QL, the improvement in training and/or inference speed often results in degraded performance. In this paper, we introduce a dual policy approach, Diffusion Trusted Q-Learning (DTQL), which comprises a diffusion policy for pure behavior cloning and a practical one-step policy. We bridge the two polices by a newly introduced diffusion trust region loss. The diffusion policy maintains expressiveness, while the trust region loss directs the one-step policy to explore freely and seek modes within the region defined by the diffusion policy. DTQL eliminates the need for iterative denoising sampling during both training and inference, making it remarkably computationally efficient. We evaluate its effectiveness and algorithmic characteristics against popular Kullback-Leibler (KL) based distillation methods in 2D bandit scenarios and gym tasks. We then show that DTQL could not only outperform other methods on the majority of the D4RL benchmark tasks but also demonstrate efficiency in training and inference speeds. The PyTorch implementation will be made available. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# Grade Like a human: Rethinking Automated Assessment with Large Language Models
Grade Like a Human: Rethinking Automated Assessment with Large Language Models ( http://arxiv.org/abs/2405.19694v1 ) ライセンス: Link先を確認 | Wenjing Xie, Juxin Niu, Chun Jason Xue, Nan Guan, | (参考訳) 大規模言語モデル(LLM)は、自動グレードに使用されているが、特に複雑な質問のグレードに関しては、人間と同等のパフォーマンスを達成できていない。
このトピックに関する既存の研究は、グラデーション手順における特定のステップに焦点を当てている。
しかし、グレーディングは、グレーディングルーリックの設計やポストグレーディングレビューなど、他の重要なステップを含む、多面的な手続きである。
LLMの可能性を探求する体系的な研究が欠如している。
本稿では,LLMに基づくグラデーションシステムを提案する。
1) 質問だけでなく生徒の回答も考慮し, 生徒のパフォーマンスをより正確に反映できる, グレーディングルーブリックの開発。
2) 格付けの指導のもと, 各学生に正確なスコアと一貫したスコアを提供し, フィードバックをカスタマイズした。
3) 精度と公平性をより確実にするため, ポストグレーディングレビューを実施します。
さらに、大学オペレーティングシステムコースからOSという新しいデータセットを収集し、新しいデータセットと広く使われているMohlerデータセットの両方について広範な実験を行った。
提案手法の有効性を実証し,LLMに基づく自動階調システムの開発に新たな知見を提供する。
While large language models (LLMs) have been used for automated grading, they have not yet achieved the same level of performance as humans, especially when it comes to grading complex questions. Existing research on this topic focuses on a particular step in the grading procedure: grading using predefined rubrics. However, grading is a multifaceted procedure that encompasses other crucial steps, such as grading rubrics design and post-grading review. There has been a lack of systematic research exploring the potential of LLMs to enhance the entire grading~process. In this paper, we propose an LLM-based grading system that addresses the entire grading procedure, including the following key components: 1) Developing grading rubrics that not only consider the questions but also the student answers, which can more accurately reflect students' performance. 2) Under the guidance of grading rubrics, providing accurate and consistent scores for each student, along with customized feedback. 3) Conducting post-grading review to better ensure accuracy and fairness. Additionally, we collected a new dataset named OS from a university operating system course and conducted extensive experiments on both our new dataset and the widely used Mohler dataset. Experiments demonstrate the effectiveness of our proposed approach, providing some new insights for developing automated grading systems based on LLMs. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 生涯人物再同定のための分布適応型セマンティックス適応
Distribution Aligned Semantics Adaption for Lifelong Person Re-Identification ( http://arxiv.org/abs/2405.19695v1 ) ライセンス: Link先を確認 | Qizao Wang, Xuelin Qian, Bin Li, Xiangyang Xue, | (参考訳) 現実のシナリオでは、人の再識別(Re-ID)システムは、空間と時間の変化に適応する必要があります。
そのため、Re-IDモデルの新たなドメインへの適応は、Lifelong person Re-IDentification (LReID)として知られる、以前に取得した知識を保存しながら極めて重要である。
先進的なLReID法は、古いドメインからの例証の再生と、古いモデルでロジットに知識蒸留を適用することに依存している。
しかし、プライバシー上の懸念から、以前のデータの保持は不適切である。
さらに,Re-IDの細粒度およびオープンセット特性は,蒸留パラダイムの有効性を制限している。
多様な歩行者画像に基づいて大規模に訓練されたRe-IDモデルは、堅牢で一般的な人間の意味知識を得ることができると論じる。
これらのセマンティクスは、生涯にわたるアプリケーションのための共有知識として容易に利用することができる。
本稿では,各アプリケーション領域に事前学習モデルを適用する際の課題と問題点を特定し,DASA(Distributed Aligned Semantics Adaption)フレームワークを紹介する。
バッチ正規化(BN)を効率よく調整し、データ分散の不一致からの干渉を軽減し、学習済みの畳み込み層を凍結して共有知識を保存する。
さらに,学習意味論を効果的に適用し,歩行者表現を向上させる軽量なセマンティック適応(SA)モジュールを提案する。
大規模実験により,LReID法に比べ,提案手法の顕著な優位性を示し,ストレージ消費を著しく低減した。
DASAは、LReIDの事前学習モデルを効果的に適用するための、新しくて費用対効果の高い視点を提供する。
In real-world scenarios, person Re-IDentification (Re-ID) systems need to be adaptable to changes in space and time. Therefore, the adaptation of Re-ID models to new domains while preserving previously acquired knowledge is crucial, known as Lifelong person Re-IDentification (LReID). Advanced LReID methods rely on replaying exemplars from old domains and applying knowledge distillation in logits with old models. However, due to privacy concerns, retaining previous data is inappropriate. Additionally, the fine-grained and open-set characteristics of Re-ID limit the effectiveness of the distillation paradigm for accumulating knowledge. We argue that a Re-ID model trained on diverse and challenging pedestrian images at a large scale can acquire robust and general human semantic knowledge. These semantics can be readily utilized as shared knowledge for lifelong applications. In this paper, we identify the challenges and discrepancies associated with adapting a pre-trained model to each application domain, and introduce the Distribution Aligned Semantics Adaption (DASA) framework. It efficiently adjusts Batch Normalization (BN) to mitigate interference from data distribution discrepancy and freezes the pre-trained convolutional layers to preserve shared knowledge. Additionally, we propose the lightweight Semantics Adaption (SA) module, which effectively adapts learned semantics to enhance pedestrian representations. Extensive experiments demonstrate the remarkable superiority of our proposed framework over advanced LReID methods, and it exhibits significantly reduced storage consumption. DASA presents a novel and cost-effective perspective on effectively adapting pre-trained models for LReID. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 低次凸性をもたない過勾配発達による二段階強化学習
Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity ( http://arxiv.org/abs/2405.19697v1 ) ライセンス: Link先を確認 | Yan Yang, Bin Gao, Ya-xiang Yuan, | (参考訳) 二段階強化学習(RL)は,近年関心が高まっている。
しかし、低レベルRL問題の本質的に非凸性は、双レベル最適化法の開発の障害となる。
正則化 RL に付随する固定点方程式を用いることで、全一階情報により過次を特徴付けることにより、下層の凸性の仮定を回避できる。
このことは、RL問題の特定の構造を活かすため、一般のAIDベースの双レベルフレームワークと過次性の開発を区別する。
さらに,モデルベースとモデルフリーの2段階強化学習アルゴリズムを提案する。
どちらのアルゴリズムも収束率$\mathcal{O}(\epsilon^{-1})$を楽しむことができる。
私たちの知る限りでは、AIDベースのバイレベルRLが低レベル問題に関する追加の仮定を排除したのはこれが初めてです。
さらに、数値実験により、超勾配が実際にエクスプロイトと探索の統合として機能していることが示されている。
Bilevel reinforcement learning (RL), which features intertwined two-level problems, has attracted growing interest recently. The inherent non-convexity of the lower-level RL problem is, however, to be an impediment to developing bilevel optimization methods. By employing the fixed point equation associated with the regularized RL, we characterize the hyper-gradient via fully first-order information, thus circumventing the assumption of lower-level convexity. This, remarkably, distinguishes our development of hyper-gradient from the general AID-based bilevel frameworks since we take advantage of the specific structure of RL problems. Moreover, we propose both model-based and model-free bilevel reinforcement learning algorithms, facilitated by access to the fully first-order hyper-gradient. Both algorithms are provable to enjoy the convergence rate $\mathcal{O}(\epsilon^{-1})$. To the best of our knowledge, this is the first time that AID-based bilevel RL gets rid of additional assumptions on the lower-level problem. In addition, numerical experiments demonstrate that the hyper-gradient indeed serves as an integration of exploitation and exploration. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# AI駆動リクルートの公正性 - 課題、メトリクス、方法、今後の方向性
Fairness in AI-Driven Recruitment: Challenges, Metrics, Methods, and Future Directions ( http://arxiv.org/abs/2405.19699v1 ) ライセンス: Link先を確認 | Dena F. Mujtaba, Nihar R. Mahapatra, | (参考訳) 採用プロセスは、適格で適任な候補者を見つけることから、その成果と文化に影響を与えるまで、組織が成功のために自らを位置づける能力にとって不可欠である。
そのため、過去1世紀にわたり、人材専門家や産業組織心理学者は、求人広告で候補者を惹きつけること、候補者のスキルを評価で誇示すること、面接質問を用いて組織適合性を評価するなど、雇用慣行を確立してきた。
しかし、ビッグデータと機械学習の出現は、多くの組織が人工知能(AI)への移行に伴って、従来の採用プロセスの急速な変革につながった。
AIベースの採用の頻度を考えると、人間の偏見がこれらのシステムによる決定に続き、体系的な応用を通じて効果を増幅するのではないかという懸念が高まっている。
実証的な研究により、候補者のランキングソフトウェアとチャットボットの相互作用のバイアスが特定され、この10年でAIフェアネスに特化した研究が成長してきた。
本稿では、AIによる採用におけるバイアスの種類について議論し、様々な公正度指標と緩和手法を探求し、これらのシステムの監査ツールを調べることによって、この新興分野の包括的概要を提供する。
我々は、現在の課題を強調し、公正なAI採用アプリケーションの開発、適切な候補治療の確保、組織的な成果の向上に向けた今後の方向性を概説する。
The recruitment process is crucial to an organization's ability to position itself for success, from finding qualified and well-fitting job candidates to impacting its output and culture. Therefore, over the past century, human resources experts and industrial-organizational psychologists have established hiring practices such as attracting candidates with job ads, gauging a candidate's skills with assessments, and using interview questions to assess organizational fit. However, the advent of big data and machine learning has led to a rapid transformation in the traditional recruitment process as many organizations have moved to using artificial intelligence (AI). Given the prevalence of AI-based recruitment, there is growing concern that human biases may carry over to decisions made by these systems, which can amplify the effect through systematic application. Empirical studies have identified prevalent biases in candidate ranking software and chatbot interactions, catalyzing a growing body of research dedicated to AI fairness over the last decade. This paper provides a comprehensive overview of this emerging field by discussing the types of biases encountered in AI-driven recruitment, exploring various fairness metrics and mitigation methods, and examining tools for auditing these systems. We highlight current challenges and outline future directions for developing fair AI recruitment applications, ensuring equitable candidate treatment and enhancing organizational outcomes. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 英語・ドラビディア語機械翻訳におけるジェンダーバイアス緩和における思考の連鎖の意義
Significance of Chain of Thought in Gender Bias Mitigation for English-Dravidian Machine Translation ( http://arxiv.org/abs/2405.19701v1 ) ライセンス: Link先を確認 | Lavanya Prahallad, Radhika Mamidi, | (参考訳) 機械翻訳(MT)システムにおけるジェンダーバイアスは、正確かつ包括的な翻訳を達成する上で重要な課題である。
本稿では,Dravidian family の Telugu や Kannada などの機械翻訳システムにおけるジェンダーバイアスについて検討し,Google Translate と ChatGPT を用いて,ジェンダーインフレクションが翻訳精度と中立性に与える影響を解析した。
複数の形式がバイアスを低減できるのに対して、個人中心の文は歴史的ステレオタイプによってバイアスを維持できる。
この研究は思考処理の連鎖を評価し、テルグ語では80%から4%、カナダ語では40%から0%に顕著なバイアス緩和が見られた。
また、TeluguとKannadaの翻訳を比較し、これらの課題に対処するための言語固有の戦略の必要性を強調し、データ準備と推論中のプロンプトの公平性を高めるための今後の研究の方向性を提案する。
Gender bias in machine translation (MT) systems poses a significant challenge to achieving accurate and inclusive translations. This paper examines gender bias in machine translation systems for languages such as Telugu and Kannada from the Dravidian family, analyzing how gender inflections affect translation accuracy and neutrality using Google Translate and ChatGPT. It finds that while plural forms can reduce bias, individual-centric sentences often maintain the bias due to historical stereotypes. The study evaluates the Chain of Thought processing, noting significant bias mitigation from 80% to 4% in Telugu and from 40% to 0% in Kannada. It also compares Telugu and Kannada translations, emphasizing the need for language specific strategies to address these challenges and suggesting directions for future research to enhance fairness in both data preparation and prompts during inference. | 翻訳日:2024-05-31 18:06:52 公開日:2024-05-30 |
# 外部一般化のより良い評価に向けて
Towards a Better Evaluation of Out-of-Domain Generalization ( http://arxiv.org/abs/2405.19703v1 ) ライセンス: Link先を確認 | Duhun Hwang, Suhyun Kang, Moonjung Eo, Jimyeong Kim, Wonjong Rhee, | (参考訳) ドメイン一般化(Domain Generalization, DG)の目的は、これまで見つからなかったテストディストリビューションで高いパフォーマンスを達成するアルゴリズムとモデルを考案することである。
この目的を追求するために、既存のDG研究において、モデルの評価とアルゴリズムの比較のための一般的な尺度として平均測度が採用されている。
その重要性にもかかわらず、平均測度に関する包括的な探索は欠如しており、真の領域一般化性能の近似に適合する可能性は疑問視されている。
本研究では,平均測度に固有の限界を慎重に検討し,ロバストな代替手段として最悪の+ギャップ測度を提案する。
2つの異なる仮定から始まる2つの定理を導出することにより、提案された測度の理論的根拠を確立する。
提案手法と従来の平均値とを比較検討した。
測定のための真のDGパフォーマンスにアクセスする必要がなくなると、SR-CMNIST、C-Cats&Dogs、L-CIFAR10、PACS崩壊データセット、VLCS崩壊データセットの5つの既存のデータセットを変更します。
実験結果は, 真のDG性能を近似し, 理論的に支持された最悪の+ギャップ測定値のロバスト性を確認する上で, 平均測定値が劣ることを示した。
The objective of Domain Generalization (DG) is to devise algorithms and models capable of achieving high performance on previously unseen test distributions. In the pursuit of this objective, average measure has been employed as the prevalent measure for evaluating models and comparing algorithms in the existing DG studies. Despite its significance, a comprehensive exploration of the average measure has been lacking and its suitability in approximating the true domain generalization performance has been questionable. In this study, we carefully investigate the limitations inherent in the average measure and propose worst+gap measure as a robust alternative. We establish theoretical grounds of the proposed measure by deriving two theorems starting from two different assumptions. We conduct extensive experimental investigations to compare the proposed worst+gap measure with the conventional average measure. Given the indispensable need to access the true DG performance for studying measures, we modify five existing datasets to come up with SR-CMNIST, C-Cats&Dogs, L-CIFAR10, PACS-corrupted, and VLCS-corrupted datasets. The experiment results unveil an inferior performance of the average measure in approximating the true DG performance and confirm the robustness of the theoretically supported worst+gap measure. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# ヘリンジャー相関による十分次元削減の促進
Enhancing Sufficient Dimension Reduction via Hellinger Correlation ( http://arxiv.org/abs/2405.19704v1 ) ライセンス: Link先を確認 | Seungbeom Hong, Ilmun Kim, Jun Song, | (参考訳) 本研究では,SDRが条件付き独立性に基づく教師付き次元縮小のサブフィールドである単一インデックスモデルにおいて,十分次元還元(SDR)の新たな理論と手法を開発する。
私たちの研究は主に、依存関係の尺度としてのHellinger相関の導入によって動機付けられています。
本手法を用いることで,次元縮小部分空間を効果的に検出し,理論的正当性を完備する手法を開発した。
大規模な数値実験により,提案手法は既存のSDR法を大幅に向上し,性能を向上することを示した。
この改善は,提案手法がデータ依存の深い理解と既存のSDR技術の改良に大きく寄与している。
In this work, we develop a new theory and method for sufficient dimension reduction (SDR) in single-index models, where SDR is a sub-field of supervised dimension reduction based on conditional independence. Our work is primarily motivated by the recent introduction of the Hellinger correlation as a dependency measure. Utilizing this measure, we develop a method capable of effectively detecting the dimension reduction subspace, complete with theoretical justification. Through extensive numerical experiments, we demonstrate that our proposed method significantly enhances and outperforms existing SDR methods. This improvement is largely attributed to our proposed method's deeper understanding of data dependencies and the refinement of existing SDR techniques. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# Universal Online Convex Optimization: ラウンド当たり1ドルプロジェクション
Universal Online Convex Optimization with $1$ Projection per Round ( http://arxiv.org/abs/2405.19705v1 ) ライセンス: Link先を確認 | Wenhao Yang, Yibo Wang, Peng Zhao, Lijun Zhang, | (参考訳) 関数型の不確実性に対処するため、オンライン凸最適化(OCO)の最近の進歩は、複数の種類の凸関数に対して同時に極小レートを達成するユニバーサルアルゴリズムの開発を刺激している。
しかし、$T$ラウンドのオンライン問題の場合、最先端の手法は通常、各ラウンドのドメインに$O(\log T)$プロジェクションを実行する。
この論文は、Cutkosky and Orabona (2018) のブラックボックス削減にインスパイアされ、単純なドメイン上で定義された代理損失を用いて、1ドルプロジェクションしか必要としないユニバーサルOCOアルゴリズムを開発する。
専門家の助言で予測の枠組みを取り入れた上で,機能の種類ごとに専門家の集合を維持し,メタアルゴリズムを用いて予測を集約する。
私たちのアプローチの要点は、メタレグレットとエキスパート-レグレットへの後悔の革新的な分解から生まれた、強い凸関数のためのユニークな設計のエキスパート-ロスにあります。
本分析では,サロゲート損失に新たな光を当て,元の損失の後悔とサロゲート損失の相違点の厳密な検証と,強い凸条件下でのメタレグレトを慎重に制御することを可能にした。
このように、1ラウンドあたりの射影はわずか1ドルであり、一般凸、指数的凸、強凸関数を同時に最適に残す境界を確立する。
さらに,スムーズ性を活用するためにエキスパートロスを向上し,複数種類の凸関数と滑らか関数に対して,アルゴリズムが小さめの後悔を達成できることを実証した。
To address the uncertainty in function types, recent progress in online convex optimization (OCO) has spurred the development of universal algorithms that simultaneously attain minimax rates for multiple types of convex functions. However, for a $T$-round online problem, state-of-the-art methods typically conduct $O(\log T)$ projections onto the domain in each round, a process potentially time-consuming with complicated feasible sets. In this paper, inspired by the black-box reduction of Cutkosky and Orabona (2018), we employ a surrogate loss defined over simpler domains to develop universal OCO algorithms that only require $1$ projection. Embracing the framework of prediction with expert advice, we maintain a set of experts for each type of functions and aggregate their predictions via a meta-algorithm. The crux of our approach lies in a uniquely designed expert-loss for strongly convex functions, stemming from an innovative decomposition of the regret into the meta-regret and the expert-regret. Our analysis sheds new light on the surrogate loss, facilitating a rigorous examination of the discrepancy between the regret of the original loss and that of the surrogate loss, and carefully controlling meta-regret under the strong convexity condition. In this way, with only $1$ projection per round, we establish optimal regret bounds for general convex, exponentially concave, and strongly convex functions simultaneously. Furthermore, we enhance the expert-loss to exploit the smoothness property, and demonstrate that our algorithm can attain small-loss regret for multiple types of convex and smooth functions. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# 量子データハブにおけるブリッジングeResearch基盤と実験材料科学プロセス
Bridging eResearch Infrastructure and Experimental Materials Science Process in the Quantum Data Hub ( http://arxiv.org/abs/2405.19706v1 ) ライセンス: Link先を確認 | Amarnath Gupta, Shweta Purawat, Subhasis Dasgupta, Pratyush Karmakar, Elaine Chi, Ilkay Altintas, | (参考訳) 実験材料科学は、自動実験とAI技術によって著しく成長している。
統合された自律プラットフォームが登場し、生成モデル、ロボット工学、シミュレーション、および物質合成のための自動化システムを組み合わせた。
しかし、2つの大きな課題は、これらの技術へのアクセスを民主化し、アンダーリソースの科学者のためにアクセス可能なインフラを作ることである。
本稿では,量子材料を扱う研究者を対象としたコミュニティアクセス型研究基盤であるQuantum Data Hub (QDH)を紹介する。
QDHはNational Data Platformと統合され、FAIRの原則に準拠しながら、ユーザビリティ、ナビゲートビリティ、解釈可能性、タイムラインに関するUNITの新たな原則を提案している。
QDHはコラボレーションと拡張性を促進し、新しい研究者、機器、データをシームレスに統合する。
Experimental materials science is experiencing significant growth due to automated experimentation and AI techniques. Integrated autonomous platforms are emerging, combining generative models, robotics, simulations, and automated systems for material synthesis. However, two major challenges remain: democratizing access to these technologies and creating accessible infrastructure for under-resourced scientists. This paper introduces the Quantum Data Hub (QDH), a community-accessible research infrastructure aimed at researchers working with quantum materials. QDH integrates with the National Data Platform, adhering to FAIR principles while proposing additional UNIT principles for usability, navigability, interpretability, and timeliness. The QDH facilitates collaboration and extensibility, allowing seamless integration of new researchers, instruments, and data into the system. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# DeMamba: 数百万台のGenVideoベンチマークでAIが生成したビデオ検出
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark ( http://arxiv.org/abs/2405.19707v1 ) ライセンス: Link先を確認 | Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li, | (参考訳) 近年,映像生成技術は急速に進歩している。
ソーシャルメディアプラットフォームでの動画コンテンツの人気を考えると、これらのモデルは偽情報の拡散に対する懸念を強めている。
したがって、偽のAI生成ビデオを区別し、偽の情報による潜在的な害を軽減できる検出器の需要が高まっている。
しかし、最も先進的なビデオジェネレータからの大規模なデータセットの欠如は、そのような検出器の開発に障壁をもたらす。
このギャップに対処するために、最初のAI生成ビデオ検出データセットであるGenVideoを紹介する。
1)AIが生成した100万以上の実ビデオを含む大量のビデオ、(2)ビデオカテゴリと生成テクニックの幅広い範囲をカバーする、生成されたコンテンツと方法論の豊富な多様性。
そこで,本研究では,実世界のシナリオに合わせた2つの評価手法を提案する。クロスジェネレータビデオ分類タスクは,ジェネレータ上での訓練された検出器の一般化性を評価する。
さらに,デテール・マンバ (DeMamba, DeMamba) というプラグイン・アンド・プレイ・モジュールを導入し,時間次元と空間次元の矛盾を解析することにより,AI生成した映像を識別することで検出器の強化を図った。
我々の大規模な実験は、既存の検出器と比較して、DeMambaのGenVideoにおける優れた一般化性とロバスト性を示している。
我々は、GenVideoデータセットとDeMambaモジュールがAI生成ビデオ検出の分野を大幅に前進させると考えている。
コードとデータセットは \url{https://github.com/chenhaoxing/DeMamba} でアビリザブルになります。
Recently, video generation techniques have advanced rapidly. Given the popularity of video content on social media platforms, these models intensify concerns about the spread of fake information. Therefore, there is a growing demand for detectors capable of distinguishing between fake AI-generated videos and mitigating the potential harm caused by fake information. However, the lack of large-scale datasets from the most advanced video generators poses a barrier to the development of such detectors. To address this gap, we introduce the first AI-generated video detection dataset, GenVideo. It features the following characteristics: (1) a large volume of videos, including over one million AI-generated and real videos collected; (2) a rich diversity of generated content and methodologies, covering a broad spectrum of video categories and generation techniques. We conducted extensive studies of the dataset and proposed two evaluation methods tailored for real-world-like scenarios to assess the detectors' performance: the cross-generator video classification task assesses the generalizability of trained detectors on generators; the degraded video classification task evaluates the robustness of detectors to handle videos that have degraded in quality during dissemination. Moreover, we introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to enhance the detectors by identifying AI-generated videos through the analysis of inconsistencies in temporal and spatial dimensions. Our extensive experiments demonstrate DeMamba's superior generalizability and robustness on GenVideo compared to existing detectors. We believe that the GenVideo dataset and the DeMamba module will significantly advance the field of AI-generated video detection. Our code and dataset will be aviliable at \url{https://github.com/chenhaoxing/DeMamba}. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# テキストガイド画像編集における概念位置の自動配置と予測
Text Guided Image Editing with Automatic Concept Locating and Forgetting ( http://arxiv.org/abs/2405.19708v1 ) ライセンス: Link先を確認 | Jia Li, Lijie Hu, Zhixian He, Jingfeng Zhang, Tianhang Zheng, Di Wang, | (参考訳) テキストによる画像間拡散モデルの進歩により、画像編集において顕著な進歩が見られた。
しかし、継続する課題は、ユーザーが提供する追加のガイダンスに頼ることなく、テキスト命令に基づく画像にオブジェクトをシームレスに組み込むことである。
テキストと画像は本質的に異なるモダリティであり、言語を通して伝達される意味的な意図を完全に把握し、それを望まれる視覚的な修正に正確に翻訳することが困難である。
したがって、テキスト誘導画像編集モデルは、人間の期待と完全に一致しない残像特性を持つ世代を生成することが多い。
この課題に対処するために、モデルでは、提供されたテキスト編集プロンプトと実際の画像修正との間の切断から、画像内容を効果的に理解する必要がある。
本稿では,入力画像におけるターゲットプロンプトの構文木とシーン記述を比較して,画像中の潜在的なターゲット概念を効果的に検出する,Locate and Forget (LaF) という新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
With the advancement of image-to-image diffusion models guided by text, significant progress has been made in image editing. However, a persistent challenge remains in seamlessly incorporating objects into images based on textual instructions, without relying on extra user-provided guidance. Text and images are inherently distinct modalities, bringing out difficulties in fully capturing the semantic intent conveyed through language and accurately translating that into the desired visual modifications. Therefore, text-guided image editing models often produce generations with residual object attributes that do not fully align with human expectations. To address this challenge, the models should comprehend the image content effectively away from a disconnect between the provided textual editing prompts and the actual modifications made to the image. In our paper, we propose a novel method called Locate and Forget (LaF), which effectively locates potential target concepts in the image for modification by comparing the syntactic trees of the target prompt and scene descriptions in the input image, intending to forget their existence clues in the generated image. Compared to the baselines, our method demonstrates its superiority in text-guided image editing tasks both qualitatively and quantitatively. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# HINT: 限られた視点から完全な人間の神経表現を学習する
HINT: Learning Complete Human Neural Representations from Limited Viewpoints ( http://arxiv.org/abs/2405.19712v1 ) ライセンス: Link先を確認 | Alessandro Sanvito, Andrea Ramazzina, Stefanie Walz, Mario Bijelic, Felix Heide, | (参考訳) アニメーションのヒューマノイドアバターがなければ、拡張アプリケーションは不可能である。
同時に、現実のモノクラーハンドヘルドやロボットセンサーのセットアップから人間のレプリカを生成することは、ビューが限られているため困難である。
従来の研究は仮想アバターの実現可能性を示したが、対象者の360度視認が必要であった。
この問題に対処するために、限定的な視野角から詳細な人間のモデルを学習できる、NeRFベースのアルゴリズムであるHINTを提案する。
我々は、対称性の先行性、正規化制約を導入し、大規模な人間のデータセットからトレーニングキューを学習することで、これを実現する。
特に,人間の出現に先立って矢状面対称性を導入し,明快な3次元体モデルを用いて,人間のモデルの密度関数を直接監督し,非目視角に対する追加的な監視として,共学習された人間のデジタル化ネットワークを活用する。
その結果,従来の最先端アルゴリズムと比較してPSNRが15%以上向上した。
No augmented application is possible without animated humanoid avatars. At the same time, generating human replicas from real-world monocular hand-held or robotic sensor setups is challenging due to the limited availability of views. Previous work showed the feasibility of virtual avatars but required the presence of 360 degree views of the targeted subject. To address this issue, we propose HINT, a NeRF-based algorithm able to learn a detailed and complete human model from limited viewing angles. We achieve this by introducing a symmetry prior, regularization constraints, and training cues from large human datasets. In particular, we introduce a sagittal plane symmetry prior to the appearance of the human, directly supervise the density function of the human model using explicit 3D body modeling, and leverage a co-learned human digitization network as additional supervision for the unseen angles. As a result, our method can reconstruct complete humans even from a few viewing angles, increasing performance by more than 15% PSNR compared to previous state-of-the-art algorithms. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# SpecDec++: 適応候補長による投機的デコーディングの強化
SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths ( http://arxiv.org/abs/2405.19715v1 ) ライセンス: Link先を確認 | Kaixuan Huang, Xudong Guo, Mengdi Wang, | (参考訳) 投機的復号化は、より小さくより高速なドラフトモデルを利用することで、ターゲットとする大言語モデルの推論遅延を低減する。
その性能は、候補長、すなわち各ラウンドで検証するターゲットモデルの候補トークンの数であるハイパーパラメータKに依存する。
しかし、従来の手法ではKを選択するために単純なヒューリスティックスを使用しており、これは準最適性能をもたらす可能性がある。
候補長Kの選択について検討し、マルコフ決定過程として定式化する。
理論的には、このマルコフ決定過程の最適ポリシーはしきい値ポリシーの形式をとる、すなわち、拒絶される確率がしきい値を超えると、現在の憶測は停止して検証されるべきである。
この理論によって動機付けられたSpecDec++は、投機的復号法の拡張版で、ハエの候補長を適応的に決定する。
トレーニングされた受入予測ヘッドでドラフトモデルを拡張し、候補トークンの条件付き受入確率を予測する。
SpecDec++は、少なくとも1つのトークンが拒否される確率がしきい値を超えると、現在の憶測を止める。
SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。
我々の適応的手法は、Alpacaデータセット上で2.04倍の高速化を実現している(ベースライン投機復号法よりも7.2%改善されている)。
GSM8KとHumanEvalのデータセットでは、それぞれ2.26倍のスピードアップ(9.4%の改善)と2.23倍のスピードアップ(11.1%改善)を達成した。
Speculative decoding reduces the inference latency of a target large language model via utilizing a smaller and faster draft model. Its performance depends on a hyperparameter K -- the candidate length, i.e., the number of candidate tokens for the target model to verify in each round. However, previous methods often use simple heuristics to choose K, which may result in sub-optimal performance. We study the choice of the candidate length K and formulate it as a Markov Decision Process. We theoretically show that the optimal policy of this Markov decision process takes the form of a threshold policy, i.e., the current speculation should stop and be verified when the probability of getting a rejection exceeds a threshold value. Motivated by this theory, we propose SpecDec++, an enhanced version of speculative decoding that adaptively determines the candidate length on the fly. We augment the draft model with a trained acceptance prediction head to predict the conditional acceptance probability of the candidate tokens. SpecDec++ will stop the current speculation when the predicted probability that at least one token gets rejected exceeds a threshold. We implement SpecDec++ and apply it to the llama-2-chat 7B & 70B model pair. Our adaptive method achieves a 2.04x speedup on the Alpaca dataset (an additional 7.2% improvement over the baseline speculative decoding). On the GSM8K and HumanEval datasets, our method achieves a 2.26x speedup (9.4% improvement) and 2.23x speedup (11.1% improvement), respectively. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# 画像理解に基づく自己学習による大規模視覚言語モデルの強化
Enhancing Large Vision Language Models with Self-Training on Image Comprehension ( http://arxiv.org/abs/2405.19716v1 ) ライセンス: Link先を確認 | Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang, | (参考訳) 大規模視覚言語モデル(LVLM)は、大規模言語モデル(LLM)と事前訓練された視覚エンコーダを統合し、異なるクエリに対する画像入力を理解し、その後の推論を実行するためにモデルの知覚能力を活性化する。
この能力を改善するには、高品質の視覚言語データが必要です。
自己学習アプローチは、モデル自身の世代を活用してラベル付きデータの必要性を軽減するために、単一モード設定で有効である。
しかし、LVLMのユニークな視覚知覚と推論能力に関して、効果的な自己学習は依然として課題である。
そこで本稿では,画像理解のための自己学習手法であるSTIC(Self-Training on Image Comprehension)を紹介する。
まず、ラベルなし画像を用いた画像記述のための嗜好データセットを自己構築する。
優先応答はステップバイステッププロンプトを介して生成され、非優先応答は、破損した画像または誤解を招くプロンプトから生成される。
抽出した視覚情報に基づく推論をさらに自己改善するために、既存の命令チューニングデータのごく一部を再利用し、その自己生成画像記述をプロンプトに付加する。
本研究では,7つのベンチマークにおいてSTICの有効性を検証し,従来の手法よりも70%少ない教師付き微調整データを用いて,平均4.0%の性能向上を示した。
さらに、STICの様々なコンポーネントについて検討し、ラベルのない大量の画像を自己学習に活用する可能性を強調した。
コードとデータは公開されています。
Large vision language models (LVLMs) integrate large language models (LLMs) with pre-trained vision encoders, thereby activating the perception capability of the model to understand image inputs for different queries and conduct subsequent reasoning. Improving this capability requires high-quality vision-language data, which is costly and labor-intensive to acquire. Self-training approaches have been effective in single-modal settings to alleviate the need for labeled data by leveraging model's own generation. However, effective self-training remains a challenge regarding the unique visual perception and reasoning capability of LVLMs. To address this, we introduce Self-Training on Image Comprehension (STIC), which emphasizes a self-training approach specifically for image comprehension. First, the model self-constructs a preference dataset for image descriptions using unlabeled images. Preferred responses are generated through a step-by-step prompt, while dis-preferred responses are generated from either corrupted images or misleading prompts. To further self-improve reasoning on the extracted visual information, we let the model reuse a small portion of existing instruction-tuning data and append its self-generated image descriptions to the prompts. We validate the effectiveness of STIC across seven different benchmarks, demonstrating substantial performance gains of 4.0% on average while using 70% less supervised fine-tuning data than the current method. Further studies investigate various components of STIC and highlight its potential to leverage vast quantities of unlabeled images for self-training. Code and data are made publicly available. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# LED: イベントカメラをデノイングする大規模現実世界のペアリングデータセット
LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising ( http://arxiv.org/abs/2405.19718v1 ) ライセンス: Link先を確認 | Yuxing Duan, Shihan Peng, Lin Zhu, Wei Zhang, Yi Chang, Sheng Zhong, Luxin Yan, | (参考訳) イベントカメラは、特に低しきい値や低照度といった困難な状況において、ノイズ干渉に悩まされる一方、動的なシーン情報をキャプチャする上で大きな利点がある。
しかし、既存の研究のほとんどは、現実的な複雑なシナリオにおけるイベントカメラの応用を妨げる、穏やかな状況に焦点を当てている。
この制限に対処し、フィールドを前進させるために、我々は、高解像度(1200*680)イベントストリームの18K秒の3Kシーケンスを含む、新しいペア化された実世界のイベントデノゲーションデータセット(LED)を構築し、他のものとの3つの顕著な区別を示す:多様なノイズレベルとシーン、高解像度、高品質GT。
具体的には、ステップパラメータと多様なシナリオによる様々な照明を含んでいる。
さらに、ノイズイベントの不整合性や信号イベントの整合性から、同質な二重事象を用いた新しい効果的なデノナイジングフレームワーク(DED)を提案し、ノイズを生から分離したGTを生成する。
さらに,Leaky-Integrate-and-Fire(LIF)ニューロンをダイナミックしきい値に利用して,バイオインスパイアされたベースラインを設計し,正確な復調を実現する。
実験結果から,提案手法の異なるデータセットに対する顕著な性能を示す。データセットとコードはhttps://github.com/Yee-Sing/led。
Event camera has significant advantages in capturing dynamic scene information while being prone to noise interference, particularly in challenging conditions like low threshold and low illumination. However, most existing research focuses on gentle situations, hindering event camera applications in realistic complex scenarios. To tackle this limitation and advance the field, we construct a new paired real-world event denoising dataset (LED), including 3K sequences with 18K seconds of high-resolution (1200*680) event streams and showing three notable distinctions compared to others: diverse noise levels and scenes, larger-scale with high-resolution, and high-quality GT. Specifically, it contains stepped parameters and varying illumination with diverse scenarios. Moreover, based on the property of noise events inconsistency and signal events consistency, we propose a novel effective denoising framework(DED) using homogeneous dual events to generate the GT with better separating noise from the raw. Furthermore, we design a bio-inspired baseline leveraging Leaky-Integrate-and-Fire (LIF) neurons with dynamic thresholds to realize accurate denoising. The experimental results demonstrate that the remarkable performance of the proposed approach on different datasets.The dataset and code are at https://github.com/Yee-Sing/led. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# QClusformer: 教師なしビジュアルクラスタリングのための量子トランスフォーマーベースのフレームワーク
QClusformer: A Quantum Transformer-based Framework for Unsupervised Visual Clustering ( http://arxiv.org/abs/2405.19722v1 ) ライセンス: Link先を確認 | Xuan-Bac Nguyen, Hoang-Quan Nguyen, Samuel Yen-Chi Chen, Samee U. Khan, Hugh Churchill, Khoa Luu, | (参考訳) コンピュータビジョンの基盤である教師なしの視覚クラスタリングは、何十年にもわたって研究され、多くの視覚タスクにおいて大きな成果を上げてきた。
しかし、これらのアルゴリズムは大量のラベルのないデータに直面したとき、かなりの計算要求を伴う。
逆にQuantum Computingは、大規模データベースを扱う際の教師なしアルゴリズムの高速化を約束している。
本研究では,教師なし視覚クラスタリング問題に対処するためにQuantum Machineを活用したTransformerベースのフレームワークであるQClusformerを紹介する。
具体的には、量子ハードウェア上での実行を可能にするために、自己アテンションモジュールとトランスフォーマーブロックを含むトランスフォーマーアーキテクチャを量子の観点から設計する。
さらに、教師なし視覚クラスタリングタスクに適したTransformerアーキテクチャに基づく変種であるQClusformerを提案する。
これらの要素をエンドツーエンドのフレームワークに統合することで、QClusformerは古典的なコンピュータ上で動作する従来の手法より一貫して優れている。
MS-Celeb-1MやDeepFashionを含む様々なベンチマークにおける実証的な評価は、最先端の手法と比較してQClusformerの優れた性能を裏付けている。
Unsupervised vision clustering, a cornerstone in computer vision, has been studied for decades, yielding significant outcomes across numerous vision tasks. However, these algorithms involve substantial computational demands when confronted with vast amounts of unlabeled data. Conversely, Quantum computing holds promise in expediting unsupervised algorithms when handling large-scale databases. In this study, we introduce QClusformer, a pioneering Transformer-based framework leveraging Quantum machines to tackle unsupervised vision clustering challenges. Specifically, we design the Transformer architecture, including the self-attention module and transformer blocks, from a Quantum perspective to enable execution on Quantum hardware. In addition, we present QClusformer, a variant based on the Transformer architecture, tailored for unsupervised vision clustering tasks. By integrating these elements into an end-to-end framework, QClusformer consistently outperforms previous methods running on classical computers. Empirical evaluations across diverse benchmarks, including MS-Celeb-1M and DeepFashion, underscore the superior performance of QClusformer compared to state-of-the-art methods. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# 長文ビデオ質問応答のためのグローバルセマンティクスの符号化と制御
Encoding and Controlling Global Semantics for Long-form Video Question Answering ( http://arxiv.org/abs/2405.19723v1 ) ライセンス: Link先を確認 | Thong Thanh Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu, | (参考訳) ビデオ質問応答( videoQA)システムを構築するためには,長時間ビデオに対して効果的に回答を求めることが不可欠である。
従来の手法では、長いビデオからフレームや領域を適応的に選択して計算を保存していた。
しかし、これはビデオのシーケンス全体に対する推論に失敗し、サブ最適パフォーマンスに繋がる。
この問題に対処するため,マルチモーダルトランスフォーマに状態空間層(SSL)を導入し,映像のグローバルセマンティクスを効率的に統合し,フレームや領域選択モジュールによる映像情報の損失を軽減する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
制御性をさらに高めるため,グローバルな意味論を促進するために,クロスモーダルな構成合同(C^3)の目的を導入する。
Ego-QAとMAD-QAはそれぞれ17.5分と1.9時間というかなり長いビデオを含む2つの新しいベンチマークを構築した。
大規模な実験は、これらの新しいデータセットと既存のデータセットに対する我々のフレームワークの優位性を実証している。
Seeking answers effectively for long videos is essential to build video question answering (videoQA) systems. Previous methods adaptively select frames and regions from long videos to save computations. However, this fails to reason over the whole sequence of video, leading to sub-optimal performance. To address this problem, we introduce a state space layer (SSL) into multi-modal Transformer to efficiently integrate global semantics of the video, which mitigates the video information loss caused by frame and region selection modules. Our SSL includes a gating unit to enable controllability over the flow of global semantics into visual representations. To further enhance the controllability, we introduce a cross-modal compositional congruence (C^3) objective to encourage global semantics aligned with the question. To rigorously evaluate long-form videoQA capacity, we construct two new benchmarks Ego-QA and MAD-QA featuring videos of considerably long length, i.e. 17.5 minutes and 1.9 hours, respectively. Extensive experiments demonstrate the superiority of our framework on these new as well as existing datasets. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# Quantum Visual Feature Encoding Revisited
Quantum Visual Feature Encoding Revisited ( http://arxiv.org/abs/2405.19725v1 ) ライセンス: Link先を確認 | Xuan-Bac Nguyen, Hoang-Quan Nguyen, Hugh Churchill, Samee U. Khan, Khoa Luu, | (参考訳) 量子機械学習はしばらく前から導入されてきたが、コンピュータビジョンへの応用はまだ限られている。
そこで本稿では,量子機械学習の初期段階である量子視覚符号化戦略を再考する。
根本原因を調べた結果,既存の量子符号化設計では符号化処理後の視覚的特徴の情報保存に失敗し,量子機械学習モデルの学習過程を複雑化することがわかった。
特に、QIG(Quantum Information Gap)と呼ばれるこの問題は、古典的特徴と対応する量子的特徴の間の情報のギャップにつながる。
本稿では、量子機械学習アルゴリズムの性能に直接影響するため、QIGの意義を実証し、裏付ける理論的証明と実践的な実証を行う。
この課題に対処するために、量子情報保存(QIP)と呼ばれるシンプルだが効率的な新しい損失関数を導入し、このギャップを最小化し、量子機械学習アルゴリズムの性能を向上する。
大規模な実験により,提案手法の有効性を検証し,現在の手法と比較して優れた性能を示し,量子モデリングにおける最先端の成果を一貫して達成した。
Although quantum machine learning has been introduced for a while, its applications in computer vision are still limited. This paper, therefore, revisits the quantum visual encoding strategies, the initial step in quantum machine learning. Investigating the root cause, we uncover that the existing quantum encoding design fails to ensure information preservation of the visual features after the encoding process, thus complicating the learning process of the quantum machine learning models. In particular, the problem, termed "Quantum Information Gap" (QIG), leads to a gap of information between classical and corresponding quantum features. We provide theoretical proof and practical demonstrations of that found and underscore the significance of QIG, as it directly impacts the performance of quantum machine learning algorithms. To tackle this challenge, we introduce a simple but efficient new loss function named Quantum Information Preserving (QIP) to minimize this gap, resulting in enhanced performance of quantum machine learning algorithms. Extensive experiments validate the effectiveness of our approach, showcasing superior performance compared to current methodologies and consistently achieving state-of-the-art results in quantum modeling. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# ビデオ拡散のストリーミング: 拡散モデルによるオンラインビデオ編集
Streaming Video Diffusion: Online Video Editing with Diffusion Models ( http://arxiv.org/abs/2405.19726v1 ) ライセンス: Link先を確認 | Feng Chen, Zhen Yang, Bohan Zhuang, Qi Wu, | (参考訳) 本稿では,時間的一貫性を維持しつつ,フレームを編集するオンラインビデオ編集という新しいタスクを提案する。
既存のオフラインビデオ編集とは異なり、すべてのフレームが事前に確立されアクセス可能であると仮定すると、オンラインビデオ編集は、ライブストリーミングやオンラインチャットのような現実のアプリケーションに適合し、(1)高速連続的なステップ推論、(2)長期時間モデリング、(3)ゼロショットビデオ編集機能を必要とする。
これらの問題を解決するために,コンパクトな空間認識時相連続処理をオフザシェルフ安定拡散に組み込んだストリームビデオ拡散(SVDiff, Streaming Video Diffusion)を提案する。
このシンプルで効果的なセットアップにより、幅広いビデオを実行し、各ストリーミングフレームを時間的コヒーレンスで編集できる単一のモデルを得ることができる。
実験の結果,本モデルでは,高画質の長大な動画編集が可能であり,実時間推定速度は15.2 FPSで,解像度は512x512であることがわかった。
We present a novel task called online video editing, which is designed to edit \textbf{streaming} frames while maintaining temporal consistency. Unlike existing offline video editing assuming all frames are pre-established and accessible, online video editing is tailored to real-life applications such as live streaming and online chat, requiring (1) fast continual step inference, (2) long-term temporal modeling, and (3) zero-shot video editing capability. To solve these issues, we propose Streaming Video Diffusion (SVDiff), which incorporates the compact spatial-aware temporal recurrence into off-the-shelf Stable Diffusion and is trained with the segment-level scheme on large-scale long videos. This simple yet effective setup allows us to obtain a single model that is capable of executing a broad range of videos and editing each streaming frame with temporal coherence. Our experiments indicate that our model can edit long, high-quality videos with remarkable results, achieving a real-time inference speed of 15.2 FPS at a resolution of 512x512. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# 振り付け理解のための自動ダンスビデオセグメンテーション
Automatic Dance Video Segmentation for Understanding Choreography ( http://arxiv.org/abs/2405.19727v1 ) ライセンス: Link先を確認 | Koki Endo, Shuhei Tsuchida, Tsukasa Fukusato, Takeo Igarashi, | (参考訳) ダンスビデオを短い動きに分割することは、ダンス振付を容易に理解するための一般的な方法である。
しかし、現在手作業で行われており、専門家によるかなりの労力を要する。
つまり、多くのダンスビデオがソーシャルメディア(例えばTikTokやYouTube)で利用可能であるとしても、特に初心者がダンス振付の練習のために短いビデオセグメントをさりげなく見ることは難しい。
本稿では,ダンスビデオを自動的に各動作に分割する手法を提案する。
ダンスビデオが入力として与えられると、まず視覚的特徴と音声的特徴を抽出し、前者はビデオ内のダンサーのキーポイントから計算し、後者はビデオ内の音楽のメルスペクトルから計算する。
次に、これらの特徴を時間畳み込みネットワーク(TCN)に渡し、ネットワーク出力のピークを抽出してセグメンテーションポイントを推定する。
トレーニングデータセットを構築するために,AIST Dance Video Databaseのセグメンテーションポイントをアノテートした。
評価実験により,提案手法(視覚的特徴と音声的特徴を組み合わせたもの)は,高い精度でセグメンテーションポイントを推定できることが示唆された。
さらに,提案手法を用いてダンサーの振付練習を支援するアプリケーションを開発した。
Segmenting dance video into short movements is a popular way to easily understand dance choreography. However, it is currently done manually and requires a significant amount of effort by experts. That is, even if many dance videos are available on social media (e.g., TikTok and YouTube), it remains difficult for people, especially novices, to casually watch short video segments to practice dance choreography. In this paper, we propose a method to automatically segment a dance video into each movement. Given a dance video as input, we first extract visual and audio features: the former is computed from the keypoints of the dancer in the video, and the latter is computed from the Mel spectrogram of the music in the video. Next, these features are passed to a Temporal Convolutional Network (TCN), and segmentation points are estimated by picking peaks of the network output. To build our training dataset, we annotate segmentation points to dance videos in the AIST Dance Video Database, which is a shared database containing original street dance videos with copyright-cleared dance music. The evaluation study shows that the proposed method (i.e., combining the visual and audio features) can estimate segmentation points with high accuracy. In addition, we developed an application to help dancers practice choreography using the proposed method. | 翻訳日:2024-05-31 17:57:08 公開日:2024-05-30 |
# 強化学習による医療予測モニタリングにおける動的特徴選択
Dynamic feature selection in medical predictive monitoring by reinforcement learning ( http://arxiv.org/abs/2405.19729v1 ) ライセンス: Link先を確認 | Yutong Chen, Jiandong Gao, Ji Wu, | (参考訳) 本稿では,多変量時系列シナリオにおける動的特徴選択について検討する。
既存の機能選択手法の多くは、静的データ用に設計されたため、時系列情報を効果的に活用するのに不足している。
本手法は,各患者に対して時間変化のある特徴サブセットの選択を可能にすることで,この制限に対処する。
具体的には,最大コスト制約下での政策最適化に強化学習を用いる。
その後、トレーニングされたポリシーによって生成された合成データを用いて予測モデルを更新する。
我々の手法は、微分不可能な予測モデルとシームレスに統合できる。
退行と分類作業を含む大規模臨床データセットについて実験を行った。
その結果,提案手法は,特にコスト制限の厳しい場合において,強い特徴選択ベースラインよりも優れていることがわかった。
論文が受理されれば、コードはリリースされる。
In this paper, we investigate dynamic feature selection within multivariate time-series scenario, a common occurrence in clinical prediction monitoring where each feature corresponds to a bio-test result. Many existing feature selection methods fall short in effectively leveraging time-series information, primarily because they are designed for static data. Our approach addresses this limitation by enabling the selection of time-varying feature subsets for each patient. Specifically, we employ reinforcement learning to optimize a policy under maximum cost restrictions. The prediction model is subsequently updated using synthetic data generated by trained policy. Our method can seamlessly integrate with non-differentiable prediction models. We conducted experiments on a sizable clinical dataset encompassing regression and classification tasks. The results demonstrate that our approach outperforms strong feature selection baselines, particularly when subjected to stringent cost limitations. Code will be released once paper is accepted. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 空間データインテリジェンスの基礎モデルに関する研究 : 中国における空間データインテリジェンスの戦略的発展に関する2024年の白書
Research on Foundation Model for Spatial Data Intelligence: China's 2024 White Paper on Strategic Development of Spatial Data Intelligence ( http://arxiv.org/abs/2405.19730v1 ) ライセンス: Link先を確認 | Shaohua Wang, Xing Xie, Yong Li, Danhuai Guo, Zhi Cai, Yu Liu, Yang Yue, Xiao Pan, Feng Lu, Huayi Wu, Zhipeng Gui, Zhiming Ding, Bolong Zheng, Fuzheng Zhang, Tao Qin, Jingyuan Wang, Chuang Tao, Zhengchao Chen, Hao Lu, Jiayi Li, Hongyang Chen, Peng Yue, Wenhao Yu, Yao Yao, Leilei Sun, Yong Zhang, Longbiao Chen, Xiaoping Du, Xiang Li, Xueying Zhang, Kun Qin, Zhaoya Gong, Weihua Dong, Xiaofeng Meng, | (参考訳) 本報告では、これらのモデルの原理、手法、最先端の応用を探求する、空間データインテリジェントな大規模モデルに焦点を当てる。
これは、空間データインテリジェントな大規模モデルの定義、開発履歴、現状、トレンド、そしてそれらが直面する課題について、詳細な議論を提供する。
本報告では, 都市環境, 航空宇宙リモートセンシング, 地理, 交通, その他のシナリオにおける空間データ知能大規模モデルの重要技術とその応用を体系的に解明する。
さらに,都市開発,マルチモーダルシステム,リモートセンシング,スマートトランスポート,資源環境といったテーマにおける空間データインテリジェントな大規模モデルの適用事例をまとめた。
最後に、このレポートは、空間データインテリジェントな大規模モデルの開発展望の概要と展望をまとめて締めくくっている。
This report focuses on spatial data intelligent large models, delving into the principles, methods, and cutting-edge applications of these models. It provides an in-depth discussion on the definition, development history, current status, and trends of spatial data intelligent large models, as well as the challenges they face. The report systematically elucidates the key technologies of spatial data intelligent large models and their applications in urban environments, aerospace remote sensing, geography, transportation, and other scenarios. Additionally, it summarizes the latest application cases of spatial data intelligent large models in themes such as urban development, multimodal systems, remote sensing, smart transportation, and resource environments. Finally, the report concludes with an overview and outlook on the development prospects of spatial data intelligent large models. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# LLM触媒によるグラディエント最適化
Two Optimizers Are Better Than One: LLM Catalyst for Enhancing Gradient-Based Optimization ( http://arxiv.org/abs/2405.19732v1 ) ライセンス: Link先を確認 | Zixian Guo, Ming Liu, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo, | (参考訳) スキルの習得は一般的に、実践的な実践経験とインストラクターによる洞察に富んだハイレベルガイダンスの両方に依存します。
この戦略は複雑な非凸最適化問題の解決にも有効か?
ここでは、共通の勾配ベースのオプティマイザが規律のあるドーラのように動作し、各ステップで局所的に最適な更新を行う。
近年の手法では,大規模言語モデル(LLM)を用いて,高レベルのインストラクターと同様,自然言語命令から推論することで,具体的問題の解法を最適化している。
本稿では,これら2つのオプティマイザが相互補完的であることを示し,協調最適化手法を提案する。
勾配ベースオプティマイザとLLMベースのオプティマイザをインターリーブ方式で組み合わせる。
我々は,勾配に基づく最適化中に記録されたタスク記述とタイムリーな最適化トラジェクトリを用いてLCMを指示する。
勾配最適化の次の段階における再起動点として, LLMによる推定結果を用いる。
局所的な厳密な勾配に基づく最適化手法と高レベルな導出性LLMに基づく最適化手法を併用することにより、競争ベースライン・プロンプト・チューニング法よりも常に改善が得られている。
本研究は,従来の勾配最適化の相乗効果とLLMの推論能力を示すものである。
コードはhttps://github.com/guozix/LLM-catalystでリリースされる。
Learning a skill generally relies on both practical experience by doer and insightful high-level guidance by instructor. Will this strategy also work well for solving complex non-convex optimization problems? Here, a common gradient-based optimizer acts like a disciplined doer, making locally optimal update at each step. Recent methods utilize large language models (LLMs) to optimize solutions for concrete problems by inferring from natural language instructions, akin to a high-level instructor. In this paper, we show that these two optimizers are complementary to each other, suggesting a collaborative optimization approach. The gradient-based optimizer and LLM-based optimizer are combined in an interleaved manner. We instruct LLMs using task descriptions and timely optimization trajectories recorded during gradient-based optimization. Inferred results from LLMs are used as restarting points for the next stage of gradient optimization. By leveraging both the locally rigorous gradient-based optimizer and the high-level deductive LLM-based optimizer, our combined optimization method consistently yields improvements over competitive baseline prompt tuning methods. Our results demonstrate the synergistic effect of conventional gradient-based optimization and the inference ability of LLMs. The code is released at https://github.com/guozix/LLM-catalyst. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# リモートセンシングシーンにおける点雲セマンティックセマンティックセグメンテーションのための双変形点畳み込み
Twin Deformable Point Convolutions for Point Cloud Semantic Segmentation in Remote Sensing Scenes ( http://arxiv.org/abs/2405.19735v1 ) ライセンス: Link先を確認 | Yong-Qiang Mao, Hanbo Bi, Xuexue Li, Kaiqiang Chen, Zhirui Wang, Xian Sun, Kun Fu, | (参考訳) リモートセンシング分野のポイントクラウド処理におけるディープラーニング技術の適用により、ポイントクラウドセグメンテーションは近年研究ホットスポットとなり、現実世界の3D、スマートシティ、その他の分野に適用できる。
既存のソリューションは前例のない進歩を遂げているが、緯度、経度、高度に応じて厳密に配置されたリモートセンシングフィールドにおける点雲の性質を無視しており、遠隔センシングフィールドにおける点雲のセグメンテーションに非常に便利である。
この特性を巧みに考察するために、緯度-経度平面における変形可能なサンプリング点と高度方向の学習により適応的な特徴学習を実現することを目的とした、双変形点畳み込み演算子(TDConvs)を提案する。
まず、緯度-経度平面の特性をモデル化するために、経度-経度方向のシリンダー状格子を構築して2次元シリンダーマップを生成するシリンダーワイズ・デフォルマブル・ポイント・コンボリューション(CyDConv)演算子を提案する。
さらに、緯度面の特徴と空間幾何学的特徴をよりよく統合するために、抽出した緯度面の特徴と空間幾何学的特徴をマルチスケールで融合させ、異なるスケールの隣接点特徴を集約することで実現した。
さらに、球面格子構造を構築し、高度方向の特性をモデル化することを目的として、3次元空間におけるサンプリングポイントを適応的にオフセットするために、球面回りの変形点畳み込み(SpDConv)演算子を導入する。
既存の人気ベンチマークの実験では、我々のTDConvsは、最先端の手法よりも優れたセグメンテーション性能を達成していると結論付けている。
Thanks to the application of deep learning technology in point cloud processing of the remote sensing field, point cloud segmentation has become a research hotspot in recent years, which can be applied to real-world 3D, smart cities, and other fields. Although existing solutions have made unprecedented progress, they ignore the inherent characteristics of point clouds in remote sensing fields that are strictly arranged according to latitude, longitude, and altitude, which brings great convenience to the segmentation of point clouds in remote sensing fields. To consider this property cleverly, we propose novel convolution operators, termed Twin Deformable point Convolutions (TDConvs), which aim to achieve adaptive feature learning by learning deformable sampling points in the latitude-longitude plane and altitude direction, respectively. First, to model the characteristics of the latitude-longitude plane, we propose a Cylinder-wise Deformable point Convolution (CyDConv) operator, which generates a two-dimensional cylinder map by constructing a cylinder-like grid in the latitude-longitude direction. Furthermore, to better integrate the features of the latitude-longitude plane and the spatial geometric features, we perform a multi-scale fusion of the extracted latitude-longitude features and spatial geometric features, and realize it through the aggregation of adjacent point features of different scales. In addition, a Sphere-wise Deformable point Convolution (SpDConv) operator is introduced to adaptively offset the sampling points in three-dimensional space by constructing a sphere grid structure, aiming at modeling the characteristics in the altitude direction. Experiments on existing popular benchmarks conclude that our TDConvs achieve the best segmentation performance, surpassing the existing state-of-the-art methods. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 強化学習における固有ダイナミクス特性によるタスク関連シーケンス表現の学習
Learning Task-relevant Sequence Representations via Intrinsic Dynamics Characteristics in Reinforcement Learning ( http://arxiv.org/abs/2405.19736v1 ) ライセンス: Link先を確認 | Dayang Liang, Jinyang Lai, Yunlong Liu, | (参考訳) タスク関連状態表現の学習は,視覚深層学習におけるシーン一般化の解決に不可欠である。
従来の作業は、行動類似度メトリクスを通じて、観察からタスク関連状態情報を抽出する要素(例えば、報酬や行動)を導入して、自己監督的な補助的な学習者を確立するのが一般的である。
しかしながら、これらの手法は、正確な表現を学習するのに不可欠な要素(例えば、ダイナミクスの関係)間の固有の関係を無視し、また、長期的ダイナミクス遷移における短期的な類似したタスク/行動情報の識別を妨げるシングルステップのメトリクスにも制限される。
そこで本研究では,DRLフレーム上の固有動的特徴駆動シーケンス表現学習法(DSR)を提案する。
具体的には、基礎となるシステムにおける状態遷移の事実に触発されて、状態遷移に関連する力学方程式をモデル化することでエンコーダの最適化を制約し、潜在符号化情報を状態遷移プロセスを満たすように促し、状態空間とノイズ空間を区別する。
さらに、動的制約に基づいて類似したタスクを符号化する能力を洗練させるために、DSRは配列要素の周波数領域と多段階予測の観点から、固有力学方程式関係を逐次モデル化する。
最後に、実験結果から、DSRはDistracting DMControl Benchmarkにおいて、バックボーンベースラインに対して平均78.9%の大幅なパフォーマンス向上を達成したことが示されている。
さらに,CARLAシミュレータにおける実世界の自律走行タスクにおいて,最高の性能を達成できることが示唆された。
さらに,t-SNE視覚化の質的解析結果から,視覚タスクにおける表現能力に優れることを確認した。
Learning task-relevant state representations is crucial to solving the problem of scene generalization in visual deep reinforcement learning. Prior work typically establishes a self-supervised auxiliary learner, introducing elements (e.g., rewards and actions) to extract task-relevant state information from observations through behavioral similarity metrics. However, the methods often ignore the inherent relationships between the elements (e.g., dynamics relationships) that are essential for learning accurate representations, and they are also limited to single-step metrics, which impedes the discrimination of short-term similar task/behavior information in long-term dynamics transitions. To solve the issues, we propose an intrinsic dynamic characteristics-driven sequence representation learning method (DSR) over a common DRL frame. Concretely, inspired by the fact of state transition in the underlying system, it constrains the optimization of the encoder via modeling the dynamics equations related to the state transition, which prompts the latent encoding information to satisfy the state transition process and thereby distinguishes state space and noise space. Further, to refine the ability of encoding similar tasks based on dynamics constraints, DSR also sequentially models inherent dynamics equation relationships from the perspective of sequence elements' frequency domain and multi-step prediction. Finally, experimental results show that DSR has achieved a significant performance boost in the Distracting DMControl Benchmark, with an average of 78.9% over the backbone baseline. Further results indicate that it also achieves the best performance in real-world autonomous driving tasks in the CARLA simulator. Moreover, the qualitative analysis results of t-SNE visualization validate that our method possesses superior representation ability on visual tasks. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 想像を超えて: 蒸留における2重鎖から重要な推論ステップを学ぶ
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation ( http://arxiv.org/abs/2405.19737v1 ) ライセンス: Link先を確認 | Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu, | (参考訳) 大規模言語モデル(LLM)がスケールアップし、強力なCoT(Chain-of-Thoughts)推論能力を得るにつれ、実用的なリソース制約により、これらの機能をよりコンパクトなSLM(Smaller Language Models)へと拡張する努力が進められる。
CoTsは主に単純な推論形式で構成されており、結論に真に影響を及ぼす重要な推論ステップの小さな割合($\approx 4.7\%$)がある。
しかし、従来の蒸留法では教師による微調整の学生SLMは、教師のLSMが生成した正しいCoTデータにのみ適用され、結果として、教師の推論フォームを模倣し、これらのステップでエラーや省略を行う代わりに、重要な推論ステップを学ぶのに苦労する。
これらの問題に対処するために、正しい解によるミス分析が成功や失敗につながる重要なステップをしばしば明らかにする人間の学習に類似して、簡単な微調整ではなく、SLMの学習の重要な推論ステップを支援する新しい手法であるmistak\textbf{E}-\textbf{D}riven key reason\textbf{I}ng step distilla\textbf{T}ion (\textbf{EDIT})を提案する。
まず,CoTsにおけるこれらの重要なステップを明らかにするために,類似の推論経路を持つ2つのCoTsデータを生成するための特定のプロンプトを設計する。
次に、2つのCoTデータに最小編集距離アルゴリズムを適用し、これらの重要なステップを探索し、これらのステップの確率を最適化する。
大規模な実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
さらに分析したところ、EDITはより正確なキー推論ステップで高品質なCoTを生成することができることがわかった。
さらに,2つのCoTs\footnote{Codeの知識や数理計算エラーよりも,論理的エラーの方がEDITのメリットが高いことも確認した。
As Large Language Models (LLMs) scale up and gain powerful Chain-of-Thoughts (CoTs) reasoning abilities, practical resource constraints drive efforts to distill these capabilities into more compact Smaller Language Models (SLMs). We find that CoTs consist mainly of simple reasoning forms, with a small proportion ($\approx 4.7\%$) of key reasoning steps that truly impact conclusions. However, previous distillation methods typically involve supervised fine-tuning student SLMs only on correct CoTs data produced by teacher LLMs, resulting in students struggling to learn the key reasoning steps, instead imitating the teacher's reasoning forms and making errors or omissions on these steps. To address these issues, drawing an analogy to human learning, where analyzing mistakes according to correct solutions often reveals the crucial steps leading to successes or failures, we propose mistak\textbf{E}-\textbf{D}riven key reason\textbf{I}ng step distilla\textbf{T}ion (\textbf{EDIT}), a novel method that further aids SLMs learning key reasoning steps rather than mere simple fine-tuning. Firstly, to expose these crucial steps in CoTs, we design specific prompts to generate dual CoTs data with similar reasoning paths but divergent conclusions. Then, we apply the minimum edit distance algorithm on the dual CoTs data to locate these key steps and optimize the likelihood of these steps. Extensive experiments validate the effectiveness of EDIT across both in-domain and out-of-domain benchmark reasoning datasets. Further analysis shows that EDIT can generate high-quality CoTs with more correct key reasoning steps. Notably, we also explore how different mistake patterns affect performance and find that EDIT benefits more from logical errors than from knowledge or mathematical calculation errors in dual CoTs\footnote{Code can be found at \url{https://github.com/C-W-D/EDIT}}. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# PertEval: 知識不変摂動を用いたLLMの真の知識能力の実現
PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations ( http://arxiv.org/abs/2405.19740v1 ) ライセンス: Link先を確認 | Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin, | (参考訳) 専門家が設計したクローズドなベンチマークは、大規模言語モデル(LLM)の知識能力を評価する上で重要なツールである。
広く利用されているにもかかわらず、限られたテストシナリオとデータ汚染の避けられないリスクのために、信頼性に関する懸念が高まっている。
これを修正するために,LLMの知識能力の詳細な探索のために考案されたPertEvalを,知識不変な摂動を通じて提示する。
これらの摂動は、静的ベンチマークからオンザフライテストサンプルを生成するために人間のような再帰技術を使用し、無関係な詳細を変更しながら、慎重に知識クリティカルな内容を保持する。
さらに,本ツールキットは,LLMの真の知識能力を評価するために,生対摂動テストセットの性能を比較する一連の遷移解析を含む。
PertEvalを用いて6つの最先端LCMを再評価する。
その結果, GPT-4 に対する絶対 21% の過大評価を含む, 生のベンチマーク上での LLM の膨らませ性能が顕著であった。
さらに,不規則な応答パターン解析により,PertEval は LLMs の不確かさを特異な知識に保ち,ロート記憶によって解決され,性能が膨らませることが判明した。
また、PertEvalによる詳細な遷移解析により、既存のLLMの知識習得の弱点を解明し、洗練の進展を導くことができる。
これらの知見を踏まえると、PertEvalは、どのベンチマークと併用しても、LLMの真の知識能力を明らかにする重要なツールとして機能し、より信頼性の高いLCM評価に向けた重要な一歩となると仮定する。
Expert-designed close-ended benchmarks serve as vital tools in assessing the knowledge capacity of large language models (LLMs). Despite their widespread use, concerns have mounted regarding their reliability due to limited test scenarios and an unavoidable risk of data contamination. To rectify this, we present PertEval, a toolkit devised for in-depth probing of LLMs' knowledge capacity through knowledge-invariant perturbations. These perturbations employ human-like restatement techniques to generate on-the-fly test samples from static benchmarks, meticulously retaining knowledge-critical content while altering irrelevant details. Our toolkit further includes a suite of transition analyses that compare performance on raw vs. perturbed test sets to precisely assess LLMs' genuine knowledge capacity. Six state-of-the-art LLMs are re-evaluated using PertEval. Results reveal significantly inflated performance of the LLMs on raw benchmarks, including an absolute 21% overestimation for GPT-4. Additionally, through a nuanced response pattern analysis, we discover that PertEval retains LLMs' uncertainty to specious knowledge, potentially being resolved through rote memorization and leading to inflated performance. We also find that the detailed transition analyses by PertEval could illuminate weaknesses in existing LLMs' knowledge mastery and guide the development of refinement. Given these insights, we posit that PertEval can act as an essential tool that, when applied alongside any close-ended benchmark, unveils the true knowledge capacity of LLMs, marking a significant step toward more trustworthy LLM evaluation. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# May the Dance Be with You: Dance Generation Framework for non-Humanoids
May the Dance be with You: Dance Generation Framework for Non-Humanoids ( http://arxiv.org/abs/2405.19743v1 ) ライセンス: Link先を確認 | Hyemin Ahn, | (参考訳) 我々は、音楽から視覚リズムを形成する動きとしてダンスを仮定し、光学的流れから視覚リズムを知覚することができる。
エージェントが視覚リズムと音楽の関係を認識することができれば、動きを生成して音楽にマッチする視覚リズムを生成することで踊ることができる。
これに基づいて,人間以外のエージェントが人間のビデオからダンスの仕方を学ぶための枠組みを提案する。
この枠組みは,(1)光学的流れ(視覚リズム)と音楽の関係を人間のダンスビデオから知覚する報酬モデル,(2)その報酬モデルに基づく非ヒューマノイドダンサーのトレーニング,および強化学習の2つのプロセスで機能する。
我々の報酬モデルは、光学的フローと音楽のための2つの特徴エンコーダから構成される。
それらはコントラスト学習に基づいて訓練され、同時に光学的流れと音楽的特徴の類似性を高める。
この報酬モデルにより、エージェントは、与えられた音楽特徴と高い類似性を有する光学的流れを生じさせると、より高い報酬を得てダンスを学ぶ。
実験結果から、生成したダンスの動きが音楽のビートと適切に一致できることが示され、ユーザによる研究結果から、我々のフレームワークはベースラインよりも人間の方が好まれていることが示唆された。
我々の知る限りでは、人間のビデオからダンスを学ぶ非ヒューマノイドエージェントの研究は前例がない。
例のビデオはhttps://youtu.be/dOUPvo-O3QYで見ることができる。
We hypothesize dance as a motion that forms a visual rhythm from music, where the visual rhythm can be perceived from an optical flow. If an agent can recognize the relationship between visual rhythm and music, it will be able to dance by generating a motion to create a visual rhythm that matches the music. Based on this, we propose a framework for any kind of non-humanoid agents to learn how to dance from human videos. Our framework works in two processes: (1) training a reward model which perceives the relationship between optical flow (visual rhythm) and music from human dance videos, (2) training the non-humanoid dancer based on that reward model, and reinforcement learning. Our reward model consists of two feature encoders for optical flow and music. They are trained based on contrastive learning which makes the higher similarity between concurrent optical flow and music features. With this reward model, the agent learns dancing by getting a higher reward when its action creates an optical flow whose feature has a higher similarity with the given music feature. Experiment results show that generated dance motion can align with the music beat properly, and user study result indicates that our framework is more preferred by humans compared to the baselines. To the best of our knowledge, our work of non-humanoid agents which learn dance from human videos is unprecedented. An example video can be found at https://youtu.be/dOUPvo-O3QY. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# X-インストラクション:自己計算型言語間インストラクションを用いた低リソース言語における言語モデルの調整
X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions ( http://arxiv.org/abs/2405.19744v1 ) ライセンス: Link先を確認 | Chong Li, Wen Yang, Jiajun Zhang, Jinliang Lu, Shaonan Wang, Chengqing Zong, | (参考訳) 大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。
これらの言語では、データに基づく高品質な命令が欠如していることから生じる可能性がある。
英語のサンプルをこれらの言語に直接翻訳することは、解決法であるが信頼できないものであり、翻訳エラーや言語固有の文化知識の欠如による応答をもたらす。
この問題に対処するために,低リソース言語における英語の命令と応答を用いて,サンプルに追従する言語間命令を構築する手法を提案する。
具体的には、言語モデルはまず、他の言語の自然なウェブテキストに応答して適切な英語の指示を生成することを学習する。
候補言語間命令チューニングサンプルはさらに洗練され、多様化される。
我々は,この手法を用いて10言語,すなわちX-インストラクションを用いた大規模言語間命令チューニングデータセットを構築した。
本手法を用いて構築した命令データには,ナイーブ翻訳法と比較して言語固有の知識が組み込まれている。
実験結果から,X-インストラクションで調整したモデルの応答品質は,ChatGPTのモデルに到達または到達し,強力な教師モデルから抽出したモデルを大きく上回ることがわかった。
さらに, 言語間命令に追従したモデルでは, さらなるチューニングを行なわずに, 出力言語の命令に従うことができることがわかった。
Large language models respond well in high-resource languages like English but struggle in low-resource languages. It may arise from the lack of high-quality instruction following data in these languages. Directly translating English samples into these languages can be a solution but unreliable, leading to responses with translation errors and lacking language-specific or cultural knowledge. To address this issue, we propose a novel method to construct cross-lingual instruction following samples with instruction in English and response in low-resource languages. Specifically, the language model first learns to generate appropriate English instructions according to the natural web texts in other languages as responses. The candidate cross-lingual instruction tuning samples are further refined and diversified. We have employed this method to build a large-scale cross-lingual instruction tuning dataset on 10 languages, namely X-Instruction. The instruction data built using our method incorporate more language-specific knowledge compared with the naive translation method. Experimental results have shown that the response quality of the model tuned on X-Instruction greatly exceeds the model distilled from a powerful teacher model, reaching or even surpassing the ones of ChatGPT. In addition, we find that models tuned on cross-lingual instruction following samples can follow the instruction in the output language without further tuning. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# ガウス予測:運動外挿と自由視点合成のための動的3次元ガウス予測
GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis ( http://arxiv.org/abs/2405.19745v1 ) ライセンス: Link先を確認 | Boming Zhao, Yuan Li, Ziyu Sun, Lin Zeng, Yujun Shen, Rui Ma, Yinda Zhang, Hujun Bao, Zhaopeng Cui, | (参考訳) 動的環境における将来のシナリオを予測することは、インテリジェントな意思決定とナビゲーションに不可欠であり、コンピュータビジョンとロボット工学においてまだ完全に実現されていない課題である。
ビデオ予測やノベルビュー合成のような従来のアプローチでは、任意の視点から予測する能力や時間的ダイナミクスを予測できない。
本稿では,動的シーンモデリングによる3次元ガウス表現と,動的環境におけるシナリオ生成を実現する新しいフレームワークであるGaussianPredictionを紹介する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
そこで我々はまず,動的シーンの外観と形状を捉えるために,変形モデリングを備えた3次元ガウス標準空間を提案し,そのライフサイクル特性をガウスの可逆変形と統合する。
予測を可能かつ効率的にするために、シーン動作をキーポイントで蒸留することにより、同心運動蒸留手法を開発する。
最後に、グラフ畳み込みネットワークを用いてキーポイントの動きを予測し、将来のシナリオのフォトリアリスティック画像のレンダリングを可能にする。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
Forecasting future scenarios in dynamic environments is essential for intelligent decision-making and navigation, a challenge yet to be fully realized in computer vision and robotics. Traditional approaches like video prediction and novel-view synthesis either lack the ability to forecast from arbitrary viewpoints or to predict temporal dynamics. In this paper, we introduce GaussianPrediction, a novel framework that empowers 3D Gaussian representations with dynamic scene modeling and future scenario synthesis in dynamic environments. GaussianPrediction can forecast future states from any viewpoint, using video observations of dynamic scenes. To this end, we first propose a 3D Gaussian canonical space with deformation modeling to capture the appearance and geometry of dynamic scenes, and integrate the lifecycle property into Gaussians for irreversible deformations. To make the prediction feasible and efficient, a concentric motion distillation approach is developed by distilling the scene motion with key points. Finally, a Graph Convolutional Network is employed to predict the motions of key points, enabling the rendering of photorealistic images of future scenarios. Our framework shows outstanding performance on both synthetic and real-world datasets, demonstrating its efficacy in predicting and rendering future environments. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# DenseSeg:Dense Image-to-Shape表現を用いたセマンティックセグメンテーションとランドマーク検出のための共同学習
DenseSeg: Joint Learning for Semantic Segmentation and Landmark Detection Using Dense Image-to-Shape Representation ( http://arxiv.org/abs/2405.19746v1 ) ライセンス: Link先を確認 | Ron Keuth, Lasse Hansen, Maren Balks, Ronja Jäger, Anne-Nele Schröder, Ludger Tüshaus, Mattias Heinrich, | (参考訳) 目的:セマンティックセグメンテーションとランドマーク検出は医用画像処理の基本課題であり,解剖学的対象のさらなる分析を容易にする。
深層学習に基づくピクセルワイズ分類は、セグメンテーションのための新しい最先端技術を確立しているが、ランドマーク検出では不十分であり、形状に基づくアプローチの強みである。
方法: 本研究では, ランドマークとセマンティックセグメンテーションの融合学習を, 完全に畳み込み型アーキテクチャを用いて実現する, 濃密なイメージ・ツー・シェイプ表現を提案する。
本手法では,解剖学的対応の表現による任意のランドマークの抽出を直感的に行うことができる。
我々は,幾何学的深層学習とCNNに基づくランドマーク検出の手法である,意味的セグメンテーションのための最先端技術(nnUNet)に対して,我々の手法をベンチマークした。
結果: 胸部X線から肺, 心臓, 鎖骨を特徴とする一般的なベンチマークと, 小児手首に17の異なる骨があるベンチマークを2つの医学的データセットで評価した。
我々の手法は、トラックス設定のランドマーク検出ベースライン(2.6 pm0.9$対2.7 pm0.9$対2.7 pm0.9$の誤差)と組み合わせてあるが、より複雑な手首設定(1.1 pm0.6$対1.9 pm0.5$)では大幅に上回った。
結論: 密な幾何学的形状表現は, ランドマーク検出課題の挑戦に有用であり, 熱マップ回帰を用いた先行技術よりも優れていることを示す。
ランドマーク自体の明示的なトレーニングは必要としないが、再トレーニングを必要とせずに新しいランドマークを追加することができる。
※
Purpose: Semantic segmentation and landmark detection are fundamental tasks of medical image processing, facilitating further analysis of anatomical objects. Although deep learning-based pixel-wise classification has set a new-state-of-the-art for segmentation, it falls short in landmark detection, a strength of shape-based approaches. Methods: In this work, we propose a dense image-to-shape representation that enables the joint learning of landmarks and semantic segmentation by employing a fully convolutional architecture. Our method intuitively allows the extraction of arbitrary landmarks due to its representation of anatomical correspondences. We benchmark our method against the state-of-the-art for semantic segmentation (nnUNet), a shape-based approach employing geometric deep learning and a CNN-based method for landmark detection. Results: We evaluate our method on two medical dataset: one common benchmark featuring the lungs, heart, and clavicle from thorax X-rays, and another with 17 different bones in the paediatric wrist. While our method is on pair with the landmark detection baseline in the thorax setting (error in mm of $2.6\pm0.9$ vs $2.7\pm0.9$), it substantially surpassed it in the more complex wrist setting ($1.1\pm0.6$ vs $1.9\pm0.5$). Conclusion: We demonstrate that dense geometric shape representation is beneficial for challenging landmark detection tasks and outperforms previous state-of-the-art using heatmap regression. While it does not require explicit training on the landmarks themselves, allowing for the addition of new landmarks without necessitating retraining.} | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 後部予測評価における理解と緩和の難しさ
Understanding and mitigating difficulties in posterior predictive evaluation ( http://arxiv.org/abs/2405.19747v1 ) ライセンス: Link先を確認 | Abhinav Agrawal, Justin Domke, | (参考訳) 予測後密度 (PPDs) はベイズ推定にほぼ興味がある。
通常、これらは単純なモンテカルロ平均値(MC)によって近似後部からのサンプルを用いて推定される。
このような推定器の信号対雑音比(SNR)が極端に低いことを観察する。
正確な推論の解析により、SNRの崩壊は指数関数的に増大することが明らかになる
a) トレーニングデータとテストデータとのミスマッチ
(b)潜伏空間の次元性、又は
(c)訓練データに対する試験データのサイズ。
さらなる分析はこれらの結果を近似推論にまで拡張する。
そこで本研究では,SNRの変動プロキシ上で試験時間に最適化された提案分布を用いて,単純なMCサンプリングを重要サンプリングに置き換えることを提案する。
Predictive posterior densities (PPDs) are of interest in approximate Bayesian inference. Typically, these are estimated by simple Monte Carlo (MC) averages using samples from the approximate posterior. We observe that the signal-to-noise ratio (SNR) of such estimators can be extremely low. An analysis for exact inference reveals SNR decays exponentially as there is an increase in (a) the mismatch between training and test data, (b) the dimensionality of the latent space, or (c) the size of the test data relative to the training data. Further analysis extends these results to approximate inference. To remedy the low SNR problem, we propose replacing simple MC sampling with importance sampling using a proposal distribution optimized at test time on a variational proxy for the SNR and demonstrate that this yields greatly improved estimates. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# HQ-DiT:FP4ハイブリッド量子化を用いた効率的な拡散変換器
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization ( http://arxiv.org/abs/2405.19751v1 ) ライセンス: Link先を確認 | Wenxuan Liu, Saiqian Zhang, | (参考訳) ディフュージョントランスフォーマー(DiT)は近年,U-Netを用いた従来の拡散モデルよりも優れた視覚生成能力を有するため,産業分野と学術分野の両方において大きな注目を集めている。
しかし、DiTの性能向上には高いパラメータカウントと実装コストが伴い、携帯電話などのリソース制限されたデバイスでの利用を著しく制限している。
これらの課題に対処するために、DiTの重みとアクティベーションの両方に4ビット浮動小数点(FP)精度を利用する効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を導入する。
固定点量子化(eg, INT8)と比較して,提案したクリッピング範囲選択機構を補完するFP量子化は,DiT内のデータ分布と自然に一致し,最小の量子化誤差をもたらす。
さらにHQ-DiTは、外れ値による真剣な量子化誤差を軽減するために、普遍的なアイデンティティ数学的変換を実装している。
実験結果から,DiTは極端に高精度な量子化(4ビット)が可能であり,性能への影響は無視できることがわかった。
われわれのアプローチは、DiTの重みとアクティベーションの両方が4ビットに量子化され、ImageNet上のsFIDがわずか0.12増加している最初の例である。
Diffusion Transformers (DiTs) have recently gained substantial attention in both industrial and academic fields for their superior visual generation capabilities, outperforming traditional diffusion models that use U-Net. However,the enhanced performance of DiTs also comes with high parameter counts and implementation costs, seriously restricting their use on resource-limited devices such as mobile phones. To address these challenges, we introduce the Hybrid Floating-point Quantization for DiT(HQ-DiT), an efficient post-training quantization method that utilizes 4-bit floating-point (FP) precision on both weights and activations for DiT inference. Compared to fixed-point quantization (e.g., INT8), FP quantization, complemented by our proposed clipping range selection mechanism, naturally aligns with the data distribution within DiT, resulting in a minimal quantization error. Furthermore, HQ-DiT also implements a universal identity mathematical transform to mitigate the serious quantization error caused by the outliers. The experimental results demonstrate that DiT can achieve extremely low-precision quantization (i.e., 4 bits) with negligible impact on performance. Our approach marks the first instance where both weights and activations in DiTs are quantized to just 4 bits, with only a 0.12 increase in sFID on ImageNet. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 確率的マルチアーム帯域のストリーミングにおけるメモリ-レグレットトレードオフの理解
Understanding Memory-Regret Trade-Off for Streaming Stochastic Multi-Armed Bandits ( http://arxiv.org/abs/2405.19752v1 ) ライセンス: Link先を確認 | Yuchen He, Zichun Ye, Chihao Zhang, | (参考訳) P$-passストリーミングモデルにおける確率的マルチアームバンディット問題について検討する。
この問題では、$n$armはストリームに存在し、少なくとも$m<n$armはメモリに格納される。
最適後悔を$m, n$および$P$で完全に特徴づける。
具体的には、$\tilde O\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ regret を用いてアルゴリズムを設計し、$\tilde \Omega\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ rounds$Tが十分に大きい場合の下位境界を補う。
我々の結果は、対数係数が$n$と$P$に固まる。
We study the stochastic multi-armed bandit problem in the $P$-pass streaming model. In this problem, the $n$ arms are present in a stream and at most $m<n$ arms and their statistics can be stored in the memory. We give a complete characterization of the optimal regret in terms of $m, n$ and $P$. Specifically, we design an algorithm with $\tilde O\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ regret and complement it with an $\tilde \Omega\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ lower bound when the number of rounds $T$ is sufficiently large. Our results are tight up to a logarithmic factor in $n$ and $P$. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# 単一画像生成モデルを用いたがん分類の緩和的アノテーションシフト
Mitigating annotation shift in cancer classification using single image generative models ( http://arxiv.org/abs/2405.19754v1 ) ライセンス: Link先を確認 | Marta Buetas Arcas, Richard Osuala, Karim Lekadir, Oliver Díaz, | (参考訳) 人工知能(AI)は、乳がんの検出と診断において放射線技師を支援する貴重なツールとして登場した。
しかし、この領域におけるAIアプリケーションの成功は、利用可能なデータ量と品質によって制限されており、しばしばアノテーションのシフトにつながる、限定的でコストのかかるデータアノテーション手順のために、課題を提起している。
本研究は乳房マンモグラフィー領域における癌分類におけるアノテーションシフトをシミュレートし,解析し,緩和する。
まず,良性病変と悪性病変を効果的に識別する高精度癌リスク予測モデルを開発した。
次に、アノテーションシフトの影響を定量化するためにモデルパフォーマンスを使用する。
特に悪性腫瘍に対するアノテーションシフトが多クラス分類性能に与える影響を明らかにする。
そこで本研究では,対象クラスに対する単一画像生成モデルに基づくトレーニングデータ拡張手法を提案し,アノテーションシフトを大幅に緩和するためには,ドメイン内アノテーションを4つも必要とせず,データセットの不均衡にも対処する。
最後に、異なるデータ拡張体制下で訓練された複数のモデルに基づいてアンサンブルアーキテクチャを提案し、検証することにより、パフォーマンスをさらに向上する。
本研究は、深層学習乳癌分類におけるアノテーションシフトに関する重要な知見を提供し、ドメインシフトの課題を克服するための単一画像生成モデルの可能性を探る。
Artificial Intelligence (AI) has emerged as a valuable tool for assisting radiologists in breast cancer detection and diagnosis. However, the success of AI applications in this domain is restricted by the quantity and quality of available data, posing challenges due to limited and costly data annotation procedures that often lead to annotation shifts. This study simulates, analyses and mitigates annotation shifts in cancer classification in the breast mammography domain. First, a high-accuracy cancer risk prediction model is developed, which effectively distinguishes benign from malignant lesions. Next, model performance is used to quantify the impact of annotation shift. We uncover a substantial impact of annotation shift on multiclass classification performance particularly for malignant lesions. We thus propose a training data augmentation approach based on single-image generative models for the affected class, requiring as few as four in-domain annotations to considerably mitigate annotation shift, while also addressing dataset imbalance. Lastly, we further increase performance by proposing and validating an ensemble architecture based on multiple models trained under different data augmentation regimes. Our study offers key insights into annotation shift in deep learning breast cancer classification and explores the potential of single-image generative models to overcome domain shift challenges. | 翻訳日:2024-05-31 15:48:50 公開日:2024-05-30 |
# データ適応型ノイズフィルタにおけるFusing Conditional VAEによるSMOTEの改善
Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering ( http://arxiv.org/abs/2405.19757v1 ) ライセンス: Link先を確認 | Sungchul Hong, Seunghwan An, Jong-June Jeon, | (参考訳) 生成ニューラルネットワークモデルの最近の進歩は、データ拡張手法の開発を拡張している。
しかし, 従来のモデルであるSMOTEと比較して, クラス不均衡データに対して, 最新の生成モデルに基づく拡張手法では顕著な性能が得られなかった。
不均衡な分類のための生成モデルの問題点を考察し、変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムを強化する枠組みを導入する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
そして、増大する可能性のあるデータポイントを体系的に排除し、そのデータ空間に隣接した観測を直接拡張する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
その結果、少数データの選択とデータ空間の補間は、比較的少数のデータポイントを持つ不均衡な分類問題に有効であると結論付けている。
Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performance for class imbalance data compared to the conventional model, the SMOTE. We investigate the problem of the generative model for imbalanced classification and introduce a framework to enhance the SMOTE algorithm using Variational Autoencoders (VAE). Our approach systematically quantifies the density of data points in a low-dimensional latent space using the VAE, simultaneously incorporating information on class labels and classification difficulty. Then, the data points potentially degrading the augmentation are systematically excluded, and the neighboring observations are directly augmented on the data space. Empirical studies on several imbalanced datasets represent that this simple process innovatively improves the conventional SMOTE algorithm over the deep learning models. Consequently, we conclude that the selection of minority data and the interpolation in the data space are beneficial for imbalanced classification problems with a relatively small number of data points. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 2つの潜在ベクトルを持つ統計モデルの同定可能性:次元関係の重要性とグラフ埋め込みへの応用
Identifiability of a statistical model with two latent vectors: Importance of the dimensionality relation and application to graph embedding ( http://arxiv.org/abs/2405.19760v1 ) ライセンス: Link先を確認 | Hiroaki Sasaki, | (参考訳) 統計モデルの識別可能性は、教師なし表現学習における鍵となる概念である。
非線形独立成分分析(ICA)の最近の研究は補助データを用いており、同定可能な条件を確立している。
本稿では,非線形ICAを一般化した1つの補助データを持つ2つの潜伏ベクトルの統計モデルを提案する。
従来の研究とは異なり、提案モデルにおける2つの潜伏ベクトルは任意の次元を持つことができ、この性質により、2つの潜伏ベクトルと識別可能性条件における補助データの間の洞察に富んだ次元関係を明らかにすることができる。
さらに、驚くべきことに、提案モデルの不確定性は、ある条件下では \emph{linear} ICA と同じものであることを証明している。
次に、グラフデータの統計モデルに識別可能性理論を適用する。
統計モデルの同一性は、グラフデータのリンク重みの最大値に依存する可能性がある。
そこで本研究では,グラフ埋め込みの実用的な方法を提案する。
最後に,提案手法が潜在ベクトルをよく検索し,モデル識別性はリンク重みの最大値に依存することを示す。
Identifiability of statistical models is a key notion in unsupervised representation learning. Recent work of nonlinear independent component analysis (ICA) employs auxiliary data and has established identifiable conditions. This paper proposes a statistical model of two latent vectors with single auxiliary data generalizing nonlinear ICA, and establishes various identifiability conditions. Unlike previous work, the two latent vectors in the proposed model can have arbitrary dimensions, and this property enables us to reveal an insightful dimensionality relation among two latent vectors and auxiliary data in identifiability conditions. Furthermore, surprisingly, we prove that the indeterminacies of the proposed model has the same as \emph{linear} ICA under certain conditions: The elements in the latent vector can be recovered up to their permutation and scales. Next, we apply the identifiability theory to a statistical model for graph data. As a result, one of the identifiability conditions includes an appealing implication: Identifiability of the statistical model could depend on the maximum value of link weights in graph data. Then, we propose a practical method for identifiable graph embedding. Finally, we numerically demonstrate that the proposed method well-recovers the latent vectors and model identifiability clearly depends on the maximum value of link weights, which supports the implication of our theoretical results | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 軌道類似性学習のためのCNNの再検討
Revisiting CNNs for Trajectory Similarity Learning ( http://arxiv.org/abs/2405.19761v1 ) ライセンス: Link先を確認 | Zhihao Chang, Linzhu Yu, Huan Li, Sai Wu, Gang Chen, Dongxiang Zhang, | (参考訳) 類似性探索は、距離計算の2次複雑さのため、軌跡データを問合せする基本的だが高価な演算子である。
長い軌道の計算負担を軽減するため、ニューラルネットワークは類似性学習に広く使われ、各軌道は線形複雑性を伴う類似性探索のための高次元ベクトルとして符号化されている。
トラジェクトリデータのシーケンシャルな性質を考えると、これまでの取り組みは主にRNNやトランスフォーマーの利用に費やされてきた。
本稿では,トラジェクトリを逐次データとして扱うという一般的な実践が,2つのシーケンス間の長期的グローバルな依存関係の把握に過度な注意を払っていることを論じる。
その代わり,本研究では,局所的類似性の重要な役割を明らかにし,軌跡類似性学習のための単純なCNNを再考する。
我々はConvTrajを導入し、1Dと2Dの畳み込みをそれぞれ組み込んで、トラジェクトリの逐次的および地理的分布の特徴を捉える。
さらに、ConvTrajの有効性を正当化する一連の理論的分析を行う。
実世界の3つの大規模データセットによる実験結果から,ConvTrajは軌道類似性探索における最先端の精度を実現することが示された。
ConvTrajの単純なネットワーク構造により、1.6万軌跡を持つPortoデータセットのトレーニング速度と推論速度は、それぞれ少なくとも240$xと2.16$xに向上する。
ソースコードとデータセットは \textit{\url{https://github.com/Proudc/ConvTraj}} にある。
Similarity search is a fundamental but expensive operator in querying trajectory data, due to its quadratic complexity of distance computation. To mitigate the computational burden for long trajectories, neural networks have been widely employed for similarity learning and each trajectory is encoded as a high-dimensional vector for similarity search with linear complexity. Given the sequential nature of trajectory data, previous efforts have been primarily devoted to the utilization of RNNs or Transformers. In this paper, we argue that the common practice of treating trajectory as sequential data results in excessive attention to capturing long-term global dependency between two sequences. Instead, our investigation reveals the pivotal role of local similarity, prompting a revisit of simple CNNs for trajectory similarity learning. We introduce ConvTraj, incorporating both 1D and 2D convolutions to capture sequential and geo-distribution features of trajectories, respectively. In addition, we conduct a series of theoretical analyses to justify the effectiveness of ConvTraj. Experimental results on three real-world large-scale datasets demonstrate that ConvTraj achieves state-of-the-art accuracy in trajectory similarity search. Owing to the simple network structure of ConvTraj, the training and inference speed on the Porto dataset with 1.6 million trajectories are increased by at least $240$x and $2.16$x, respectively. The source code and dataset can be found at \textit{\url{https://github.com/Proudc/ConvTraj}}. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# クリプトラグプル検出・防止の応用例
The Kosmosis Use-Case of Crypto Rug Pull Detection and Prevention ( http://arxiv.org/abs/2405.19762v1 ) ライセンス: Link先を確認 | Philipp Stangl, Christoph P. Neumann, | (参考訳) 暗号資産不正を防ぐための現在の手法は、ブロックチェーンネットワーク内のトランザクショングラフの分析に基づいている。
不正行為を示すトランザクションパターンの識別には有効だが、トランザクションの意味をキャプチャせず、ブロックチェーンデータに制約される。
したがって、トランザクショングラフに基づく予防方法は本質的に制限されている。
これらの制限に対応するために、新しいブロックチェーンとソーシャルメディアデータが利用可能になるにつれて、知識グラフを漸進的に構築することを目的としたKosmosisアプローチを提案する。
建設中は、ブロックチェーンとソーシャルメディアデータを知識グラフに融合させることで、トランザクションの意味を抽出し、ブロックチェーンアドレスを現実のエンティティに接続することを目的としている。
これにより、暗号資産詐欺の一形態として、ラグプルに対する新たな防止方法が可能になる。
コスモシスアプローチの有効性と実用性を実証するため,2021年からの実世界のラグプルについて検討した。
本稿では,構築した知識グラフから得られた知見を活用して,このような不正行為の発見と防止を支援する方法について述べる。
Current methods to prevent crypto asset fraud are based on the analysis of transaction graphs within blockchain networks. While effective for identifying transaction patterns indicative of fraud, it does not capture the semantics of transactions and is constrained to blockchain data. Consequently, preventive methods based on transaction graphs are inherently limited. In response to these limitations, we propose the Kosmosis approach, which aims to incrementally construct a knowledge graph as new blockchain and social media data become available. During construction, it aims to extract the semantics of transactions and connect blockchain addresses to their real-world entities by fusing blockchain and social media data in a knowledge graph. This enables novel preventive methods against rug pulls as a form of crypto asset fraud. To demonstrate the effectiveness and practical applicability of the Kosmosis approach, we examine a series of real-world rug pulls from 2021. Through this case, we illustrate how Kosmosis can aid in identifying and preventing such fraudulent activities by leveraging the insights from the constructed knowledge graph. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 自然言語理解のためのラベル感性リワードによる強化学習の強化
Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding ( http://arxiv.org/abs/2405.19763v1 ) ライセンス: Link先を確認 | Kuo Liao, Shuang Li, Meng Zhao, Liqun Liu, Mengge Xue, Zhenyu Hu, Honglin Han, Chengguo Yin, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人間のフィードバック(RLHF)からの強化学習を活用して、生成能力とアライメント能力を著しく向上させ、顕著なパフォーマンスをもたらしている。
しかし、RLHFは客観的なミスマッチ問題など多くの課題に遭遇し、自然言語理解(NLU)タスクにおいて最適なパフォーマンスをもたらす。
この制限に対処するために,ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案し,NLUタスクにおけるLLMの性能を向上する。
本手法は,RL中にラベルに感応するセマンティックな特徴を適切に捉え,自然言語理解を向上させることを目的としている。
8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
Supervised Fine-tuning Model (SFT)と比較して、RLLRは1.54%の平均的なパフォーマンス改善を示している。
RLHFモデルと比較して、改善平均は0.69%である。
これらの結果から,NLUタスクにおけるLLMの有効性が明らかになった。
コードとデータは、https://github.com/MagiaSN/ACL2024_RLLR.comで公開されている。
Recent strides in large language models (LLMs) have yielded remarkable performance, leveraging reinforcement learning from human feedback (RLHF) to significantly enhance generation and alignment capabilities. However, RLHF encounters numerous challenges, including the objective mismatch issue, leading to suboptimal performance in Natural Language Understanding (NLU) tasks. To address this limitation, we propose a novel Reinforcement Learning framework enhanced with Label-sensitive Reward (RLLR) to amplify the performance of LLMs in NLU tasks. By incorporating label-sensitive pairs into reinforcement learning, our method aims to adeptly capture nuanced label-sensitive semantic features during RL, thereby enhancing natural language understanding. Experiments conducted on five diverse foundation models across eight tasks showcase promising results. In comparison to Supervised Fine-tuning models (SFT), RLLR demonstrates an average performance improvement of 1.54%. Compared with RLHF models, the improvement averages at 0.69%. These results reveal the effectiveness of our method for LLMs in NLU tasks. Code and data available at: https://github.com/MagiaSN/ACL2024_RLLR. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 対話型アテンションを用いた多粒性テキストの統一検出に向けて
Towards Unified Multi-granularity Text Detection with Interactive Attention ( http://arxiv.org/abs/2405.19765v1 ) ライセンス: Link先を確認 | Xingyu Wan, Chengquan Zhang, Pengyuan Lyu, Sen Fan, Zihan Ni, Kun Yao, Errui Ding, Jingdong Wang, | (参考訳) 既存のOCRエンジンや文書画像解析システムは、典型的には様々なシナリオや粒度のテキスト検出のための個別のモデルを訓練することに依存しており、計算の複雑さとリソースの要求が大きくなった。
本稿では,シーンテキストの検出,レイアウト解析,文書ページの検出を協調的なエンドツーエンドモデルにシームレスに統一する,高度なパラダイムであるDATを紹介する。
この設計により、DATは*word*, *line*, *paragraph*, *page*など、さまざまな粒度のテキストインスタンスを効率的に管理できる。
DATにおける重要なイノベーションは、異なるテキストクエリ間で構造情報を関連付けることで、テキストインスタンスの様々な粒度での表現学習を大幅に強化する、粒度間対話型アテンションモジュールである。
その結果、複数のテキストの粒度にまたがる相互に有用な検出性能を実現することができる。
さらに、プロンプトベースのセグメンテーションモジュールは任意の曲率と複雑なレイアウトのテキストの検出結果を洗練し、DATの精度を改善し、実際の適用性を拡張する。
実験結果から,DATは多方向/任意形状のシーンテキスト検出,文書レイアウト解析,ページ検出タスクなど,テキスト関連ベンチマークの最先端性能を実現していることがわかった。
Existing OCR engines or document image analysis systems typically rely on training separate models for text detection in varying scenarios and granularities, leading to significant computational complexity and resource demands. In this paper, we introduce "Detect Any Text" (DAT), an advanced paradigm that seamlessly unifies scene text detection, layout analysis, and document page detection into a cohesive, end-to-end model. This design enables DAT to efficiently manage text instances at different granularities, including *word*, *line*, *paragraph* and *page*. A pivotal innovation in DAT is the across-granularity interactive attention module, which significantly enhances the representation learning of text instances at varying granularities by correlating structural information across different text queries. As a result, it enables the model to achieve mutually beneficial detection performances across multiple text granularities. Additionally, a prompt-based segmentation module refines detection outcomes for texts of arbitrary curvature and complex layouts, thereby improving DAT's accuracy and expanding its real-world applicability. Experimental results demonstrate that DAT achieves state-of-the-art performances across a variety of text-related benchmarks, including multi-oriented/arbitrarily-shaped scene text detection, document layout analysis and page detection tasks. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 自由粒子中の測定誘起相転移
Measurement-Induced Phase Transition in Free Bosons ( http://arxiv.org/abs/2405.19768v1 ) ライセンス: Link先を確認 | Kazuki Yokomizo, Yuto Ashida, | (参考訳) 量子多粒子ダイナミクスと連続モニタリングの競合は、測定誘起相転移(MIPT)を引き起こす。
これまでのところ、MIPTはフェルミオン系やスピン系でよく研究されてきた。
ボゾン系におけるMIPTの可能性を検討するため,長距離結合を有する連続監視自由ボソンにおける絡み合い構造について検討した。
測定を局所的に行うと、長距離結合によって生じるかなりの絡み合いが測定による絡み合い破壊を克服するため、MIPTは発生しない。
対照的に, 非局所測定は絡み合いの発生を効果的に抑制でき, 測定強度が増大するにつれて, 両部エンタングルメントエントロピーが準体積-面積法則遷移を示すMIPTに繋がることを示す。
また, 浮遊ナノ粒子アレイの実験的妥当性についても概説した。
The competition between quantum many-particle dynamics and continuous monitoring can lead to measurement-induced phase transitions (MIPTs). So far, MIPTs have been much explored in fermionic or spin systems. To examine the possibility of a MIPT in bosonic systems, we study the entanglement structure in continuously monitored free bosons with long-range couplings. When the measurement is local, we find that no MIPTs occur because the substantial entanglement generated by the long-range coupling overcome the entanglement destruction due to the measurement. In contrast, we show that the nonlocal measurement can efficiently suppress the entanglement generation, leading to a MIPT where the bipartite entanglement entropy exhibits the subvolume-to-area law transition as the measurement strength is increased. Possible experimental relevance to levitated nanoparticle arrays is also briefly discussed. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# タスク適応型ルーティングによるオールインワン医療画像復元
All-In-One Medical Image Restoration via Task-Adaptive Routing ( http://arxiv.org/abs/2405.19769v1 ) ライセンス: Link先を確認 | Zhiwen Yang, Haowei Chen, Ziniu Qian, Yang Yi, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu, | (参考訳) シングルタスクの医療画像復元(MedIR)は目覚ましい成功をみせたが、これらの手法の限定的な一般化は、幅広い応用に重大な障害をもたらす。
本稿では,単一のユニバーサルモデルを用いて,複数の異なるMedIRタスクに対処することを目的とした,オールインワン医療画像復元の課題に焦点を当てた。
それでも、異なるMedIRタスク間で大きな違いがあるため、ユニバーサルモデルのトレーニングは、共通のパラメータを持つ異なるタスクが勾配更新方向で互いに衝突する可能性のあるタスク干渉問題にしばしば遭遇する。
このタスク干渉は、モデル更新方向を最適経路から逸脱させ、モデルの性能に影響を及ぼす。
この問題に対処するために,タスク適応型ルーティング戦略を提案する。これにより,競合するタスクが空間的,チャネル的に異なるネットワークパスを選択でき,タスク干渉を軽減できる。
実験の結果、MedIRの3つのタスク(MRI超解像、CTデノイング、PET合成)において、単一のタスクとオールインワン設定の両方で、最新のパフォーマンスを実現する。
コードとデータは \href{https://github.com/Yaziwel/All-In-One-Medical-Image-Restoration-via-Task-Adaptive-Routing.git}{https://github.com/Yaziwel/AMIR} で入手できる。
Although single-task medical image restoration (MedIR) has witnessed remarkable success, the limited generalizability of these methods poses a substantial obstacle to wider application. In this paper, we focus on the task of all-in-one medical image restoration, aiming to address multiple distinct MedIR tasks with a single universal model. Nonetheless, due to significant differences between different MedIR tasks, training a universal model often encounters task interference issues, where different tasks with shared parameters may conflict with each other in the gradient update direction. This task interference leads to deviation of the model update direction from the optimal path, thereby affecting the model's performance. To tackle this issue, we propose a task-adaptive routing strategy, allowing conflicting tasks to select different network paths in spatial and channel dimensions, thereby mitigating task interference. Experimental results demonstrate that our proposed \textbf{A}ll-in-one \textbf{M}edical \textbf{I}mage \textbf{R}estoration (\textbf{AMIR}) network achieves state-of-the-art performance in three MedIR tasks: MRI super-resolution, CT denoising, and PET synthesis, both in single-task and all-in-one settings. The code and data will be available at \href{https://github.com/Yaziwel/All-In-One-Medical-Image-Restoration-via-Task-Adaptive-Routing.git}{https://github.com/Yaziwel/AMIR}. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# VQAトレーニングセットは、いくつかのショットプールを生成するためのセルフプレイ環境である
VQA Training Sets are Self-play Environments for Generating Few-shot Pools ( http://arxiv.org/abs/2405.19773v1 ) ライセンス: Link先を確認 | Tautvydas Misiunas, Hassan Mansoor, Jasper Uijlings, Oriana Riva, Victor Carbune, | (参考訳) 大規模言語モデルと大規模ビジョンモデルは、視覚探索応答ベンチマークのブレークスルーによって測定されるように、構成的推論タスクを解く能力がますます高まっている。
しかし、最先端のソリューションは、しばしば高価な大規模な事前学習と微調整のデータセットを慎重に構築する。
他のMLモデル、検索エンジン、APIといった外部ツールの使用は、ハイレベルな推論質問を個々のツールで答えられるサブクエストに分解することで、パフォーマンスを著しく向上させることができるが、このアプローチには、微調整されたモデルに利用可能なツールの使い方を教えるためのデータセット構築コストが類似している。
本稿では,タスクメトリクスを報酬として計算環境を構築するために,既存のトレーニングセットを直接利用できる手法を提案する。
これにより、モデルが自分自身または他のモデルをツールとして自律的に使用するように教えることができる。
これにより、外部信号を統合することでトレーニングセットを増強する。
提案手法は、ゼロショットプロンプトから始まり、トレーニングセット上のタスクメトリックを最大化する少数ショット例を選択することにより、反復的にそれらを洗練する。
我々の実験では、GeminiがScreenAIのようなより小型で特殊なモデルを使って、トレーニングセットのパフォーマンスを反復的に改善する方法を実証している。
提案手法は, チャート, インフォグラフィック, 文書視覚質問応答データセット上でのゼロショット性能の一般化と改善に成功している。
Large-language models and large-vision models are increasingly capable of solving compositional reasoning tasks, as measured by breakthroughs in visual-question answering benchmarks. However, state-of-the-art solutions often involve careful construction of large pre-training and fine-tuning datasets, which can be expensive. The use of external tools, whether other ML models, search engines, or APIs, can significantly improve performance by breaking down high-level reasoning questions into sub-questions that are answerable by individual tools, but this approach has similar dataset construction costs to teach fine-tuned models how to use the available tools. We propose a technique in which existing training sets can be directly used for constructing computational environments with task metrics as rewards. This enables a model to autonomously teach itself to use itself or another model as a tool. By doing so, we augment training sets by integrating external signals. The proposed method starts with zero-shot prompts and iteratively refines them by selecting few-shot examples that maximize the task metric on the training set. Our experiments showcase how Gemini learns how to use itself, or another smaller and specialized model such as ScreenAI, to iteratively improve performance on training sets. Our approach successfully generalizes and improves upon zeroshot performance on charts, infographics, and document visual question-answering datasets | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# Puff-Net:Pure ContentとStyle Feature Fusion Networkによる効率的なスタイル転送
Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network ( http://arxiv.org/abs/2405.19775v1 ) ライセンス: Link先を確認 | Sizhe Zheng, Pan Gao, Peng Zhou, Jie Qin, | (参考訳) スタイル転送は、オリジナルの構造を維持しながら、スタイルイメージの芸術的な特徴で画像をレンダリングすることを目的としている。
このタスクには様々な方法が提案されているが、いくつかの課題が残っている。
例えば、CNNベースの手法では、入力画像間の大域的情報や長距離依存関係を扱うことは困難であり、トランスフォーマーベースの手法が提案されている。
トランスフォーマーは、コンテンツとスタイルイメージの関係をより良くモデル化できるが、高価なハードウェアと時間を要する。
これらの問題に対処するため、エンコーダのみを含む新しいトランスモデルを設計し、計算コストを大幅に削減する。
さらに,既存のスタイル転送手法は,画像のスタイリッシュ化や欠落に繋がる可能性があることも確認した。
そこで本研究では,コンテント特徴抽出器とスタイル特徴抽出器を設計し,コンテントとスタイルイメージを変換器に供給する手法を提案する。
最後に、Puff-Netと呼ばれる新しいネットワーク、すなわち純粋コンテンツとスタイルの機能融合ネットワークを提案する。
定性的かつ定量的な実験を通じて、文献における最先端のモデルと比較して、我々のモデルの利点を実証する。
Style transfer aims to render an image with the artistic features of a style image, while maintaining the original structure. Various methods have been put forward for this task, but some challenges still exist. For instance, it is difficult for CNN-based methods to handle global information and long-range dependencies between input images, for which transformer-based methods have been proposed. Although transformers can better model the relationship between content and style images, they require high-cost hardware and time-consuming inference. To address these issues, we design a novel transformer model that includes only the encoder, thus significantly reducing the computational cost. In addition, we also find that existing style transfer methods may lead to images under-stylied or missing content. In order to achieve better stylization, we design a content feature extractor and a style feature extractor, based on which pure content and style images can be fed to the transformer. Finally, we propose a novel network termed Puff-Net, i.e., pure content and style feature fusion network. Through qualitative and quantitative experiments, we demonstrate the advantages of our model compared to state-of-the-art ones in the literature. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# A-二乗項を持つ異方性ディックスタークモデルの相転移
Phase Transitions in the Anisotropic Dicke-Stark Model with A-square terms ( http://arxiv.org/abs/2405.19776v1 ) ライセンス: Link先を確認 | Xiang-You Chen, Yu-Yu Zhang, Qing-Hu Chen, Hai-Qing Lin, | (参考訳) 超ラジアント相転移(SRPT)は、A-二乗項によって誘導されるいわゆるノーゴー定理により、標準等方的ディックモデルにおいて禁止される。
ディックモデルの枠組みでは、回転波を内在的に調整し、原子-空洞結合を独立に回転させたり、非線形スターク結合項を導入したりすると、SRPTは零温度と有限温度の両方で発生しうることを示す。
このいわゆる異方性ディック・スタークモデルにおける位相遷移は、元のディックモデルと同じ普遍性クラスを共有する。
このモデルの臨界カップリング強度は、等方定数によって徐々に減少するが、強い非線形スタークカップリングで急速に0に駆動することができる。
我々は、将来の固体実験でSRPTを観測するための実現可能なスキームを提案していると信じている。
The superradiant phase transition (SRPT) is forbidden in the standard isotropic Dicke model due to the so-called no-go theorem induced by A-square term. In the framework of the Dicke model, we demonstrate that SRPTs can occur at both zero and finite temperatures if we intrinsically tune the rotating wave and count-rotating atom-cavity coupling independently, and/or introduce the nonlinear Stark coupling terms, thus overcoming the no-go theorem. The phase transitions in this so-called anisotropic Dicke-Stark model share the same universality class with the original Dicke model. The critical coupling strength of this model decreases with the isotropic constant gradually, but can be driven to zero quickly with the strong nonlinear Stark coupling. We believe that we have proposed a feasible scheme to observe the SRPT in the future solid-state experiments. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 登場人物の性格の再構築による一貫性の強化と役割特有知識の獲得
Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona ( http://arxiv.org/abs/2405.19778v1 ) ライセンス: Link先を確認 | Jeiyoon Park, Chanjun Park, Heuiseok Lim, | (参考訳) 最近のAssistants APIの導入により、ドキュメントベースの言語モデルが様々なドメイン、特にロールプレイングでアクティブに使用されることが期待されている。
しかし、重要な課題は、主人公のペルソナを利用することである: アシスタントAPIは、情報抽出部が毎回異なるため、しばしば検索で達成できず、主人公の背景や関係といった重要な情報を省略する。
Assistants APIへの入力としてペルソナドキュメントを使用することで、一貫性のあるペルソナを維持するのは難しい。
安定したペルソナ整合性を実現するための課題として,Assistants APIの欠点を軽減するための新しいペルソナ再構成フレームワークである characterGPT を提案する。
本手法では,小説の要約から登場人物の特徴を,小説の物語が進行しているかのように抽出することで,文字ペルソナを効果的に更新する文字ペルソナ訓練(CPT)を行う。
実験では,各キャラクタに対して,様々な設定でBig Five Inventoryパーソナリティテストを実施し,その結果を分析した。
ボックスの外側で考えることができるかどうかを評価するため、各キャラクターが短編小説を制作する。
広範囲な実験と人的評価により、キャラクタGPTはロールプレイングエージェント研究の新しい可能性を示す。
With the recent introduction of Assistants API, it is expected that document-based language models will be actively used in various domains, especially Role-playing. However, a key challenge lies in utilizing protagonist's persona: Assistants API often fails to achieve with its search because the information extraction part is different each time and it often omits important information such as protagonist's backstory or relationships. It is hard to maintain a consistent persona simply by using the persona document as input to the Assistants API. To address the challenge of achieving stable persona consistency, we propose CharacterGPT, a novel persona reconstruction framework to alleviate the shortcomings of the Assistants API. Our method involves Character Persona Training (CPT), an effective persona rebuilding process that updates the character persona by extracting the character's traits from given summary of the novel for each character as if the story in a novel progresses. In our experiments, we ask each character to take the Big Five Inventory personality test in various settings and analyze the results. To assess whether it can think outside the box, we let each character generate short novels. Extensive experiments and human evaluation demonstrate that CharacterGPT presents new possibilities for role-playing agent research. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# 自動グラフトポロジ対応変圧器
Automatic Graph Topology-Aware Transformer ( http://arxiv.org/abs/2405.19779v1 ) ライセンス: Link先を確認 | Chao Wang, Jiaxuan Zhao, Lingling Li, Licheng Jiao, Fang Liu, Shuyuan Yang, | (参考訳) 既存の取り組みは、グラフ変換器のための多くのトポロジとグラフ認識戦略の設計に重点を置いており、モデルの表現能力を大幅に改善している。
しかし、特定のグラフデータセットやタスクに適したTransformerアーキテクチャを手動で決定するには、豊富な専門知識と精巧な試行が必要だ。
本稿では,強力なグラフ変換器の構築を自動化するために,進化的グラフ変換器アーキテクチャ探索フレームワーク(EGTAS)を提案する。
マイクロレベルおよびマクロレベルの設計による包括的グラフトランスフォーマー検索空間を構築した。
EGTASはマクロレベルでのグラフトランスフォーマートポロジとマイクロレベルでのグラフ認識戦略を進化させる。
さらに、グラフ変換器の性能を直接予測するために、汎用的なアーキテクチャ符号化に基づく代理モデルを提案し、進化的探索の評価コストを大幅に削減した。
グラフレベルおよびノードレベルのタスクにまたがるEGTASの有効性を実証し、小規模および大規模のグラフデータセットを包含する。
実験結果とアブレーション研究により、EGTASは最先端のマニュアルや自動化ベースラインに匹敵する高性能なアーキテクチャを構築することができることが示された。
Existing efforts are dedicated to designing many topologies and graph-aware strategies for the graph Transformer, which greatly improve the model's representation capabilities. However, manually determining the suitable Transformer architecture for a specific graph dataset or task requires extensive expert knowledge and laborious trials. This paper proposes an evolutionary graph Transformer architecture search framework (EGTAS) to automate the construction of strong graph Transformers. We build a comprehensive graph Transformer search space with the micro-level and macro-level designs. EGTAS evolves graph Transformer topologies at the macro level and graph-aware strategies at the micro level. Furthermore, a surrogate model based on generic architectural coding is proposed to directly predict the performance of graph Transformers, substantially reducing the evaluation cost of evolutionary search. We demonstrate the efficacy of EGTAS across a range of graph-level and node-level tasks, encompassing both small-scale and large-scale graph datasets. Experimental results and ablation studies show that EGTAS can construct high-performance architectures that rival state-of-the-art manual and automated baselines. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# リポジトリレベルコード補完のためのデータフロー誘導型検索拡張
Dataflow-Guided Retrieval Augmentation for Repository-Level Code Completion ( http://arxiv.org/abs/2405.19782v1 ) ライセンス: Link先を確認 | Wei Cheng, Yuhan Wu, Wei Hu, | (参考訳) 近年、コード補完のような様々なコードインテリジェンスタスクにコード言語モデル(LM)が配備されているのが目撃されている。
しかし、事前訓練されたLMがプライベートリポジトリで正しい補完を生成することは困難である。
これまでの研究では、インポート関係やテキストの類似性に基づいてファイル間のコンテキストを検索していた。
本稿では,リポジトリレベルのコード補完のためのデータフロー誘導型検索拡張手法DraCoを提案する。
DraCoはプライベートリポジトリをコードエンティティに解析し、拡張データフロー分析を通じて関係を確立することで、リポジトリ固有のコンテキストグラフを形成する。
コード補完をトリガーするたびに、DraCoはリポジトリ固有のコンテキストグラフから関連するバックグラウンド知識を正確に取得し、コードLMをクエリする適切なプロンプトを生成する。
さらに、より多様な補完対象を持つ大規模なPythonデータセットReccEvalを構築します。
実験では,DraCoの精度と適用効率が向上し,コード精度が3.43%向上し,識別子F1スコアが3.27%向上した。
Recent years have witnessed the deployment of code language models (LMs) in various code intelligence tasks such as code completion. Yet, it is challenging for pre-trained LMs to generate correct completions in private repositories. Previous studies retrieve cross-file context based on import relations or text similarity, which is insufficiently relevant to completion targets. In this paper, we propose a dataflow-guided retrieval augmentation approach, called DraCo, for repository-level code completion. DraCo parses a private repository into code entities and establishes their relations through an extended dataflow analysis, forming a repo-specific context graph. Whenever triggering code completion, DraCo precisely retrieves relevant background knowledge from the repo-specific context graph and generates well-formed prompts to query code LMs. Furthermore, we construct a large Python dataset, ReccEval, with more diverse completion targets. Our experiments demonstrate the superior accuracy and applicable efficiency of DraCo, improving code exact match by 3.43% and identifier F1-score by 3.27% on average compared to the state-of-the-art approach. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# インストラクションガイドによる視覚マスキング
Instruction-Guided Visual Masking ( http://arxiv.org/abs/2405.19783v1 ) ライセンス: Link先を確認 | Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan, | (参考訳) 現代のLDMでは、次の指示が不可欠である。
しかし、マルチモーダル設定に拡張されると、特定のテキスト命令と画像のターゲット局所領域の誤認識に悩まされることが多い。
より正確でニュアンスの高いマルチモーダル命令を実現するために,LMMやロボットモデルといった多様なマルチモーダルモデルと互換性のある,多目的な視覚的グラウンドディングモデルであるインストラクション誘導視覚マスキング(IVM)を導入する。
命令非関連領域の視覚マスクを構築することで、IVMで強化されたマルチモーダルモデルはタスク関連画像領域に効果的に集中し、複雑な命令との整合性を高めることができる。
具体的には、視覚マスキングデータ生成パイプラインを設計し、100万のイメージインストラクションペアを備えたIVM-Mix-1Mデータセットを作成する。
さらに、高品質なデータサンプルを優先する優先的なIVMトレーニングのための新しい学習手法、DWSLを導入する。
VQAやロボット制御の具体化といった汎用的マルチモーダルタスクの実験結果は、プラグイン・アンド・プレイツールとしてのIVMの汎用性を示し、多様なマルチモーダルモデルの性能を大幅に向上させ、挑戦的なマルチモーダルベンチマークにまたがる新たな最先端結果をもたらす。
コードはhttps://github.com/2toinf/IVMで入手できる。
Instruction following is crucial in contemporary LLM. However, when extended to multimodal setting, it often suffers from misalignment between specific textual instruction and targeted local region of an image. To achieve more accurate and nuanced multimodal instruction following, we introduce Instruction-guided Visual Masking (IVM), a new versatile visual grounding model that is compatible with diverse multimodal models, such as LMM and robot model. By constructing visual masks for instruction-irrelevant regions, IVM-enhanced multimodal models can effectively focus on task-relevant image regions to better align with complex instructions. Specifically, we design a visual masking data generation pipeline and create an IVM-Mix-1M dataset with 1 million image-instruction pairs. We further introduce a new learning technique, Discriminator Weighted Supervised Learning (DWSL) for preferential IVM training that prioritizes high-quality data samples. Experimental results on generic multimodal tasks such as VQA and embodied robotic control demonstrate the versatility of IVM, which as a plug-and-play tool, significantly boosts the performance of diverse multimodal models, yielding new state-of-the-art results across challenging multimodal benchmarks. Code is available at https://github.com/2toinf/IVM. | 翻訳日:2024-05-31 15:38:52 公開日:2024-05-30 |
# PixelsDB: フレキシブルなサービスレベルと価格を備えた、サーバレスで自然な言語支援データ分析
PixelsDB: Serverless and Natural-Language-Aided Data Analytics with Flexible Service Levels and Prices ( http://arxiv.org/abs/2405.19784v1 ) ライセンス: Link先を確認 | Haoqiong Bian, Dongyang Geng, Haoyang Li, Anastasia Ailamaki, | (参考訳) サーバーレスクエリ処理は、ハードウェアとソフトウェア管理の自動化、高い弾力性、従量課金の価格設定など、そのアドバンテージにより、ますます人気が高まっている。
システムの専門家でないユーザにとって、サーバレスクエリ処理は、データ分析システムの所有コストを大幅に削減する。
しかし、非エキスパートユーザにとって、複雑なデータ分析のニーズを適切なSQLクエリに変換し、各タイプのクエリに対して十分なパフォーマンスと価格を提供するサーバレスクエリエンジンを選択することは、依然として重要な課題である。
本稿では,システムやSQLの専門知識を欠いたユーザが効率的にデータを探索できる,オープンソースのデータ解析システムであるPixelsDBを提案する。
ユーザは、微調整された言語モデルを使った自然言語インターフェースを使用して、SQLクエリを生成およびデバッグすることができる。
クエリはサーバレスクエリエンジンによって実行され、クエリ緊急時にさまざまなサービスレベルに対してさまざまな価格が提供される。
サービスレベルは、専用アーキテクチャ設計と不均一なリソーススケジューリングによってネイティブにサポートされています。
サーバレスパラダイム、自然言語支援インターフェース、フレキシブルなサービスレベルと価格の組み合わせによって、データ分析におけるユーザエクスペリエンスが大幅に向上することを期待しています。
Serverless query processing has become increasingly popular due to its advantages, including automated hardware and software management, high elasticity, and pay-as-you-go pricing. For users who are not system experts, serverless query processing greatly reduces the cost of owning a data analytic system. However, it is still a significant challenge for non-expert users to transform their complex and evolving data analytic needs into proper SQL queries and select a serverless query engine that delivers satisfactory performance and price for each type of query. This paper presents PixelsDB, an open-source data analytic system that allows users who lack system or SQL expertise to explore data efficiently. It allows users to generate and debug SQL queries using a natural language interface powered by fine-tuned language models. The queries are then executed by a serverless query engine that offers varying prices for different service levels on query urgency. The service levels are natively supported by dedicated architecture design and heterogeneous resource scheduling that can apply cost-efficient resources to process non-urgent queries. We envision that the combination of a serverless paradigm, a natural-language-aided interface, and flexible service levels and prices will substantially improve the user experience in data analysis. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 動的システムの繰り返し深層カーネル学習
Recurrent Deep Kernel Learning of Dynamical Systems ( http://arxiv.org/abs/2405.19785v1 ) ライセンス: Link先を確認 | Nicolò Botteghi, Paolo Motta, Andrea Manzoni, Paolo Zunino, Mengwu Guo, | (参考訳) デジタル双対は計算効率の低い低次モデル(ROM)を必要とし、物理的資産の複雑な力学を正確に記述することができる。
しかし、ノイズの多い高次元データからROMを構築することは困難である。
本研究では,確率変動深層学習(SVDKL)を用いてデータから低次元潜時空間を探索するデータ駆動型非侵入的手法と,潜時力学の進化を表現・予測するためのSVDKLの繰り返しバージョンを提案する。
提案手法は、二重振り子と反応拡散系という2つの挑戦的な例で実証された。
結果から、我々のフレームワークは、
一 測度を復調し、再建すること。
二 システム状態のコンパクト表現を学習すること。
(三)低次元潜在空間における系の進化を予測すること、及び
(四)不確実性モデリングの定量化。
Digital twins require computationally-efficient reduced-order models (ROMs) that can accurately describe complex dynamics of physical assets. However, constructing ROMs from noisy high-dimensional data is challenging. In this work, we propose a data-driven, non-intrusive method that utilizes stochastic variational deep kernel learning (SVDKL) to discover low-dimensional latent spaces from data and a recurrent version of SVDKL for representing and predicting the evolution of latent dynamics. The proposed method is demonstrated with two challenging examples -- a double pendulum and a reaction-diffusion system. Results show that our framework is capable of (i) denoising and reconstructing measurements, (ii) learning compact representations of system states, (iii) predicting system evolution in low-dimensional latent spaces, and (iv) quantifying modeling uncertainties. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# シンボリックタスクからコード生成へ - 多様化によってタスクパフォーマが向上
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers ( http://arxiv.org/abs/2405.19787v1 ) ライセンス: Link先を確認 | Dylan Zhang, Justin Wang, Francois Charton, | (参考訳) インストラクションチューニング -- インストラクションとアウトプットのペアで大きな言語モデルをチューニングする -- は、モデルを現実世界に適応させるために有望なテクニックである。
しかし、トレーニング中に見えない指示を理解し、従うことができるモデルの能力を駆動する重要な要素は、まだ解明されていないままである。
我々の研究は、チューリング完全アルゴリズムであるマルコフアルゴリズムの理論的枠組みの中で一連の合成実験から始まり、命令調整データのきめ細かい制御を可能にする。
トレーニング分布に関する一般化と堅牢性は、各タスクに非常に少ない例があるにもかかわらず、多種多様なタスクセットが提供されると現れる。
コード生成の現実的なアプリケーションシナリオにこれらの初期結果を拡張し、コード関連タスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを発見した。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
Instruction tuning -- tuning large language models on instruction-output pairs -- is a promising technique for making models better adapted to the real world. Yet, the key factors driving the model's capability to understand and follow instructions not seen during training remain under-explored. Our investigation begins with a series of synthetic experiments within the theoretical framework of a Turing-complete algorithm called Markov algorithm, which allows fine-grained control over the instruction-tuning data. Generalization and robustness with respect to the training distribution emerge once a diverse enough set of tasks is provided, even though very few examples are provided for each task. We extend these initial results to a real-world application scenario of code generation and find that a more diverse instruction set, extending beyond code-related tasks, improves the performance of code generation. Our observations suggest that a more diverse semantic space for instruction-tuning sets greatly improves the model's ability to follow instructions and perform tasks. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# バイアス発生前の推定:フェデレーション・セミスーパーバイザード・ラーニングにおける事前バイアス除去へのベイズ的アプローチ
Estimating before Debiasing: A Bayesian Approach to Detaching Prior Bias in Federated Semi-Supervised Learning ( http://arxiv.org/abs/2405.19789v1 ) ライセンス: Link先を確認 | Guogang Zhu, Xuefeng Liu, Xinghao Wu, Shaojie Tang, Chao Tang, Jianwei Niu, Hao Su, | (参考訳) Federated Semi-Supervised Learning (FSSL)は、ラベル付きデータと未ラベルデータの両方を活用してモデルを協調的にトレーニングする。
既存のFSSLメソッドは、主にモデルパラメータや出力の一貫性を強化することでこの問題に対処する。
しかし、モデル自体にバイアスがあるため、単に一貫性を制約するだけでは予測バイアスを軽減するには不十分である。
本稿では,このバイアスをベイズ的視点から検討し,トレーニングデータ内のラベル先行バイアスから主に生じることを実証する。
この知見に基づいて,FedDBというFSSLのデバイアス化手法を提案する。
FedDBは、非ラベル付きデータ(APP-U)の平均予測確率を用いてバイアスの偏りを近似し、ローカルトレーニングでは、APP-Uを用いてベイズの定理を通じて擬似ラベルを洗練し、ラベルの偏りを著しく低減する。
同時に、モデルアグリゲーションの間、FedDBは参加するクライアントからのAPP-Uを使用して非バイアスの集約重みを定式化し、グローバルモデルにおけるバイアスを効果的に減少させる。
実験の結果、FedDBは既存のFSSLメソッドを超越できることがわかった。
コードはhttps://github.com/GuogangZhu/FedDBで入手できる。
Federated Semi-Supervised Learning (FSSL) leverages both labeled and unlabeled data on clients to collaboratively train a model.In FSSL, the heterogeneous data can introduce prediction bias into the model, causing the model's prediction to skew towards some certain classes. Existing FSSL methods primarily tackle this issue by enhancing consistency in model parameters or outputs. However, as the models themselves are biased, merely constraining their consistency is not sufficient to alleviate prediction bias. In this paper, we explore this bias from a Bayesian perspective and demonstrate that it principally originates from label prior bias within the training data. Building upon this insight, we propose a debiasing method for FSSL named FedDB. FedDB utilizes the Average Prediction Probability of Unlabeled Data (APP-U) to approximate the biased prior.During local training, FedDB employs APP-U to refine pseudo-labeling through Bayes' theorem, thereby significantly reducing the label prior bias. Concurrently, during the model aggregation, FedDB uses APP-U from participating clients to formulate unbiased aggregate weights, thereby effectively diminishing bias in the global model. Experimental results show that FedDB can surpass existing FSSL methods. The code is available at https://github.com/GuogangZhu/FedDB. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# PDDLEGO: テキスト環境における反復的計画
PDDLEGO: Iterative Planning in Textual Environments ( http://arxiv.org/abs/2405.19793v1 ) ライセンス: Link先を確認 | Li Zhang, Peter Jansen, Tianyi Zhang, Peter Clark, Chris Callison-Burch, Niket Tandon, | (参考訳) テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
最近の有望な作業ラインでは、LLMを使用して、シンボルプランナーによって解決可能な環境の形式表現を生成する。
しかしながら、既存のメソッドは、すべてのエンティティ状態が最初に知られている完全なオブザーブド環境に依存しているため、ワンオフ表現を構築することができ、完全な計画に繋がる。
対照的に、エンドゴールに向けて計画する十分な情報が当初存在しない部分的観測環境に取り組む。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
サブゴールを達成することで、より多くの情報を取得して表現を拡大し、最終的にエンドゴールを達成する。
複数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションのエンド・ツー・エンドのプランよりも43%効率が高く,より複雑なCooking Worldシミュレーションでは,エンド・ツー・エンドのLCMがコヒーレントなプランを生成できない(4%)。
Planning in textual environments have been shown to be a long-standing challenge even for current models. A recent, promising line of work uses LLMs to generate a formal representation of the environment that can be solved by a symbolic planner. However, existing methods rely on a fully-observed environment where all entity states are initially known, so a one-off representation can be constructed, leading to a complete plan. In contrast, we tackle partially-observed environments where there is initially no sufficient information to plan for the end-goal. We propose PDDLEGO that iteratively construct a planning representation that can lead to a partial plan for a given sub-goal. By accomplishing the sub-goal, more information is acquired to augment the representation, eventually achieving the end-goal. We show that plans produced by few-shot PDDLEGO are 43% more efficient than generating plans end-to-end on the Coin Collector simulation, with strong performance (98%) on the more complex Cooking World simulation where end-to-end LLMs fail to generate coherent plans (4%). | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# エゴセントリック360度カメラを用いた視覚障害者の映像質問応答
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera ( http://arxiv.org/abs/2405.19794v1 ) ライセンス: Link先を確認 | Inpyo Song, Minjun Joo, Joonhyung Kwon, Jangwon Lee, | (参考訳) 本稿では,視覚障害者が直面する日常的課題,例えば情報へのアクセス制限,ナビゲーションの困難,社会的相互作用への障壁について論じる。
これらの課題を軽減するために、我々は新しい視覚的質問応答データセットを導入する。
第一に、360度エゴセントリックなウェアラブルカメラで撮影したビデオで、以前のデータセットの静的なイメージ中心の性質から離れて、周囲全体を観察することができる。
第二に、特異な課題を中心としたデータセットとは異なり、我々の研究は革新的な視覚探索応答フレームワークを通じて、複数の現実の障害に同時に対処する。
我々は、さまざまな最先端のVideoQA手法と多様なメトリクスを用いてデータセットを検証する。
結果は、進歩が進んでいるものの、AIを活用した支援サービスの満足なパフォーマンスレベルは、視覚障害のある人にはあり得ないことを示唆している。
さらに、提案したデータセットの特徴を強調し、様々なシナリオにまたがる360度カメラで撮影されたビデオのエゴモーションを特徴付ける。
This paper addresses the daily challenges encountered by visually impaired individuals, such as limited access to information, navigation difficulties, and barriers to social interaction. To alleviate these challenges, we introduce a novel visual question answering dataset. Our dataset offers two significant advancements over previous datasets: Firstly, it features videos captured using a 360-degree egocentric wearable camera, enabling observation of the entire surroundings, departing from the static image-centric nature of prior datasets. Secondly, unlike datasets centered on singular challenges, ours addresses multiple real-life obstacles simultaneously through an innovative visual-question answering framework. We validate our dataset using various state-of-the-art VideoQA methods and diverse metrics. Results indicate that while progress has been made, satisfactory performance levels for AI-powered assistive services remain elusive for visually impaired individuals. Additionally, our evaluation highlights the distinctive features of the proposed dataset, featuring ego-motion in videos captured via 360-degree cameras across varied scenarios. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# ガーディアンとしてのSLM - 小さな言語モデルによるAI安全性のパイオニア化
SLM as Guardian: Pioneering AI Safety with Small Language Models ( http://arxiv.org/abs/2405.19795v1 ) ライセンス: Link先を確認 | Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park, | (参考訳) 大型言語モデル(LLM)のこれまでの安全研究は、人間の安全要件に合うようにLCMのアライメントを強化することに重点を置いている。
しかし、そのような安全機能をより大型のモデルに内包することで、より高い訓練コストと意図しない補助性の低下の課題がもたらされた。
このような課題を克服するために、LLMを小さくして有害なユーザクエリを検出するモジュラーアプローチは、LLMベースのシステムを安全要件で設計する上で便利なソリューションであると見なされている。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
安全要件と有害度カテゴリーの分類を導入し、2つのタスクを1つのモデルに融合させるマルチタスク学習機構を提案する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
Most prior safety research of large language models (LLMs) has focused on enhancing the alignment of LLMs to better suit the safety requirements of humans. However, internalizing such safeguard features into larger models brought challenges of higher training cost and unintended degradation of helpfulness. To overcome such challenges, a modular approach employing a smaller LLM to detect harmful user queries is regarded as a convenient solution in designing LLM-based system with safety requirements. In this paper, we leverage a smaller LLM for both harmful query detection and safeguard response generation. We introduce our safety requirements and the taxonomy of harmfulness categories, and then propose a multi-task learning mechanism fusing the two tasks into a single model. We demonstrate the effectiveness of our approach, providing on par or surpassing harmful query detection and safeguard response performance compared to the publicly available LLMs. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 説明可能な属性ベース話者検証
Explainable Attribute-Based Speaker Verification ( http://arxiv.org/abs/2405.19796v1 ) ライセンス: Link先を確認 | Xiaoliang Wu, Chau Luu, Peter Bell, Ajitha Rajan, | (参考訳) 本稿では,個々の話者特性に基本的に依存する課題である話者検証(SV)について,完全に説明可能なアプローチを提案する。
現在のSVシステムにおける話者属性の不透明な使用は、信頼の懸念を引き起こす。
そこで本稿では,音声録音から自動的に抽出される性別,国籍,年齢などの個人属性を比較し,話者を識別する属性ベースの説明可能なSVシステムを提案する。
このアプローチは人間の推論とよく一致し、従来の方法よりも理解しやすい、と私たちは信じています。
Voxceleb1 テストセットで評価すると,システムの性能は,すべての正解属性を用いて,その有効性を証明する上で確立された基礎的真理に匹敵する。
当社のアプローチでは、説明不可能な方法と比較してパフォーマンスを犠牲にしていますが、透過的で解釈可能なAIの目標に近づき、属性拡張による将来の拡張の基盤を築き上げていると信じています。
This paper proposes a fully explainable approach to speaker verification (SV), a task that fundamentally relies on individual speaker characteristics. The opaque use of speaker attributes in current SV systems raises concerns of trust. Addressing this, we propose an attribute-based explainable SV system that identifies speakers by comparing personal attributes such as gender, nationality, and age extracted automatically from voice recordings. We believe this approach better aligns with human reasoning, making it more understandable than traditional methods. Evaluated on the Voxceleb1 test set, the best performance of our system is comparable with the ground truth established when using all correct attributes, proving its efficacy. Whilst our approach sacrifices some performance compared to non-explainable methods, we believe that it moves us closer to the goal of transparent, interpretable AI and lays the groundwork for future enhancements through attribute expansion. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 対話談話パーシングとトピックセグメンテーションの教師なし相互学習
Unsupervised Mutual Learning of Dialogue Discourse Parsing and Topic Segmentation ( http://arxiv.org/abs/2405.19799v1 ) ライセンス: Link先を確認 | Jiahui Xu, Feng Jiang, Anningzhe Gao, Haizhou Li, | (参考訳) 大規模言語モデル(LLM)の進歩は対話システムの発展を促している。
ユーザの好みのみを満たす一般的なChatGPTのようなアシスタントモデルとは異なり、タスク指向の対話システムは、幅広いビジネス分野において新たな要件と課題に直面している。
それらは、各対話ターンで正しい応答を提供すると同時に、タスクによって定義された全体的な目標を達成することが期待されている。
トピックセグメンテーションと談話パーシングを通じて、修辞構造やトピック構造を理解することで、対話システムは両方の目的を達成するためのより良い計画を立てることができる。
しかしながら、両方の構造は言語学における談話構造に属するが、修辞構造と話題構造は、主に別々にモデル化されるか、あるいは、以前の研究で他方を補助する。
これら2つの構造間の相互作用は、共同モデリングや相互学習には考慮されていない。
さらに,これらを実現するための教師なし学習手法も十分に検討されていない。
このギャップを埋めるために,グローバルおよびローカルな相互接続を利用した2つの構造の教師なし相互学習フレームワークを提案する。
我々は,非隣接談話単位間のトピックモデリングを拡張し,レトリック構造とのグローバルな構造的関連性を確保する。
また、局所コヒーレンス整合性を確保するために、グラフニューラルネットワークモデルを用いて、レトリック構造をトピック構造に組み込む。
最後に,2つの融合構造間の類似性を相互学習に活用する。
実験の結果,本手法は2つの対話修辞的データセット(STACとMolweni)と対話的トピック・データセット(Doc2DialとTIAGE)において,強いベースラインを達成できた。
The advancement of large language models (LLMs) has propelled the development of dialogue systems. Unlike the popular ChatGPT-like assistant model, which only satisfies the user's preferences, task-oriented dialogue systems have also faced new requirements and challenges in the broader business field. They are expected to provide correct responses at each dialogue turn, at the same time, achieve the overall goal defined by the task. By understanding rhetorical structures and topic structures via topic segmentation and discourse parsing, a dialogue system may do a better planning to achieve both objectives. However, while both structures belong to discourse structure in linguistics, rhetorical structure and topic structure are mostly modeled separately or with one assisting the other in the prior work. The interaction between these two structures has not been considered for joint modeling and mutual learning. Furthermore, unsupervised learning techniques to achieve the above are not well explored. To fill this gap, we propose an unsupervised mutual learning framework of two structures leveraging the global and local connections between them. We extend the topic modeling between non-adjacent discourse units to ensure global structural relevance with rhetorical structures. We also incorporate rhetorical structures into the topic structure through a graph neural network model to ensure local coherence consistency. Finally, we utilize the similarity between the two fused structures for mutual learning. The experimental results demonstrate that our methods outperform all strong baselines on two dialogue rhetorical datasets (STAC and Molweni), as well as dialogue topic datasets (Doc2Dial and TIAGE). | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 長期船体事故リスク予測の鍵要因を探る
Exploring Key Factors for Long-Term Vessel Incident Risk Prediction ( http://arxiv.org/abs/2405.19804v1 ) ライセンス: Link先を確認 | Tianyi Chen, Hua Wang, Yutong Cai, Maohan Liang, Qiang Meng, | (参考訳) 要因分析は海洋安全を高める上で重要な役割を担っている。
過去の研究はインシデント関連ラベル予測の枠組みの中で因子分析を行い、そこで開発されたモデルを短期および長期の予測モデルに分類することができる。
長期モデルはより戦略的アプローチを提供し、短期モデルと比較して、より積極的なリスク管理を可能にします。
それにもかかわらず、長期的な予測の主要な要因を厳格に特定し、包括的な因子分析を行う研究はほとんどない。
そこで,本研究では,特定の日付スタンプが与えられた後年における事故リスクレベルを予測するための重要な要因を掘り下げることを目的とする。
事故リスクに影響を及ぼす可能性のある要因の大多数は、最大5年間にわたる船舶の過去の安全性能データから収集されている。
ランダムフォレスト分類器と特徴フィルタリング処理を統合した組込み特徴選択法を提案し, 候補プールから重要なリスク貢献要因を同定した。
その結果,入射予測および因子解釈可能性において,提案手法の優れた性能を示した。
総合的な分析は、海洋利害関係者がインシデント予防のために管理戦略を定式化するのに役立つ重要な要因に基づいて行われる。
Factor analysis acts a pivotal role in enhancing maritime safety. Most previous studies conduct factor analysis within the framework of incident-related label prediction, where the developed models can be categorized into short-term and long-term prediction models. The long-term models offer a more strategic approach, enabling more proactive risk management, compared to the short-term ones. Nevertheless, few studies have devoted to rigorously identifying the key factors for the long-term prediction and undertaking comprehensive factor analysis. Hence, this study aims to delve into the key factors for predicting the incident risk levels in the subsequent year given a specific datestamp. The majority of candidate factors potentially contributing to the incident risk are collected from vessels' historical safety performance data spanning up to five years. An improved embedded feature selection, which integrates Random Forest classifier with a feature filtering process is proposed to identify key risk-contributing factors from the candidate pool. The results demonstrate superior performance of the proposed method in incident prediction and factor interpretability. Comprehensive analysis is conducted upon the key factors, which could help maritime stakeholders formulate management strategies for incident prevenion. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# ReLUニューラルネットワークのインジェクティビティとサージェクティビティの決定の複雑さ
Complexity of Deciding Injectivity and Surjectivity of ReLU Neural Networks ( http://arxiv.org/abs/2405.19805v1 ) ライセンス: Link先を確認 | Vincent Froese, Moritz Grillo, Martin Skutella, | (参考訳) ReLUアクティベーションを持つニューラルネットワークは、現代の機械学習において重要な役割を果たす。
安全クリティカルな応用の観点からは、トレーニングされたネットワークの検証は非常に重要であり、インジェクティビティやサージェクティビティといった特徴を含むReLUネットワークによって計算される関数の本質的性質を徹底的に理解する必要がある。
最近、Puthawala et al [JMLR 2022] は、指数時間アルゴリズムを意味するReLU層のインジェクティビティのキャラクタリゼーションを考案した。
しかし、射影率を決定するための正確な計算複雑性は未解決のままであった。
我々は、ReLU層の単射率を決定するcoNP完全性を証明することで、この問題に答える。
正の面では、本研究の主な結果として、入力次元に関する問題の固定パラメータのトラクタビリティを導出するパラメータ化アルゴリズムを提案する。
また、1次元出力を持つ2層ReLUネットワークのサージェクティビティも特徴付ける。
興味深いことに、決定問題は、基本的なネットワーク検証タスクを補完するものであることが判明した。
本研究はNP硬度を推定し,従来ネットワーク検証問題で知られていたよりも硬度が強いことを示す。
最後に、双対包摂問題として全射性問題を定式化することにより、計算凸性への興味深い接続を明らかにする。
Neural networks with ReLU activation play a key role in modern machine learning. In view of safety-critical applications, the verification of trained networks is of great importance and necessitates a thorough understanding of essential properties of the function computed by a ReLU network, including characteristics like injectivity and surjectivity. Recently, Puthawala et al. [JMLR 2022] came up with a characterization for injectivity of a ReLU layer, which implies an exponential time algorithm. However, the exact computational complexity of deciding injectivity remained open. We answer this question by proving coNP-completeness of deciding injectivity of a ReLU layer. On the positive side, as our main result, we present a parameterized algorithm which yields fixed-parameter tractability of the problem with respect to the input dimension. In addition, we also characterize surjectivity for two-layer ReLU networks with one-dimensional output. Remarkably, the decision problem turns out to be the complement of a basic network verification task. We prove NP-hardness for surjectivity, implying a stronger hardness result than previously known for the network verification problem. Finally, we reveal interesting connections to computational convexity by formulating the surjectivity problem as a zonotope containment problem | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# フローマッチングによる優先アライメント
Preference Alignment with Flow Matching ( http://arxiv.org/abs/2405.19806v1 ) ライセンス: Link先を確認 | Minu Kim, Yongsik Lee, Sehyeok Kang, Jihwan Oh, Song Chong, Seyoung Yun, | (参考訳) PbRL(Preference Flow Matching)は、嗜好の任意のクラスへの統合を効率化する、嗜好に基づく強化学習(PbRL)のための新しいフレームワークである。
既存のPbRL法では、拡張性、非効率性、モデル修正の必要性といった課題を、特にGPT-4のようなブラックボックスAPIを使って、微調整された事前訓練モデルを必要とする。
対照的に、PFMはフローマッチング技術を用いて好みデータから直接学習し、事前訓練されたモデルの広範囲な微調整への依存を減らす。
フローベースのモデルを活用することで、PFMは好ましくないデータを好ましい結果に変換し、明示的あるいは暗黙的な報酬関数推定に頼ることなく、モデル出力と人間の好みを効果的に調整する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
実験の結果,提案手法の有効性が示され,事前学習したモデルを好みに整列させる新たな方向が提供される。
We present Preference Flow Matching (PFM), a new framework for preference-based reinforcement learning (PbRL) that streamlines the integration of preferences into an arbitrary class of pre-trained models. Existing PbRL methods require fine-tuning pre-trained models, which presents challenges such as scalability, inefficiency, and the need for model modifications, especially with black-box APIs like GPT-4. In contrast, PFM utilizes flow matching techniques to directly learn from preference data, thereby reducing the dependency on extensive fine-tuning of pre-trained models. By leveraging flow-based models, PFM transforms less preferred data into preferred outcomes, and effectively aligns model outputs with human preferences without relying on explicit or implicit reward function estimation, thus avoiding common issues like overfitting in reward models. We provide theoretical insights that support our method's alignment with standard PbRL objectives. Experimental results indicate the practical effectiveness of our method, offering a new direction in aligning a pre-trained model to preference. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# MetaCURL:非定常凹型ユーティリティ強化学習
MetaCURL: Non-stationary Concave Utility Reinforcement Learning ( http://arxiv.org/abs/2405.19807v1 ) ライセンス: Link先を確認 | Bianca Marin Moreno, Margaux Brégère, Pierre Gaillard, Nadia Oudjane, | (参考訳) 非定常環境(損失の変化と確率遷移)におけるエピソードループのないマルコフ決定過程におけるオンライン学習について検討する。
エージェントポリシーによって誘導される状態-作用分布における凸性能基準を扱うための古典的RLの拡張であるCURL(Concave Utility Reinforcement Learning problem)に注目した。
様々な機械学習問題はCURLと書くことができるが、その非線形性は従来のベルマン方程式を無効にする。
近年の古典的CURLのソリューションにもかかわらず、非定常MDPには対応していない。
本稿では,非定常MDPのための最初のCURLアルゴリズムであるMetaCURLを紹介する。
複数のブラックボックスアルゴリズムインスタンスを異なる間隔で実行し、睡眠専門家フレームワークを通じてアウトプットを集約するメタアルゴリズムを採用している。
鍵となるハードルは、MDPの不確実性による部分的な情報である。
確率遷移に関する部分的な情報(外部ノイズのみから生じる不確かさと非定常性)の下では、MDPの変化を事前に知ることなく最適な動的後悔を実現する。
RLのアプローチとは異なり、MetaCURLは確率的なアプローチではなく、完全な敵の損失を処理する。
専門家と非定常性を管理するための我々のアプローチは、RLコミュニティにとって関心のあるものだと考えています。
We explore online learning in episodic loop-free Markov decision processes on non-stationary environments (changing losses and probability transitions). Our focus is on the Concave Utility Reinforcement Learning problem (CURL), an extension of classical RL for handling convex performance criteria in state-action distributions induced by agent policies. While various machine learning problems can be written as CURL, its non-linearity invalidates traditional Bellman equations. Despite recent solutions to classical CURL, none address non-stationary MDPs. This paper introduces MetaCURL, the first CURL algorithm for non-stationary MDPs. It employs a meta-algorithm running multiple black-box algorithms instances over different intervals, aggregating outputs via a sleeping expert framework. The key hurdle is partial information due to MDP uncertainty. Under partial information on the probability transitions (uncertainty and non-stationarity coming only from external noise, independent of agent state-action pairs), we achieve optimal dynamic regret without prior knowledge of MDP changes. Unlike approaches for RL, MetaCURL handles full adversarial losses, not just stochastic ones. We believe our approach for managing non-stationarity with experts can be of interest to the RL community. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# エイリアンコンテンツとエイリアンメタセマンティックスを用いたAI
AI with Alien Content and Alien Metasemantics ( http://arxiv.org/abs/2405.19808v1 ) ライセンス: Link先を確認 | Herman Cappelen, Josh Dever, | (参考訳) AlphaGoはチェスと囲碁を創造的で斬新な方法でプレイする。
ボードスペースが多ければ、後ろにポーンがいくつかあるとは思えない、というような内容は、私たちにとって当然のことです。
Cappelen and Dever(2021年)で導入されたフレームワークは、AIコンテンツのセマンティクスとメタセマンティクスについて考える方法を提供する。
Cappelen氏とDever氏が考慮しなかった問題のひとつは、エイリアンのコンテンツの可能性だ。
エイリアンの内容は人間によって表現されない、あるいは表現できない内容である。
AlphaGoや他の高度なAIシステムが、エイリアンのコンテンツを表現しているということは、非常にあり得ることです。
そもそも、AIがコンテンツを楽しませる方法と関係があるという事実は、AIと人間のコンテンツという、まったく異なるエチオロジーを生み出します。
この章では、セマンティックとメタセマンティックの観点から、AIにおける異星のコンテンツに関する疑問を探求する。
それは、意味論的およびメタセマンティックな質問に対する可能な応答の論理的空間をレイアウトし、人間がエイリアンのコンテンツを表現するエンティティとどのようにコミュニケーションできるかを考察し、存在リスクやXAIのようなAI哲学のより「適用された」問題に対して、そのような質問を明確にすることは重要であると指摘する。
AlphaGo plays chess and Go in a creative and novel way. It is natural for us to attribute contents to it, such as that it doesn't view being several pawns behind, if it has more board space, as bad. The framework introduced in Cappelen and Dever (2021) provides a way of thinking about the semantics and the metasemantics of AI content: does AlphaGo entertain contents like this, and if so, in virtue of what does a given state of the program mean that particular content? One salient question Cappelen and Dever didn't consider was the possibility of alien content. Alien content is content that is not or cannot be expressed by human beings. It's highly plausible that AlphaGo, or any other sophisticated AI system, expresses alien contents. That this is so, moreover, is plausibly a metasemantic fact: a fact that has to do with how AI comes to entertain content in the first place, one that will heed the vastly different etiology of AI and human content. This chapter explores the question of alien content in AI from a semantic and metasemantic perspective. It lays out the logical space of possible responses to the semantic and metasemantic questions alien content poses, considers whether and how we humans could communicate with entities who express alien content, and points out that getting clear about such questions might be important for more 'applied' issues in the philosophy of AI, such as existential risk and XAI. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 多エージェントシステムにおける独立学習の近似的グローバル収束
Approximate Global Convergence of Independent Learning in Multi-Agent Systems ( http://arxiv.org/abs/2405.19811v1 ) ライセンス: Link先を確認 | Ruiyang Jin, Zaiwei Chen, Yiheng Lin, Jie Song, Adam Wierman, | (参考訳) 独立学習(IL)は、大規模マルチエージェントシステムにおいてスケーラビリティを実現するための一般的なアプローチであるが、通常はグローバルコンバージェンス保証を欠いている。
本稿では,独立なQ$学習と独立な自然なアクター批判という2つの代表的なアルゴリズムを,価値ベースのフレームワークとポリシーベースのフレームワークで検討し,近似的大域収束のための最初の有限サンプル解析を提供する。
その結果、サンプルの複雑さは$\tilde{\mathcal{O}}(\epsilon^{-2})$で、エージェント間の依存を捕捉し、グローバル収束を達成する際のILの基本的な限界を特徴づけるエラー項となる。
その結果, 分離可能なマルコフ決定プロセス(MDP)を構築し, 分離可能なMDPと元のMDPとのモデル差によるギャップを埋めることにより, ILを解析するための新しい手法を開発した。
さらに, 人工MDPと電気自動車充電の例を用いて数値実験を行い, 理論的知見を検証し, ILの実用性を示す。
Independent learning (IL), despite being a popular approach in practice to achieve scalability in large-scale multi-agent systems, usually lacks global convergence guarantees. In this paper, we study two representative algorithms, independent $Q$-learning and independent natural actor-critic, within value-based and policy-based frameworks, and provide the first finite-sample analysis for approximate global convergence. The results imply a sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$ up to an error term that captures the dependence among agents and characterizes the fundamental limit of IL in achieving global convergence. To establish the result, we develop a novel approach for analyzing IL by constructing a separable Markov decision process (MDP) for convergence analysis and then bounding the gap due to model difference between the separable MDP and the original one. Moreover, we conduct numerical experiments using a synthetic MDP and an electric vehicle charging example to verify our theoretical findings and to demonstrate the practical applicability of IL. | 翻訳日:2024-05-31 15:28:56 公開日:2024-05-30 |
# 設計検証における強化学習を用いた効率的な刺激生成
Efficient Stimuli Generation using Reinforcement Learning in Design Verification ( http://arxiv.org/abs/2405.19815v1 ) ライセンス: Link先を確認 | Deepak Narayan Gadde, Thomas Nalapat, Aman Kumar, Djones Lettnin, Wolfgang Kunz, Sebastian Simon, | (参考訳) System-on-Chips (SoCs) の設計の複雑さが増すにつれ、特に時間的にカバー対象を満たす場合、大きな検証問題が発生している。
現在、カバレッジクロージャは制約付きランダムおよびカバレッジ駆動型検証手法に大きく依存しており、ランダム化された刺激は特定のシナリオを検証し、カバレッジ目標に達するために境界づけられている。
このプロセスは徹底的であり、多くのプロジェクト時間を消費すると言われている。
本稿では,Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成する手法を提案する。
さらに、メタモデリングを使用して自動フレームワークを作成して、任意の設計のためのSystemVerilogテストベンチとRL環境を生成する。
提案手法は様々な設計に適用され,RLエージェントがベースラインランダムシミュレーションと比較してコードカバレッジを高速化する効果的な刺激を与えることを示す。
さらに, 各種RLエージェントと報奨スキームを本研究で分析した。
The increasing design complexity of System-on-Chips (SoCs) has led to significant verification challenges, particularly in meeting coverage targets within a timely manner. At present, coverage closure is heavily dependent on constrained random and coverage driven verification methodologies where the randomized stimuli are bounded to verify certain scenarios and to reach coverage goals. This process is said to be exhaustive and to consume a lot of project time. In this paper, a novel methodology is proposed to generate efficient stimuli with the help of Reinforcement Learning (RL) to reach the maximum code coverage of the Design Under Verification (DUV). Additionally, an automated framework is created using metamodeling to generate a SystemVerilog testbench and an RL environment for any given design. The proposed approach is applied to various designs and the produced results proves that the RL agent provides effective stimuli to achieve code coverage faster in comparison with baseline random simulations. Furthermore, various RL agents and reward schemes are analyzed in our work. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# 成長するTiny Network: 表現力のボツネックの発見と最適化
Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally ( http://arxiv.org/abs/2405.19816v1 ) ライセンス: Link先を確認 | Manon Verbockhaven, Sylvain Chevallier, Guillaume Charpiat, | (参考訳) 機械学習タスクは一般に最適化問題として定式化され、ある機能空間内で最適な関数を探索する。
実際には、勾配降下を行うためにパラメータ化された汎函数空間を考える。
通常、ニューラルネットワークアーキテクチャが選択され、固定され、そのパラメータ(接続重み付け)が最適化され、アーキテクチャに依存した結果が得られる。
しかしながら、この方法では、トレーニング中の機能の進化を、選択されたアーキテクチャで表現可能な領域内に配置させ、アーキテクチャ間の最適化を妨げます。
コストのかかるアーキテクチャのハイパーパラメータ最適化は、これを補うためにしばしば行われる。
代わりに、トレーニング中にアーキテクチャをその場で適応させることを提案します。
機能的勾配に従おうとする際の表現性ボトルネックによる望ましいアーキテクチャ変化に関する情報は, 後処理の % から抽出可能であることを示す。
そこで本研究では,表現性ボトルネックを数学的に定義し,必要な時に適切なニューロンを追加することにより,学習中にそのボトルネックを検出し,定量化し,解決することを可能にする。
したがって、表現性と最適化の理由から、1層あたりのニューロン数の観点からは、標準的なアプローチでは大きなネットワークを必要とするが、非常に小さなニューラルネットワークから始めて、それらを適切に成長させることができる。
概念実証として、CIFARデータセットにおいて、ニューラルネットワークの精度と競合するトレーニング時間とを一致させながら、標準的なアーキテクチャハイパーパラメータサーチの必要性を排除した結果を示す。
Machine learning tasks are generally formulated as optimization problems, where one searches for an optimal function within a certain functional space. In practice, parameterized functional spaces are considered, in order to be able to perform gradient descent. Typically, a neural network architecture is chosen and fixed, and its parameters (connection weights) are optimized, yielding an architecture-dependent result. This way of proceeding however forces the evolution of the function during training to lie within the realm of what is expressible with the chosen architecture, and prevents any optimization across architectures. Costly architectural hyper-parameter optimization is often performed to compensate for this. Instead, we propose to adapt the architecture on the fly during training. We show that the information about desirable architectural changes, due to expressivity bottlenecks when attempting to follow the functional gradient, can be extracted from %the backpropagation. To do this, we propose a mathematical definition of expressivity bottlenecks, which enables us to detect, quantify and solve them while training, by adding suitable neurons when and where needed. Thus, while the standard approach requires large networks, in terms of number of neurons per layer, for expressivity and optimization reasons, we are able to start with very small neural networks and let them grow appropriately. As a proof of concept, we show results~on the CIFAR dataset, matching large neural network accuracy, with competitive training time, while removing the need for standard architectural hyper-parameter search. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# IoT応用におけるシンボリックアグリゲート近似の性能検証
Performance Examination of Symbolic Aggregate Approximation in IoT Applications ( http://arxiv.org/abs/2405.19817v1 ) ライセンス: Link先を確認 | Suzana Veljanovska, Hans Dermot Doran, | (参考訳) シンボリックアグリゲート近似(英: Symbolic Aggregate ApproXimation、SAX)は、時系列データの分類や異常検出など、様々な領域で使われている時系列データに対する一般的な次元削減手法である。
ドメインには、形状輪郭を時系列データに変換してアーカイブされた矢印のエポック分類を行う形状認識も含まれる。
本稿では,コスト効率のよいIoT型プラットフォームに応答するアプリケーションであるSAXアルゴリズムに基づく次元削減と形状認識手法を提案する。
この課題は、単純な時系列次元の縮小から形状認識に至るまで、IoTライクなアプリケーションにおけるSAXアルゴリズムの計算コストに対処することにある。
アプローチは、形状の最も代表的な特徴を捉え保存しながら、次元空間を下げることに基づいている。
計算複雑性を増大させる3つのシナリオについて述べる。
Symbolic Aggregate approXimation (SAX) is a common dimensionality reduction approach for time-series data which has been employed in a variety of domains, including classification and anomaly detection in time-series data. Domains also include shape recognition where the shape outline is converted into time-series data forinstance epoch classification of archived arrowheads. In this paper we propose a dimensionality reduction and shape recognition approach based on the SAX algorithm, an application which requires responses on cost efficient, IoT-like, platforms. The challenge is largely dealing with the computational expense of the SAX algorithm in IoT-like applications, from simple time-series dimension reduction through shape recognition. The approach is based on lowering the dimensional space while capturing and preserving the most representative features of the shape. We present three scenarios of increasing computational complexity backing up our statements with measurement of performance characteristics | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# WebUOT-1M: 数百万のベンチマークで深海オブジェクトの追跡を改善
WebUOT-1M: Advancing Deep Underwater Object Tracking with A Million-Scale Benchmark ( http://arxiv.org/abs/2405.19818v1 ) ライセンス: Link先を確認 | Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang, | (参考訳) 水中物体追跡(英語: Underwater Object Tracking, UOT)は、水中のビデオシーケンス中の水中物質を特定し追跡するための基礎的なタスクである。
しかし、現在のUOTデータセットは、スケールの制限、ターゲットカテゴリやシナリオの多様性に悩まされており、現代の追跡アルゴリズムのトレーニングと評価を妨げている。
このギャップを埋めるために、私たちはまず第一歩を踏み出し、複雑な現実的な水中環境から得られた、これまでで最大の公開 UOT ベンチマークである WebUOT-1M, \ie を紹介します。
408のターゲットカテゴリからフィルタリングされた1500のビデオクリップに1100万のフレームで構成されており、これは以前のUOTデータセットである \eg, UVOT400をはるかに上回っている。
微妙な手動アノテーションと検証により,水中目標に対する高品質なバウンディングボックスを提供する。
さらに、WebUOT-1Mには、ビデオシーケンスのための言語プロンプトが含まれており、アプリケーション領域を拡大している。
ほとんどの既存のトラッカーは、屋外環境向けに調整されており、ドメインギャップのため、UOTに適用するとパフォーマンスが低下する。
これらのトラッカーのリトレーニングと微調整は、サンプルの不均衡と実際の水中データセットの制限により困難である。
これらの課題に対処するために,WebUOT-1Mに基づく新しいオムニ知識蒸留フレームワークを提案し,学生トランスフォーマーの学習指導に様々な戦略を取り入れた。
我々の知る限り、このフレームワークは、既存のUOTデータセットと新たに提案されたWebUOT-1Mの両方で実証されたように、知識蒸留を通じて、オープンエアドメイン知識をUOTモデルに効果的に転送する最初のフレームワークです。
さらに,30個のディープトラッカーを用いてWebUOT-1Mを包括的に評価し,今後の研究に新たな課題と機会を提供することで,UOT研究のベンチマークとしての価値を示す。
完全なデータセット、コード、追跡結果が公開されている。
Underwater object tracking (UOT) is a foundational task for identifying and tracing submerged entities in underwater video sequences. However, current UOT datasets suffer from limitations in scale, diversity of target categories and scenarios covered, hindering the training and evaluation of modern tracking algorithms. To bridge this gap, we take the first step and introduce WebUOT-1M, \ie, the largest public UOT benchmark to date, sourced from complex and realistic underwater environments. It comprises 1.1 million frames across 1,500 video clips filtered from 408 target categories, largely surpassing previous UOT datasets, \eg, UVOT400. Through meticulous manual annotation and verification, we provide high-quality bounding boxes for underwater targets. Additionally, WebUOT-1M includes language prompts for video sequences, expanding its application areas, \eg, underwater vision-language tracking. Most existing trackers are tailored for open-air environments, leading to performance degradation when applied to UOT due to domain gaps. Retraining and fine-tuning these trackers are challenging due to sample imbalances and limited real-world underwater datasets. To tackle these challenges, we propose a novel omni-knowledge distillation framework based on WebUOT-1M, incorporating various strategies to guide the learning of the student Transformer. To the best of our knowledge, this framework is the first to effectively transfer open-air domain knowledge to the UOT model through knowledge distillation, as demonstrated by results on both existing UOT datasets and the newly proposed WebUOT-1M. Furthermore, we comprehensively evaluate WebUOT-1M using 30 deep trackers, showcasing its value as a benchmark for UOT research by presenting new challenges and opportunities for future studies. The complete dataset, codes and tracking results, will be made publicly available. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# ゲーテッドフィールド:ゲーテッドビデオからシーン再構築を学ぶ
Gated Fields: Learning Scene Reconstruction from Gated Videos ( http://arxiv.org/abs/2405.19819v1 ) ライセンス: Link先を確認 | Andrea Ramazzina, Stefanie Walz, Pragyan Dahal, Mario Bijelic, Felix Heide, | (参考訳) 時間的観測から屋外の3Dシーンを再構築することは、最近のニューラルフィールドの研究が新しい道を提供してきた課題である。
しかし、RGBキャプチャからのみ、幾何学、外観、放射といったシーン特性を回復する既存の手法は、低照度またはテクスチャ不足の領域を扱う際に失敗することが多い。
同様に、LiDARセンサーをスキャンすることでシーンの復元も困難である。
これらのギャップに対処するため,能動ゲート映像シーケンスを利用したニューラルシーン再構成手法であるGated Fieldsを導入する。
この目的のために,時間付きキャプチャと照明をシームレスに組み込むニューラルレンダリング手法を提案する。
本手法は, ゲート映像の固有深度を生かし, 周囲の照明条件によらず, 精密かつ高密度な幾何再構成を実現する。
Gated Fields は RGB と LiDAR の再構成法とよく比較できる。
私たちのコードとデータセットはhttps://light.princeton.edu/gatedfields/で公開されています。
Reconstructing outdoor 3D scenes from temporal observations is a challenge that recent work on neural fields has offered a new avenue for. However, existing methods that recover scene properties, such as geometry, appearance, or radiance, solely from RGB captures often fail when handling poorly-lit or texture-deficient regions. Similarly, recovering scenes with scanning LiDAR sensors is also difficult due to their low angular sampling rate which makes recovering expansive real-world scenes difficult. Tackling these gaps, we introduce Gated Fields - a neural scene reconstruction method that utilizes active gated video sequences. To this end, we propose a neural rendering approach that seamlessly incorporates time-gated capture and illumination. Our method exploits the intrinsic depth cues in the gated videos, achieving precise and dense geometry reconstruction irrespective of ambient illumination conditions. We validate the method across day and night scenarios and find that Gated Fields compares favorably to RGB and LiDAR reconstruction methods. Our code and datasets are available at https://light.princeton.edu/gatedfields/. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# 極低温における2次元PbSナノプレートの分極サブMeV発光
Polarized sub-meV Photoluminescence in 2D PbS Nanoplatelets at Cryogenic Temperatures ( http://arxiv.org/abs/2405.19821v1 ) ライセンス: Link先を確認 | Pengji Li, Leon Biesterfeld, Lars Klepzig, Jingzhong Yang, Huu Thoai Ngo, Ahmed Addad, Tom N. Rakow, Ruolin Guan, Eddy P. Rugeramigabo, Louis Biadala, Jannika Lauth, Michael Zopf, | (参考訳) コロイド半導体ナノ結晶は、その多用途化学と光発光(PL)特性のために古典的および量子的光源に期待できる材料である。
可視放出物質はよく確立されているが、優れた(近赤外線)赤外線源の追求は続いている。
この点において注目すべき候補の1つは、CdSe NPLの典型的な発光範囲限界に直結する720nm (1.7 eV)の励起発光を示す発光性2次元(2D)PbSナノプレートレット(NPL)である。
本稿では,この材料クラスから低温PLを総合的に分析する。
超薄型2D PbS NPLは、走査透過電子顕微鏡により高い結晶性を示し、重なり合う構造におけるモアレパターンを明らかにする。
4Kでは,1個のPbS NPLの特異なPL特性が観察され,線路幅が0.6mVまで狭いゼロフォノン線と,直線偏光度90%までの範囲で観測された。
時間分解測定では、トリオンは2.3 nsの崩壊時間を持つ支配的な放出源である。
サブMeVスペクトルの拡散は観察され、数分で瞬きは見られず、また離散スペクトルのジャンプは記憶効果を伴わない。
これらの知見はコロイドPbS NPLの光学および量子技術への理解と基盤となる。
Colloidal semiconductor nanocrystals are promising materials for classical and quantum light sources due to their versatile chemistry and efficient photoluminescence (PL) properties. While visible emitters are well-established, the pursuit of excellent (near-)infrared sources continues. One notable candidate in this regard are photoluminescent two-dimensional (2D) PbS nanoplatelets (NPLs) exhibiting excitonic emission at 720 nm (1.7 eV) directly tying to the typical emission range limit of CdSe NPLs. Here, we present the first comprehensive analysis of low-temperature PL from this material class. Ultrathin 2D PbS NPLs exhibit high crystallinity confirmed by scanning transmission electron microscopy, and revealing Moire patterns in overlapping structures. At 4K, we observe unique PL features in single PbS NPLs, including narrow zero-phonon lines with line widths down to 0.6 meV and a linear degree of polarization up to 90%. Time-resolved measurements identify trions as the dominant emission source with a 2.3 ns decay time. Sub-meV spectral diffusion and no immanent blinking over minutes is observed, as well as discrete spectral jumps without memory effects. These findings advance the understanding and underpin the potential of colloidal PbS NPLs for optical and quantum technologies. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# 強基線法の導入による合成データの物体検出学習の改善
Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology ( http://arxiv.org/abs/2405.19822v1 ) ライセンス: Link先を確認 | Frank A. Ruis, Alma M. Liezenga, Friso G. Heslinga, Luca Ballan, Thijs A. Eker, Richard J. M. den Hollander, Martin C. van Leeuwen, Judith Dijk, Wyke Huizinga, | (参考訳) オブジェクト検出モデルの開発のための実世界のデータの収集と注釈付けは、時間とコストのかかるプロセスである。
特に軍事領域では、データ収集は危険か不可能である。
合成データのトレーニングモデルは、現実世界のトレーニングデータへのアクセスが制限された場合のソリューションを提供するかもしれない。
しかし、合成データと実際のデータの間に現実のギャップを埋めることは依然として課題である。
既存の手法は通常、ベースラインの畳み込みニューラルネットワーク(CNN)モデルに基づいて構築される。
例えば、一部のアーキテクチャでは、大量のトレーニングデータの期待に応じて微調整が可能であり、合成データに過度に適合する傾向がある。
関連する作業は通常、オブジェクト検出から実際のデータへのさまざまなベストプラクティスを無視している。
本稿では,合成データの学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
最先端技術に基づいて,データ拡張手法とTransformerのバックボーンを組み込んだ。
特殊な合成データ転送手法を使わずに比較的高い性能を達成することに加えて,本手法はRarePlanesおよびDGTA-VisDroneデータセットの合成データトレーニング対象検出の最先端性を向上し,車内検出データセット上でほぼ完全な性能に達することを示す。
Collecting and annotating real-world data for the development of object detection models is a time-consuming and expensive process. In the military domain in particular, data collection can also be dangerous or infeasible. Training models on synthetic data may provide a solution for cases where access to real-world training data is restricted. However, bridging the reality gap between synthetic and real data remains a challenge. Existing methods usually build on top of baseline Convolutional Neural Network (CNN) models that have been shown to perform well when trained on real data, but have limited ability to perform well when trained on synthetic data. For example, some architectures allow for fine-tuning with the expectation of large quantities of training data and are prone to overfitting on synthetic data. Related work usually ignores various best practices from object detection on real data, e.g. by training on synthetic data from a single environment with relatively little variation. In this paper we propose a methodology for improving the performance of a pre-trained object detector when training on synthetic data. Our approach focuses on extracting the salient information from synthetic data without forgetting useful features learned from pre-training on real images. Based on the state of the art, we incorporate data augmentation methods and a Transformer backbone. Besides reaching relatively strong performance without any specialized synthetic data transfer methods, we show that our methods improve the state of the art on synthetic data trained object detection for the RarePlanes and DGTA-VisDrone datasets, and reach near-perfect performance on an in-house vehicle detection dataset. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# ロバスト時系列異常検出のための連立選択状態空間モデルとデトレクション
Joint Selective State Space Model and Detrending for Robust Time Series Anomaly Detection ( http://arxiv.org/abs/2405.19823v1 ) ライセンス: Link先を確認 | Junqi Chen, Xu Tan, Sylwan Rahardja, Jiawei Yang, Susanto Rahardja, | (参考訳) 深層学習に基づくシーケンスモデルは、効率的な逐次モデリング機能のため、時系列異常検出(TSAD)タスクに広く採用されている。
しかし、TSADの能力は2つの主要な課題によって制限されている。
一 長距離依存をモデル化する能力及び
(II)非定常データが存在する場合の一般化問題。
これらの課題に対処するために、様々な領域にまたがる長期的依存関係を捕捉する能力で知られている選択的状態空間モデルを活用する異常検出器を提案する。
さらに、非定常データにおける顕著なトレンド成分を緩和し、一般化問題に対処する多段抑止機構を導入する。
実世界の公開データセットで実施された大規模な実験により、提案手法が12の比較ベースライン法をすべて超越していることが証明された。
Deep learning-based sequence models are extensively employed in Time Series Anomaly Detection (TSAD) tasks due to their effective sequential modeling capabilities. However, the ability of TSAD is limited by two key challenges: (i) the ability to model long-range dependency and (ii) the generalization issue in the presence of non-stationary data. To tackle these challenges, an anomaly detector that leverages the selective state space model known for its proficiency in capturing long-term dependencies across various domains is proposed. Additionally, a multi-stage detrending mechanism is introduced to mitigate the prominent trend component in non-stationary data to address the generalization issue. Extensive experiments conducted on realworld public datasets demonstrate that the proposed methods surpass all 12 compared baseline methods. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# もう一度書き直す: 意味的類似性向上のための後処理手法と差分的私的書き直しテキストのプライバシー保護
Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text ( http://arxiv.org/abs/2405.19831v1 ) ライセンス: Link先を確認 | Stephen Meisenbacher, Florian Matthes, | (参考訳) 自然言語処理における微分プライバシ(DP)の研究は、テキストのプライベート化のタスクを$\textit{rewriting}$タスクとみなし、機密性の高い入力テキストを書き換えて、明示的または暗黙的なプライベート情報を隠す。
DPテキスト書き換え機構のプライバシ保存機能を評価するために、$\textit{empirical privacy}$ testが頻繁に使用される。
これらのテストでは、敵対者が、(民営化)テキストの背後にある著者に関するセンシティブな情報(例えば、性別)を推測することを目的として、モデル化される。
DP書き換え法によって提供される経験的保護を改善するために,DP書き換え文を元のテキストと整合させることを目的とし,簡単な後処理手法を提案する。
以上の結果から,このような手法は,本来の入力を意味的に反映した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
そこで本手法は,DP書き換え手法の実証的プライバシ評価における限界を高め,悪意のある敵に対する保護の余分なレイヤを提供する。
The study of Differential Privacy (DP) in Natural Language Processing often views the task of text privatization as a $\textit{rewriting}$ task, in which sensitive input texts are rewritten to hide explicit or implicit private information. In order to evaluate the privacy-preserving capabilities of a DP text rewriting mechanism, $\textit{empirical privacy}$ tests are frequently employed. In these tests, an adversary is modeled, who aims to infer sensitive information (e.g., gender) about the author behind a (privatized) text. Looking to improve the empirical protections provided by DP rewriting methods, we propose a simple post-processing method based on the goal of aligning rewritten texts with their original counterparts, where DP rewritten texts are rewritten $\textit{again}$. Our results shown that such an approach not only produces outputs that are more semantically reminiscent of the original inputs, but also texts which score on average better in empirical privacy evaluations. Therefore, our approach raises the bar for DP rewriting methods in their empirical privacy evaluations, providing an extra layer of protection against malicious adversaries. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# AIの安全性:アーマゲドンへの夢?
AI Safety: A Climb To Armageddon? ( http://arxiv.org/abs/2405.19832v1 ) ライセンス: Link先を確認 | Herman Cappelen, Josh Dever, John Hawthorne, | (参考訳) 本稿では,既存のリスクを軽減するのではなく,AIの安全性対策によってさらに悪化する可能性について論じる。
AIの失敗の必然性、障害の時点におけるAIシステムのパワーと結果の害の重大さとの期待された相関、失敗前にAIシステムがより強力になるための安全対策の傾向など、いくつかの重要な前提の下では、安全性の取り組みには、負の期待された実用性がある。
本稿では,最適化,緩和,ホロリズムの3つの対応戦略について検討する。
それぞれの課題は、私たちがBottlenecking、Perfection Barrier、Equilibrium Fluctuationと呼んでいる、AIの安全性ランドスケープの本質的な特徴に起因しています。
この議論の驚くべき堅牢性は、AIの安全性に関するコア前提の再検討を迫られ、さらなる研究のためのいくつかの道のりを指し示している。
This paper presents an argument that certain AI safety measures, rather than mitigating existential risk, may instead exacerbate it. Under certain key assumptions - the inevitability of AI failure, the expected correlation between an AI system's power at the point of failure and the severity of the resulting harm, and the tendency of safety measures to enable AI systems to become more powerful before failing - safety efforts have negative expected utility. The paper examines three response strategies: Optimism, Mitigation, and Holism. Each faces challenges stemming from intrinsic features of the AI safety landscape that we term Bottlenecking, the Perfection Barrier, and Equilibrium Fluctuation. The surprising robustness of the argument forces a re-examination of core assumptions around AI safety and points to several avenues for further research. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# KITRO:2Dクローズとキネマティックツリー回転による人間のメッシュの精製
KITRO: Refining Human Mesh by 2D Clues and Kinematic-tree Rotation ( http://arxiv.org/abs/2405.19833v1 ) ライセンス: Link先を確認 | Fengyuan Yang, Kerui Gu, Angela Yao, | (参考訳) 2次元キーポイントは、推定された3次元メッシュを洗練するための追加のキューとして一般的に使用される。
現在の手法では、与えられた2Dキーポイントに再投影損失を伴って、ポーズパラメータと形状パラメータを最適化する。
このようなアプローチは単純で直感的ではあるが、最適解が不明瞭なパラメータ空間で見つけることは困難であり、深さを犠牲にする可能性があるため、有効性は限られている。
さらに、遠位関節からの分岐勾配は、キネマティック鎖における近位関節の洗練を複雑にし、逸脱させる。
そこで本研究では,深度と人体木構造を明示的にモデル化したメッシュ改良戦略であるKITRO(Kinematic-Tree Rotation)を紹介する。
KITROは骨学的観点からの精製を扱っている。
勾配に基づく最適化を行う従来の方法とは異なり,本手法は骨方向をクローズドな形で計算する。
2Dポーズ, 骨長, 親関節深度を考慮し, それぞれの子関節に対して2方向の計算を行う。
次に、決定木を用いて、人間の骨格のキネマティックツリーに沿った全ての骨の2進選択をトレースし、最も可能性の高い仮説を選択する。
各種データセットおよびベースラインモデルを用いた実験により,KITROは3次元関節推定精度を大幅に向上し,同時に理想的な2次元適合性が得られることが示された。
私たちのコードは、https://github.com/MartaYang/KITRO.comで公開しています。
2D keypoints are commonly used as an additional cue to refine estimated 3D human meshes. Current methods optimize the pose and shape parameters with a reprojection loss on the provided 2D keypoints. Such an approach, while simple and intuitive, has limited effectiveness because the optimal solution is hard to find in ambiguous parameter space and may sacrifice depth. Additionally, divergent gradients from distal joints complicate and deviate the refinement of proximal joints in the kinematic chain. To address these, we introduce Kinematic-Tree Rotation (KITRO), a novel mesh refinement strategy that explicitly models depth and human kinematic-tree structure. KITRO treats refinement from a bone-wise perspective. Unlike previous methods which perform gradient-based optimizations, our method calculates bone directions in closed form. By accounting for the 2D pose, bone length, and parent joint's depth, the calculation results in two possible directions for each child joint. We then use a decision tree to trace binary choices for all bones along the human skeleton's kinematic-tree to select the most probable hypothesis. Our experiments across various datasets and baseline models demonstrate that KITRO significantly improves 3D joint estimation accuracy and achieves an ideal 2D fit simultaneously. Our code available at: https://github.com/MartaYang/KITRO. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# ニューラルフラッド予測のための河川ネットワークトポロジのメリット
The Merit of River Network Topology for Neural Flood Forecasting ( http://arxiv.org/abs/2405.19836v1 ) ライセンス: Link先を確認 | Nikolas Kirschstein, Yixuan Sun, | (参考訳) 気候変動は河川の洪水を悪化させ、その頻度と強度はかつてないほど高くなる。
待ち望まれている予測システムは、通常正確な川の排出予測に依存している。
この目的のために、SOTAデータ駆動型アプローチは、同じ河川ネットワーク内であっても、空間分布のゲージステーションでの予測を独立した問題として扱う。
しかし,河川ネットワークの既知のトポロジを予測モデルに組み込むことで,ゲージ間の隣接関係を活用できる可能性がある。
そこで本稿では,GNNを用いたガーグステーション網の河川流出をモデル化し,その予測性能を異なる隣接条件で比較する。
以上の結果から, 河川網のトポロジ情報から, 河川網全体と小部分グラフの双方において, モデルが便益を得られないことが示唆された。
学習したエッジウェイトは静的定義のどちらとも相関せず、通常のパターンも示さない。
さらに、GNNは突然の、狭い放電のスパイクを予測するのに苦労している。
我々の研究は、必ずしもグラフィカルな構造から恩恵を受けるとは限らない、より一般的な神経予測の現象を示唆し、それが起こる条件について体系的な研究を誘発する可能性がある。
Climate change exacerbates riverine floods, which occur with higher frequency and intensity than ever. The much-needed forecasting systems typically rely on accurate river discharge predictions. To this end, the SOTA data-driven approaches treat forecasting at spatially distributed gauge stations as isolated problems, even within the same river network. However, incorporating the known topology of the river network into the prediction model has the potential to leverage the adjacency relationship between gauges. Thus, we model river discharge for a network of gauging stations with GNNs and compare the forecasting performance achieved by different adjacency definitions. Our results show that the model fails to benefit from the river network topology information, both on the entire network and small subgraphs. The learned edge weights correlate with neither of the static definitions and exhibit no regular pattern. Furthermore, the GNNs struggle to predict sudden, narrow discharge spikes. Our work hints at a more general underlying phenomenon of neural prediction not always benefitting from graphical structure and may inspire a systematic study of the conditions under which this happens. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# 人工知能時代の生涯学習課題--計算思考の視点から
Lifelong learning challenges in the era of artificial intelligence: a computational thinking perspective ( http://arxiv.org/abs/2405.19837v1 ) ライセンス: Link先を確認 | Margarida Romero, | (参考訳) 人工知能(AI)の急速な進歩は、職場での人間とAIのコラボレーションにAIを活用するために必要な教育と労働力のスキルに大きな課題をもたらした。
AIは産業や求人市場を変革し続けており、生涯学習においてAIリテラシーをどのように考えるかを定義する必要性はますます重要になっている(Cetindamar et al , 2022; Laupichler et al , 2022; Romero et al , 2023)。
あらゆる新しい技術と同様に、AIは希望と恐怖の両方の主題であり、今日の課題に関係している(Cugurullo \&Acheampong, 2023; Villani et al , 2018)。
それはまた、私たち自身の人間性に関する深い疑問を提起します。
マシンは、それを設計した人間の知性を上回るだろうか?
いわゆるAIと人間の知性の関係はどうなるのか?
持続可能な開発目標(SDG)を実現する方法として、人間とAIのコラボレーションをどのように規制するか?
本稿では、計算思考、批判的思考、創造的能力の観点からAI時代の生涯学習の課題を概観し、組織におけるマネジメントとリーダーシップの意義を明らかにする。
The rapid advancement of artificial intelligence (AI) has brought significant challenges to the education and workforce skills required to take advantage of AI for human-AI collaboration in the workplace. As AI continues to reshape industries and job markets, the need to define how AI literacy can be considered in lifelong learning has become increasingly critical (Cetindamar et al., 2022; Laupichler et al., 2022; Romero et al., 2023). Like any new technology, AI is the subject of both hopes and fears, and what it entails today presents major challenges (Cugurullo \& Acheampong, 2023; Villani et al., 2018). It also raises profound questions about our own humanity. Will the machine surpass the intelligence of the humans who designed it? What will be the relationship between so-called AI and our human intelligences? How could human-AI collaboration be regulated in a way that serves the Sustainable Development Goals (SDGs)? This paper provides a review of the challenges of lifelong learning in the era of AI from a computational thinking, critical thinking, and creative competencies perspective, highlighting the implications for management and leadership in organizations. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# Cascading Decomposed CoTs蒸留による学生の一般性向上
Improve Student's Reasoning Generalizability through Cascading Decomposed CoTs Distillation ( http://arxiv.org/abs/2405.19842v1 ) ライセンス: Link先を確認 | Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu, | (参考訳) 大規模言語モデル(LLMs)は、より大規模に推論を強化し、教師の学習を通じてこれらの能力をより小さなモデルに抽出する試みを推進している。
これまでの作業は、教師が生成したCoT(Chain-of-Thoughts)データに基づいて、学生モデルを微調整するだけでした。
これらの手法はドメイン内推論性能を向上させるが、オフ・オブ・ドメイン(OOD)タスクへの一般化に苦慮している。
我々は、質問と回答の広範囲な相互関係が、その推論プロセスの多様性と一般化性を制限する特定の回答を事前設定する原因になると考えている。
本稿では,従来の単段階学習プロセスを2段階に分解し,CasCoD(Cascading Decomposed CoTs Distillation)を提案する。
具体的には、学習目標の再構築 -- アウトプットから回答を取り除き、質問を合理化して入力とすることで、CasCoDの2段階の学習プロセスは、学生が予め設定された回答からの干渉なしに合理性を学ぶことに集中することを保証し、推論の一般化性を向上させる。
大規模な実験は、INDおよびOODベンチマーク推論データセットにおけるCasCoDの有効性を示す。
コードはhttps://github.com/C-W-D/CasCoDで参照できる。
Large language models (LLMs) exhibit enhanced reasoning at larger scales, driving efforts to distill these capabilities into smaller models via teacher-student learning. Previous works simply fine-tune student models on teachers' generated Chain-of-Thoughts (CoTs) data. Although these methods enhance in-domain (IND) reasoning performance, they struggle to generalize to out-of-domain (OOD) tasks. We believe that the widespread spurious correlations between questions and answers may lead the model to preset a specific answer which restricts the diversity and generalizability of its reasoning process. In this paper, we propose Cascading Decomposed CoTs Distillation (CasCoD) to address these issues by decomposing the traditional single-step learning process into two cascaded learning steps. Specifically, by restructuring the training objectives -- removing the answer from outputs and concatenating the question with the rationale as input -- CasCoD's two-step learning process ensures that students focus on learning rationales without interference from the preset answers, thus improving reasoning generalizability. Extensive experiments demonstrate the effectiveness of CasCoD on both IND and OOD benchmark reasoning datasets. Code can be found at https://github.com/C-W-D/CasCoD. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# Quest:大規模言語モデルの長文スケーリングのためのクエリ中心のデータ合成手法
Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model ( http://arxiv.org/abs/2405.19846v1 ) ライセンス: Link先を確認 | Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu, | (参考訳) 大規模な言語モデルは、最初は限られたコンテキスト長で事前訓練され、拡張されたコンテキストを持つコーパスでのトレーニングを継続することで、より長いテキストを扱うことができる。
しかし、複数のドメインにまたがる長文の不足と不均一な分散のため、有効な長文データを取得することは困難である。
この問題に対処するために,クエストと略されるクエリ中心のデータ合成手法を提案する。
Quest(クエスト)は、類似したクエリによって検索された文書は関連性はあるが、低冗長であり、長文データの合成に適しているという観察に基づく解釈可能な手法である。
この方法はスケーラブルで、大量の長文データを構築することができる。
Questを用いてコンテキスト長128kまでの長文データセットを合成し、複数の長文ベンチマークデータセットにおいて、他のデータ合成方法よりも大幅に優れています。
さらに,法実験のスケーリングによってQuest法が予測可能であることを確認する。
Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models. | 翻訳日:2024-05-31 15:18:46 公開日:2024-05-30 |
# 人間のモビリティの解読:大規模言語モデルを用いた軌道のセマンティックスの推定
Deciphering Human Mobility: Inferring Semantics of Trajectories with Large Language Models ( http://arxiv.org/abs/2405.19850v1 ) ライセンス: Link先を確認 | Yuxiao Luo, Zhongcai Cao, Xin Jin, Kang Liu, Ling Yin, | (参考訳) ヒトの移動パターンを理解することは、都市計画から公共の安全まで、様々な応用に不可欠である。
携帯電話の位置データのような個々の軌跡は時空間情報に富んでいるが、意味的詳細を欠くことが多く、深層移動解析に有効である。
既存の手法では、このデータから基本的なルーチンのアクティビティシーケンスを推測することができ、複雑な人間の行動やユーザの特性の理解の深みが欠如している。
さらに、旅行調査のような難しい補助的なデータセットへの依存に苦慮している。
これらの制約に対処するために,ユーザ占有カテゴリ,アクティビティシーケンス,トラジェクティブ記述という3つの重要な側面によるトラジェクティブ意味推論を定義し,トラジェクティブ意味論を包括的かつ深く活用するためのトラジェクティブ意味推論(TSI-LLM)フレームワークを提案する。
我々は、時空間属性強化データフォーマッティング(STFormat)を採用し、文脈包括的プロンプトを設計し、LLMが軌道データのセマンティクスをより効果的に解釈し、推論できるようにする。
実世界の軌道データセットに対する実験的検証は、複雑な人間の移動パターンの解読におけるTSI-LLMの有効性を示す。
本研究では,軌跡データのセマンティック分析を向上し,より高度でアクセスしやすい人体移動研究への道を開く上で,LLMsの可能性を探る。
Understanding human mobility patterns is essential for various applications, from urban planning to public safety. The individual trajectory such as mobile phone location data, while rich in spatio-temporal information, often lacks semantic detail, limiting its utility for in-depth mobility analysis. Existing methods can infer basic routine activity sequences from this data, lacking depth in understanding complex human behaviors and users' characteristics. Additionally, they struggle with the dependency on hard-to-obtain auxiliary datasets like travel surveys. To address these limitations, this paper defines trajectory semantic inference through three key dimensions: user occupation category, activity sequence, and trajectory description, and proposes the Trajectory Semantic Inference with Large Language Models (TSI-LLM) framework to leverage LLMs infer trajectory semantics comprehensively and deeply. We adopt spatio-temporal attributes enhanced data formatting (STFormat) and design a context-inclusive prompt, enabling LLMs to more effectively interpret and infer the semantics of trajectory data. Experimental validation on real-world trajectory datasets demonstrates the efficacy of TSI-LLM in deciphering complex human mobility patterns. This study explores the potential of LLMs in enhancing the semantic analysis of trajectory data, paving the way for more sophisticated and accessible human mobility research. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# DNS統合のガーディアン:インターネット全体でDNSSECバリデータを識別するためのリモートメソッド
Guardians of DNS Integrity: A Remote Method for Identifying DNSSEC Validators Across the Internet ( http://arxiv.org/abs/2405.19851v1 ) ライセンス: Link先を確認 | Yevheniya Nosyk, Maciej Korczyński, Andrzej Duda, | (参考訳) DNS Security Extensions (DNSSEC)は、DNSキャッシュ中毒攻撃と戦う最も効果的な方法を提供する。
しかし、DNSSEC検証を実行するDNSリゾルバはごくわずかである。
このようなシステムを特定することは簡単ではなく、既存の手法はインターネット規模の測定には適していない。
本稿では,DNSSEC検証リゾルバを識別するための新しいリモート手法を提案する。
提案手法は2つのステップからなる。
最初のステップでは、310億のエンドホストをスキャンしてオープンリゾルバを特定し、すべての非フォワードが1つの正しいドメインと7つの意図的に設定されていないドメインを解決するように要求する。
次に、クエリパターンとDNS応答コードに基づいて、バリデータと非バリデータを区別する分類器を構築します。
ほとんどのオープンリゾルバはDNSSEC対応であるが、IPv4の18%(IPv6の38%)は受信した応答を検証している。
第2のステップでは、インバウンドソースアドレスバリデーション(SAV)を持たないネットワーク内の閉じた非フォワードを遠隔で識別する。
ステップ1で構築された分類器を用いて、37.4%のIPv4 (42.9% IPv6) のクローズドDNSSECバリデータを特定し、RIPE Atlasプローブを使用して結果を相互検証する。
最後に、発見された(非)バリケータがDNSルートサーバにリクエストを積極的に送信していることを示し、不正設定されたマシンではなく、運用上の再帰的なリゾルバに対処することを示唆する。
DNS Security Extensions (DNSSEC) provide the most effective way to fight DNS cache poisoning attacks. Yet, very few DNS resolvers perform DNSSEC validation. Identifying such systems is non-trivial and the existing methods are not suitable for Internet-scale measurements. In this paper, we propose a novel remote technique for identifying DNSSEC-validating resolvers. The proposed method consists of two steps. In the first step, we identify open resolvers by scanning 3.1 billion end hosts and request every non-forwarder to resolve one correct and seven deliberately misconfigured domains. We then build a classifier that discriminates validators from non-validators based on query patterns and DNS response codes. We find that while most open resolvers are DNSSEC-enabled, less than 18% in IPv4 (38% in IPv6) validate received responses. In the second step, we remotely identify closed non-forwarders in networks that do not have inbound Source Address Validation (SAV) in place. Using the classifier built in step one, we identify 37.4% IPv4 (42.9% IPv6) closed DNSSEC validators and cross-validate the results using RIPE Atlas probes. Finally, we show that the discovered (non)-validators actively send requests to DNS root servers, suggesting that we deal with operational recursive resolvers rather than misconfigured machines. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# RTGen:オープン語彙オブジェクト検出のための領域テキストペアの生成
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2405.19854v1 ) ライセンス: Link先を確認 | Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides, | (参考訳) OVD (Open-vocabulary Object Detection) は、大容量の領域テキストペアから学習可能な、領域-意味関係のソリッド・モデリングを必要とする。
しかし、こうしたデータはかなりのアノテーションコストのため、実際には限られている。
本研究では,拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案し,オープン語彙オブジェクト検出の性能向上を実証する。
RTGenは、スケーラブルな画像キャプチャーデータに対して、テキスト・ツー・リージョンとリージョン・ツー・テキストの生成プロセスの両方を含んでいる。
テキスト・ツー・リージョン生成は画像のインパインティングによって実現され、レイアウト全体の調和のために提案したシーン認識型インパインティング・ガイドによって誘導される。
地域間テキスト生成では、複数の領域レベルの画像キャプションを様々なプロンプトで実行し、CLIPの類似性に応じて最適なテキストを選択する。
また,領域テキストペアの検出訓練を容易にするために,異なる位置化特性に適合したオブジェクト提案を学習する,局所化対応の領域テキストコントラスト損失を導入する。
大規模な実験により、我々のRTGenは、オープンな語彙オブジェクト検出のためのスケーラブルでセマンティックにリッチで効果的なソースとして機能し、より多くのデータを利用する場合のモデル性能の向上を継続し、既存の最先端手法よりも優れたパフォーマンスを提供できることを示した。
Open-vocabulary object detection (OVD) requires solid modeling of the region-semantic relationship, which could be learned from massive region-text pairs. However, such data is limited in practice due to significant annotation costs. In this work, we propose RTGen to generate scalable open-vocabulary region-text pairs and demonstrate its capability to boost the performance of open-vocabulary object detection. RTGen includes both text-to-region and region-to-text generation processes on scalable image-caption data. The text-to-region generation is powered by image inpainting, directed by our proposed scene-aware inpainting guider for overall layout harmony. For region-to-text generation, we perform multiple region-level image captioning with various prompts and select the best matching text according to CLIP similarity. To facilitate detection training on region-text pairs, we also introduce a localization-aware region-text contrastive loss that learns object proposals tailored with different localization qualities. Extensive experiments demonstrate that our RTGen can serve as a scalable, semantically rich, and effective source for open-vocabulary object detection and continue to improve the model performance when more data is utilized, delivering superior performance compared to the existing state-of-the-art methods. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# DevEval: 実世界のコードリポジトリに準拠した手動アノテーション付きコード生成ベンチマーク
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories ( http://arxiv.org/abs/2405.19856v1 ) ライセンス: Link先を確認 | Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li, | (参考訳) LLM(Large Language Models)のコーディング能力を評価するには,依然として未解決の問題である。
既存のベンチマークは実世界のコードリポジトリと整合性に乏しく,LLMのコーディング能力を評価するには不十分であることがわかった。
知識ギャップに対処するため,DevEvalという新しいベンチマークを提案する。
1) DevEvalは,コードの分散や依存性の分散など,複数の次元の現実リポジトリと整合する。
2) DevEvalは13の開発者によって注釈付けされており、包括的なアノテーション(要求、オリジナルのリポジトリ、参照コード、参照依存関係など)を含んでいる。
(3) DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメイン(インターネット、データベースなど)をカバーする。
DevEvalに基づいて、リポジトリレベルのコード生成を提案し、DevEval上で8つの人気のあるLCM(例えば、gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa)を評価します。
実世界のコードリポジトリでは,これらのLLMのコーディング能力が実証されている。
例えば、我々の実験では、gpt-4-turboのPass@1が最も高いのは53.04%である。
また,LSMの失敗事例を分析し,問題点を要約する。
DevEvalが実際のコードリポジトリでLLMの開発を容易にしてくれることを願っています。
DevEval、プロンプト、LLMの予測がリリースされた。
How to evaluate the coding abilities of Large Language Models (LLMs) remains an open question. We find that existing benchmarks are poorly aligned with real-world code repositories and are insufficient to evaluate the coding abilities of LLMs. To address the knowledge gap, we propose a new benchmark named DevEval, which has three advances. (1) DevEval aligns with real-world repositories in multiple dimensions, e.g., code distributions and dependency distributions. (2) DevEval is annotated by 13 developers and contains comprehensive annotations (e.g., requirements, original repositories, reference code, and reference dependencies). (3) DevEval comprises 1,874 testing samples from 117 repositories, covering 10 popular domains (e.g., Internet, Database). Based on DevEval, we propose repository-level code generation and evaluate 8 popular LLMs on DevEval (e.g., gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Our experiments reveal these LLMs' coding abilities in real-world code repositories. For example, in our experiments, the highest Pass@1 of gpt-4-turbo is only 53.04%. We also analyze LLMs' failed cases and summarize their shortcomings. We hope DevEval can facilitate the development of LLMs in real code repositories. DevEval, prompts, and LLMs' predictions have been released. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# カプセルネットワークを用いた階層型オブジェクト指向学習
Hierarchical Object-Centric Learning with Capsule Networks ( http://arxiv.org/abs/2405.19861v1 ) ライセンス: Link先を確認 | Riccardo Renzulli, | (参考訳) 畳み込みニューラルネットワークの制限に対処するために、カプセルネットワーク(CapsNets)が導入され、より堅牢で、ポーズを認識し、解釈可能なオブジェクト中心の表現を学習した。
ニューロンをカプセルと呼ばれるグループに分類し、各カプセルは物体のインスタンス化パラメーターをコードする。
さらに、ルーティングアルゴリズムは、異なる層のカプセルを接続し、データ内の階層的な部分的関係をキャプチャする。
この論文はCapsNetsの興味深い側面を調査し、その潜在能力を解き放つための3つの重要な疑問に焦点を当てている。
まず、特に小型ネットワークにおけるルーティングアルゴリズムの有効性について検討する。
本稿では,トレーニング中のルーティングイテレーション数を削減し,より少ないパラメータでアーキテクチャの性能を向上させる手法を提案する。
第2に,より効果的な第1層カプセル(プライマリカプセル)の抽出法について検討した。
本研究の目的は,プルーニングバックボーンを利用してカプセルの数を減らし,高一般化を図り,計算効率を向上させることである。
このアプローチにより、CapsNetsのメモリ要件と計算労力が削減される。
第3に,CapsNetsにおけるパートリレーショナル学習について検討する。
エントロピーの低いカプセルが従来のカプセルネットワークと比較してより簡潔で分別的な部分的関係を抽出できることを実証した。
最後に, 無人航空機の自律的局所化, 合成データセットの四元数に基づく回転予測, バイオメディカルイメージングにおける肺結節分割など, CapsNetsの実際の応用例を紹介する。
この論文で示された発見は、CapsNetsの深い理解に寄与し、複雑なコンピュータビジョンの課題に対処する可能性を強調している。
Capsule networks (CapsNets) were introduced to address convolutional neural networks limitations, learning object-centric representations that are more robust, pose-aware, and interpretable. They organize neurons into groups called capsules, where each capsule encodes the instantiation parameters of an object or one of its parts. Moreover, a routing algorithm connects capsules in different layers, thereby capturing hierarchical part-whole relationships in the data. This thesis investigates the intriguing aspects of CapsNets and focuses on three key questions to unlock their full potential. First, we explore the effectiveness of the routing algorithm, particularly in small-sized networks. We propose a novel method that anneals the number of routing iterations during training, enhancing performance in architectures with fewer parameters. Secondly, we investigate methods to extract more effective first-layer capsules, also known as primary capsules. By exploiting pruned backbones, we aim to improve computational efficiency by reducing the number of capsules while achieving high generalization. This approach reduces CapsNets memory requirements and computational effort. Third, we explore part-relationship learning in CapsNets. Through extensive research, we demonstrate that capsules with low entropy can extract more concise and discriminative part-whole relationships compared to traditional capsule networks, even with reasonable network sizes. Lastly, we showcase how CapsNets can be utilized in real-world applications, including autonomous localization of unmanned aerial vehicles, quaternion-based rotations prediction in synthetic datasets, and lung nodule segmentation in biomedical imaging. The findings presented in this thesis contribute to a deeper understanding of CapsNets and highlight their potential to address complex computer vision challenges. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# 早期疾患発症予測におけるデータセットシフト問題に対するアウト・オブ・ディストリビューション・リジェクション・オプション法
Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction ( http://arxiv.org/abs/2405.19864v1 ) ライセンス: Link先を確認 | Taisei Tosaki, Eiichiro Uchino, Ryosuke Kojima, Yohei Mineharu, Mikio Arita, Nobuyuki Miyai, Yoshinori Tamada, Tatsuya Mikami, Koichi Murashita, Shigeyuki Nakaji, Yasushi Okuno, | (参考訳) 機械学習は、健康データや医療データを使って生活習慣病の発症を予測するのにますます使われている。
しかし、予測の有効性はデータセットシフトによって妨げられ、トレーニングとテストデータセット間のデータの分散が相違し、OOD(out-of-distribution)データが誤って分類される。
本稿では,OOD検出モデルを統合し,OODデータを予測フェーズから排除するODROP(Out-of-distriion reject option for Prediction)を提案する。
糖尿病, ジスリピド血症, 高血圧の3つの発症予測タスクの文脈において, OOD検出法(変量自己エンコーダ, ニューラルネットワークアンサンブルstd, ニューラルネットワークアンサンブル, ニューラルネットワークエネルギー, ニューラルネットワークガウス混合エネルギー測定)の有効性を検討した。
ODROP法を評価するために,広崎データを用いた発症予測モデルとOOD検出モデルを訓練し,和歌山データからAURLO-rejection curve plotを用いた。
AUROCは糖尿病発症率31.1%で0.80から0.90に改善し, ジスリピド血症の34%で0.70から0.76に改善した。
SHAPクラスタリングを使って、データセットのシフトを2つのタイプに分類しました。
この分類は測定器の標準化に役立つと期待している。
本研究は、OOD検出を実際の健康・医療データに適用し、データセットシフト中の疾患予測モデルの精度と信頼性を大幅に向上させる可能性を実証した最初のものである。
Machine learning is increasingly used to predict lifestyle-related disease onset using health and medical data. However, the prediction effectiveness is hindered by dataset shift, which involves discrepancies in data distribution between the training and testing datasets, misclassifying out-of-distribution (OOD) data. To diminish dataset shift effects, this paper proposes the out-of-distribution reject option for prediction (ODROP), which integrates OOD detection models to preclude OOD data from the prediction phase. We investigated the efficacy of five OOD detection methods (variational autoencoder, neural network ensemble std, neural network ensemble epistemic, neural network energy, and neural network gaussian mixture based energy measurement) across two datasets, the Hirosaki and Wakayama health checkup data, in the context of three disease onset prediction tasks: diabetes, dyslipidemia, and hypertension. To evaluate the ODROP method, we trained disease onset prediction models and OOD detection models on Hirosaki data and used AUROC-rejection curve plots from Wakayama data. The variational autoencoder method showed superior stability and magnitude of improvement in Area Under the Receiver Operating Curve (AUROC) in five cases: AUROC in the Wakayama data was improved from 0.80 to 0.90 at a 31.1% rejection rate for diabetes onset and from 0.70 to 0.76 at a 34% rejection rate for dyslipidemia. We categorized dataset shifts into two types using SHAP clustering - those that considerably affect predictions and those that do not. We expect that this classification will help standardize measuring instruments. This study is the first to apply OOD detection to actual health and medical data, demonstrating its potential to substantially improve the accuracy and reliability of disease prediction models amidst dataset shift. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# 船舶位置予測とフェデレート学習の効果について
On Vessel Location Forecasting and the Effect of Federated Learning ( http://arxiv.org/abs/2405.19870v1 ) ライセンス: Link先を確認 | Andreas Tritsarolis, Nikos Pelekis, Konstantina Bereta, Dimitris Zissis, Yannis Theodoridis, | (参考訳) 自動識別システム(AIS)の広範な普及は、いくつかの海洋分析業務を動機付けている。
船舶位置予測(VLF)は海上での意識を高める上で最も重要な作戦の一つである。
しかし、海上交通条件の複雑さと動的性質のため、正確なVLFは難しい問題である。
さらに、プライバシの懸念や制限が大きくなるにつれて、トレーニングデータの断片化が進み、複数の独立したデータサイロの分散データベースがさまざまな組織に分散し、結果として学習モデルの品質が低下する。
本稿では、LSTMニューラルネットワークに基づく効率的なVLFソリューションを提案し、集中学習とフェデレーション学習の2つの変種、すなわちNautilusとFedNautilusをそれぞれ提案する。
我々はまた、現在の最先端に対する中央集権的アプローチの優位性を実証し、中央集権的アプローチに対する連邦の利点とデメリットについて議論する。
The wide spread of Automatic Identification System (AIS) has motivated several maritime analytics operations. Vessel Location Forecasting (VLF) is one of the most critical operations for maritime awareness. However, accurate VLF is a challenging problem due to the complexity and dynamic nature of maritime traffic conditions. Furthermore, as privacy concerns and restrictions have grown, training data has become increasingly fragmented, resulting in dispersed databases of several isolated data silos among different organizations, which in turn decreases the quality of learning models. In this paper, we propose an efficient VLF solution based on LSTM neural networks, in two variants, namely Nautilus and FedNautilus for the centralized and the federated learning approach, respectively. We also demonstrate the superiority of the centralized approach with respect to current state of the art and discuss the advantages and disadvantages of the federated against the centralized approach. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# ハイジャックされるな - 非セキュアDNS動的更新の頻度、緩和、影響
Don't Get Hijacked: Prevalence, Mitigation, and Impact of Non-Secure DNS Dynamic Updates ( http://arxiv.org/abs/2405.19871v1 ) ライセンス: Link先を確認 | Yevheniya Nosyk, Maciej Korczyński, Carlos H. Gañán, Michał Król, Qasim Lone, Andrzej Duda, | (参考訳) DNS動的更新は本質的に脆弱なメカニズムであり、任意のホストがDNSゾーンファイルを動的に変更する可能性を意図的に与えている。
その結果、ドメインのハイジャック、ドメイン制御バリデーションの妥協、中間者攻撃など、さまざまなセキュリティリスクにドメインを公開する。
当初、認証機構を実装せずに考案された非セキュアなDNS更新は、DNSソフトウェアで広く採用され、その後、新しいタイプのゾーン中毒と呼ばれる攻撃を受けやすい領域を残した。
この問題の範囲を測るために、我々の分析では3億3300万以上のドメイン名が含まれており、未解決のDNS更新を公に受け入れた381,965のドメインの存在を明らかにした。
次に,コンピュータセキュリティインシデント対応チーム(CSIRT)の通知を含む総合的な3段階のキャンペーンを行った。
6ヶ月にわたる広範囲にわたる議論の結果、54パーセント近くのネームサーバと98%の脆弱なドメインがこの問題に対処した。
この結果は、CSIRTへの関与がセキュリティ脆弱性を報告するための効果的なアプローチであることを証明できる証拠となる。
さらに、脆弱なドメインの持続的低頻度によって証明されたように、当社の通知は持続的な影響を持っていた。
DNS dynamic updates represent an inherently vulnerable mechanism deliberately granting the potential for any host to dynamically modify DNS zone files. Consequently, this feature exposes domains to various security risks such as domain hijacking, compromise of domain control validation, and man-in-the-middle attacks. Originally devised without the implementation of authentication mechanisms, non-secure DNS updates were widely adopted in DNS software, subsequently leaving domains susceptible to a novel form of attack termed zone poisoning. In order to gauge the extent of this issue, our analysis encompassed over 353 million domain names, revealing the presence of 381,965 domains that openly accepted unsolicited DNS updates. We then undertook a comprehensive three-phase campaign involving the notification of Computer Security Incident Response Teams (CSIRTs). Following extensive discussions spanning six months, we observed substantial remediation, with nearly 54\% of nameservers and 98% of vulnerable domains addressing the issue. This outcome serves as evidence that engaging with CSIRTs can prove to be an effective approach for reporting security vulnerabilities. Moreover, our notifications had a lasting impact, as evidenced by the sustained low prevalence of vulnerable domains. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# LLMにおけるインテクスト学習は指導に十分か?
Is In-Context Learning Sufficient for Instruction Following in LLMs? ( http://arxiv.org/abs/2405.19874v1 ) ライセンス: Link先を確認 | Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, | (参考訳) In-context Learning (ICL)は、LLMが重みを変えずに例から学ぶことを可能にする。
最近,Lin et al (2024) が提案したURIALは,テキスト内例を3つだけ使用してベースLLMを整列させる手法で,実行後の非自明な命令を実現する。
本稿では,従来のベンチマークであるMT-Bench や AlpacaEval 2.0 (LC) の命令微調整と比較して,URIAL との ICL のアライメントは依然として不十分であることを示す。
分類、翻訳、要約のようなタスクとは異なり、長いコンテキストのLLMに対してより多くのICLデモを追加することは、パフォーマンスの後の命令を体系的に改善しない。
この制限に対処するために、命令微調整のギャップを埋めることなく、性能を著しく改善するICL例に対する欲求選択手法を導出する。
最後に、残りのギャップの背景にある理由をよりよく理解するために、一連のアブレーション研究を行い、ICLのいくつかの側面が既存の知識から切り離され、インストラクションチューニング設定に特有であることを示す。
全体として、我々の研究はICLのアライメント技術としての理解を深めている。
私たちはhttps://github.com/tml-epfl/icl-alignment.comでコードを公開しています。
In-context learning (ICL) allows LLMs to learn from examples without changing their weights, which is a particularly promising capability for long-context LLMs that can potentially learn from many examples. Recently, Lin et al. (2024) proposed URIAL, a method using only three in-context examples to align base LLMs, achieving non-trivial instruction following performance. In this work, we show that, while effective, ICL alignment with URIAL still underperforms compared to instruction fine-tuning on established benchmarks such as MT-Bench and AlpacaEval 2.0 (LC), especially with more capable base LMs. Unlike for tasks such as classification, translation, or summarization, adding more ICL demonstrations for long-context LLMs does not systematically improve instruction following performance. To address this limitation, we derive a greedy selection approach for ICL examples that noticeably improves performance, yet without bridging the gap to instruction fine-tuning. Finally, we provide a series of ablation studies to better understand the reasons behind the remaining gap, and we show how some aspects of ICL depart from the existing knowledge and are specific to the instruction tuning setting. Overall, our work advances the understanding of ICL as an alignment technique. We provide our code at https://github.com/tml-epfl/icl-alignment. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# IReNe: ニューラルネットワーク分野におけるインスタントリカラー化
IReNe: Instant Recoloring in Neural Radiance Fields ( http://arxiv.org/abs/2405.19876v1 ) ライセンス: Link先を確認 | Alessio Mazzucchelli, Adrian Garcia-Garcia, Elena Garces, Fernando Rivas-Manzaneque, Francesc Moreno-Noguer, Adrian Penate-Sanchez, | (参考訳) NERFの進歩により、3Dシーンの再構築と新しいビュー合成が可能になった。
しかし、これらの表現をフォトリアリズムを維持しながら効率的に編集することは、新たな課題である。
インタラクティブな使用には時間がかかり、オブジェクト境界の精度が欠如しており、マルチビューの一貫性を確保するのに苦労しています。
我々はこれらの制限に対処するためにIReNeを導入し、NeRFにおける高速でほぼリアルタイムな色編集を可能にした。
トレーニング済みのNeRFモデルとユーザ対応のカラー編集を備えた単一のトレーニングイメージを活用して、IReNeはネットワークパラメータを数秒で迅速に調整する。
この調整により、モデルは新しいシーンビューを生成し、トレーニング画像からの色変化を正確に表現し、オブジェクト境界とビュー固有の効果を制御できる。
オブジェクト境界制御は、トレーニング可能なセグメンテーションモジュールをモデルに統合することで実現される。
このプロセスは、最後のネットワーク層の重みだけをトレーニングすることで効率を上げる。
この層内のニューロンは、視力依存的な外見と拡散性外見に寄与するニューロンに分類できる。
我々は,これらのニューロンタイプを同定し,拡散ニューロンの重みを限定的に微調整する自動分類手法を導入する。
これにより、トレーニングをさらに加速し、異なるビューにまたがる一貫性のある色編集が保証される。
オブジェクトの色を編集した新しいデータセットに対する徹底的な検証では、競合に対する量的および質的な進歩を示し、スピードを5倍から500倍に加速する。
Advances in NERFs have allowed for 3D scene reconstructions and novel view synthesis. Yet, efficiently editing these representations while retaining photorealism is an emerging challenge. Recent methods face three primary limitations: they're slow for interactive use, lack precision at object boundaries, and struggle to ensure multi-view consistency. We introduce IReNe to address these limitations, enabling swift, near real-time color editing in NeRF. Leveraging a pre-trained NeRF model and a single training image with user-applied color edits, IReNe swiftly adjusts network parameters in seconds. This adjustment allows the model to generate new scene views, accurately representing the color changes from the training image while also controlling object boundaries and view-specific effects. Object boundary control is achieved by integrating a trainable segmentation module into the model. The process gains efficiency by retraining only the weights of the last network layer. We observed that neurons in this layer can be classified into those responsible for view-dependent appearance and those contributing to diffuse appearance. We introduce an automated classification approach to identify these neuron types and exclusively fine-tune the weights of the diffuse neurons. This further accelerates training and ensures consistent color edits across different views. A thorough validation on a new dataset, with edited object colors, shows significant quantitative and qualitative advancements over competitors, accelerating speeds by 5x to 500x. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# KNOW: 大規模言語モデルを用いた知識キャプチャのための実世界のオントロジー
KNOW: A Real-World Ontology for Knowledge Capture with Large Language Models ( http://arxiv.org/abs/2405.19877v1 ) ライセンス: Link先を確認 | Arto Bendiken, | (参考訳) 我々はKNOW(Knowledge Navigator Ontology for the World) - パーソナルAIアシスタントなどの実世界の生成AIユースケースにおいて、大規模な言語モデル(LLM)を増強するために日々の知識を捉えるための最初のオントロジー。
私たちの領域は人間の生活であり、日々の関心事と大きなマイルストーンの両方です。
我々は、モデル化された概念の初期の範囲を、時空(場所、イベント)と社会的(人、グループ、組織)という、確立された人類の普遍性に限定した。
モデル化された概念の包含基準は、普遍性と実用性から始まる実用的である。
我々は、Schema.orgやCycといった以前の研究と、知識グラフと言語モデルの合成の試みを比較し、対比する。
また、最も人気のある12のプログラミング言語向けのコード生成ソフトウェアライブラリも提供し、ソフトウェア工学においてオントロジーの概念を直接使用できるようにしています。
AIの相互運用性を促進する上で、シンプルさと開発者エクスペリエンスを強調します。
We present KNOW--the Knowledge Navigator Ontology for the World--the first ontology designed to capture everyday knowledge to augment large language models (LLMs) in real-world generative AI use cases such as personal AI assistants. Our domain is human life, both its everyday concerns and its major milestones. We have limited the initial scope of the modeled concepts to only established human universals: spacetime (places, events) plus social (people, groups, organizations). The inclusion criteria for modeled concepts are pragmatic, beginning with universality and utility. We compare and contrast previous work such as Schema.org and Cyc--as well as attempts at a synthesis of knowledge graphs and language models--noting how LLMs already encode internally much of the commonsense tacit knowledge that took decades to capture in the Cyc project. We also make available code-generated software libraries for the 12 most popular programming languages, enabling the direct use of ontology concepts in software engineering. We emphasize simplicity and developer experience in promoting AI interoperability. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# ランダムなデモから学ぶ:重要度サンプル拡散モデルによるオフライン強化学習
Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models ( http://arxiv.org/abs/2405.19878v1 ) ライセンス: Link先を確認 | Zeyu Fang, Tian Lan, | (参考訳) 拡散のような生成モデルは、より効果的な学習のための合成データを生成するために、オフライン強化学習において世界モデルとして採用されている。
既存の作業は、トレーニング前に1回だけ拡散モデルを生成するか、更新するために追加のインタラクションデータを必要とする。
本稿では,閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習手法を提案する。
誘導拡散世界モデルを反復的に利用し、オフラインターゲットポリシーをそこから引き出されたアクションで直接評価し、重要サンプルの世界モデル更新を行い、世界モデルと更新ポリシーを適応的に整合させる。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
その結果、学習のパフォーマンスに影響を及ぼす様々な要因が明らかになった。
D4RL環境での評価は、特にランダムまたは中級の試験が利用可能である場合に、最先端のベースラインよりも大幅に改善され、ワールドモデルとオフラインポリシー評価の整合性を改善する必要がある。
Generative models such as diffusion have been employed as world models in offline reinforcement learning to generate synthetic data for more effective learning. Existing work either generates diffusion models one-time prior to training or requires additional interaction data to update it. In this paper, we propose a novel approach for offline reinforcement learning with closed-loop policy evaluation and world-model adaptation. It iteratively leverages a guided diffusion world model to directly evaluate the offline target policy with actions drawn from it, and then performs an importance-sampled world model update to adaptively align the world model with the updated policy. We analyzed the performance of the proposed method and provided an upper bound on the return gap between our method and the real environment under an optimal policy. The result sheds light on various factors affecting learning performance. Evaluations in the D4RL environment show significant improvement over state-of-the-art baselines, especially when only random or medium-expertise demonstrations are available -- thus requiring improved alignment between the world model and offline policy evaluation. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# PixOOD:Pixelレベルのアウト・オブ・ディストリビューション検出
PixOOD: Pixel-Level Out-of-Distribution Detection ( http://arxiv.org/abs/2405.19882v1 ) ライセンス: Link先を確認 | Tomáš Vojíř, Jan Šochman, Jiří Matas, | (参考訳) PixOODは異常データのサンプルのトレーニングを必要とせず、従来のトレーニングバイアスを回避する特定のアプリケーションのために設計されていない。
画素レベルでの分布データの複雑なクラス内変動をモデル化するために,従来のK平均よりも頑健で,SGDで容易に訓練できるオンラインデータ凝縮アルゴリズムを提案する。
我々はPixOODを幅広い問題について評価した。
7つのデータセットのうち4つは最先端の結果であり、残りは競争力がある。
ソースコードはhttps://github.com/vojirt/PixOOD.comで入手できる。
We propose a dense image prediction out-of-distribution detection algorithm, called PixOOD, which does not require training on samples of anomalous data and is not designed for a specific application which avoids traditional training biases. In order to model the complex intra-class variability of the in-distribution data at the pixel level, we propose an online data condensation algorithm which is more robust than standard K-means and is easily trainable through SGD. We evaluate PixOOD on a wide range of problems. It achieved state-of-the-art results on four out of seven datasets, while being competitive on the rest. The source code is available at https://github.com/vojirt/PixOOD. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# 言葉から行動へ: LLM駆動自律システムの理論的基盤を明らかにする
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems ( http://arxiv.org/abs/2405.19883v1 ) ライセンス: Link先を確認 | Jianliang He, Siyu Chen, Fengzhuo Zhang, Zhuoran Yang, | (参考訳) 本研究では,理論レンズを用いて,大規模言語モデル(LLM)が物理世界の意思決定問題を解くことができる理由を理解することを目的とする。
この目的のために、LLMプランナーとアクターがそれぞれ高レベルなタスク計画と低レベルな実行を行う階層的強化学習(RL)モデルを考える。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
事前学習データに対する適切な仮定の下で,事前学習した LLM Planner が,文脈内学習を通じてベイズ集合模倣学習(Bayesian aggregated mimicion Learning, BAIL)を効果的に行うことを証明した。
さらに, BAILから派生したサブゴールを超える探索の必要性を強調し, LLMが返却したサブゴールを経口的に実行することで, 線形後悔につながることを証明した。
治療としてBAILに$\epsilon$-greedyの探索戦略を導入する。
最後に、LLMプランナーが環境の遷移モデルとマルチエージェント設定を推論する世界モデルとして機能し、複数のアクター間の協調を可能にするシナリオを含むように理論フレームワークを拡張した。
In this work, from a theoretical lens, we aim to understand why large language model (LLM) empowered agents are able to solve decision-making problems in the physical world. To this end, consider a hierarchical reinforcement learning (RL) model where the LLM Planner and the Actor perform high-level task planning and low-level execution, respectively. Under this model, the LLM Planner navigates a partially observable Markov decision process (POMDP) by iteratively generating language-based subgoals via prompting. Under proper assumptions on the pretraining data, we prove that the pretrained LLM Planner effectively performs Bayesian aggregated imitation learning (BAIL) through in-context learning. Additionally, we highlight the necessity for exploration beyond the subgoals derived from BAIL by proving that naively executing the subgoals returned by LLM leads to a linear regret. As a remedy, we introduce an $\epsilon$-greedy exploration strategy to BAIL, which is proven to incur sublinear regret when the pretraining error is small. Finally, we extend our theoretical framework to include scenarios where the LLM Planner serves as a world model for inferring the transition model of the environment and to multi-agent settings, enabling coordination among multiple Actors. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# 身体学習におけるリアルタイム意思決定のためのフーリエ制御ネットワーク
Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning ( http://arxiv.org/abs/2405.19885v1 ) ライセンス: Link先を確認 | Hengkai Tan, Songming Liu, Kai Ma, Chengyang Ying, Xingxing Zhang, Hang Su, Jun Zhu, | (参考訳) 強化学習は、具体的学習シナリオにおける多様なロボティクスデータセットの一般化された低レベルロボットポリシーを得ることができ、Transformerは時間変化のある特徴をモデル化するために広く利用されている。
しかし、データ効率の低さと推論遅延の低さに悩まされている。
本稿では,周波数領域の新しい視点から課題を考察する。
まず、ロボットの軌道の周波数領域におけるエネルギー密度は、主に低周波部分に集中していることを確認する。
次に、短時間フーリエ変換(STFT)を利用した周波数領域補間による時間変化特徴の抽出とエンコードを行う新しいネットワークであるFCNetを提案する。
さらに、実時間意思決定のためのモデルアーキテクチャにおいて、FFT法とSliding DFT法を用いて、並列トレーニングと効率的なリカレント推論を実現する。
シミュレーション(例:D4RL)と実世界の環境(例:ロボットの移動)の両方における包括的分析は、トランスフォーマー、eg、FCNetといった既存の手法よりも、FCNetの実質的な効率と有効性を示す。
プロジェクトページとコードはhttps://thkk.github.io/fcnet.com/で見ることができる。
Reinforcement learning is able to obtain generalized low-level robot policies on diverse robotics datasets in embodied learning scenarios, and Transformer has been widely used to model time-varying features. However, it still suffers from the issues of low data efficiency and high inference latency. In this paper, we propose to investigate the task from a new perspective of the frequency domain. We first observe that the energy density in the frequency domain of a robot's trajectory is mainly concentrated in the low-frequency part. Then, we present the Fourier Controller Network (FCNet), a new network that utilizes the Short-Time Fourier Transform (STFT) to extract and encode time-varying features through frequency domain interpolation. We further achieve parallel training and efficient recurrent inference by using FFT and Sliding DFT methods in the model architecture for real-time decision-making. Comprehensive analyses in both simulated (e.g., D4RL) and real-world environments (e.g., robot locomotion) demonstrate FCNet's substantial efficiency and effectiveness over existing methods such as Transformer, e.g., FCNet outperforms Transformer on multi-environmental robotics datasets of all types of sizes (from 1.9M to 120M). The project page and code can be found https://thkkk.github.io/fcnet. | 翻訳日:2024-05-31 15:09:01 公開日:2024-05-30 |
# マルチ解像度モデル放送によるフェデレーション学習
Federated Learning with Multi-resolution Model Broadcast ( http://arxiv.org/abs/2405.19886v1 ) ライセンス: Link先を確認 | Henrik Rydén, Reza Moosavi, Erik G. Larsson, | (参考訳) 連合学習では、サーバは定期的にエージェントにモデルをブロードキャストしなければならない。
この目的のために,マルチレゾリューション符号化と変調(Non-uniform modulation)を提案する。
最も単純な例では、送信送信が使用され、すべてのエージェントが1つと同一の送信(典型的には特定のビーム方向を持たない)をターゲットとし、マルチ解像度の符号化/変調を用いて符号化される。
これにより、サーバへの高いパスゲインを持つ高SNRエージェントは、よりダウンリンクリソースを消費することなく、低SNRエージェントよりも正確なモデルを受け取ることができる。
1つの実装として、高SNR受信機(エージェント)が8つのコンステレーションポイント全てを分離できるのに対して、低SNR受信機は4つのポイントのみを分離できるのに対し、非一様8-PSKコンステレーションを用いる。
第3のビットで最小の有意情報を符号化することにより、高SNR受信機は高い精度でモデルを得ることができ、一方、低SNR受信機は精度が低いにもかかわらずモデルを得ることができるため、少なくとも低SNR受信機の基本参加が容易となる。
MNISTデータセットを用いたフェデレート学習による実験により提案手法の有効性を示す。
In federated learning, a server must periodically broadcast a model to the agents. We propose to use multi-resolution coding and modulation (also known as non-uniform modulation) for this purpose. In the simplest instance, broadcast transmission is used, whereby all agents are targeted with one and the same transmission (typically without any particular favored beam direction), which is coded using multi-resolution coding/modulation. This enables high-SNR agents, with high path gains to the server, to receive a more accurate model than the low-SNR agents do, without consuming more downlink resources. As one implementation, we use transmission with a non-uniform 8-PSK constellation, where a high-SNR receiver (agent) can separate all 8 constellation points (hence receive 3 bits) whereas a low-SNR receiver can only separate 4 points (hence receive 2 bits). By encoding the least significant information in the third bit, the high-SNR receivers can obtain the model with higher accuracy, while the low-SNR receiver can still obtain the model although with reduced accuracy, thereby facilitating at least some basic participation of the low-SNR receiver. We show the effectiveness of our proposed scheme via experimentation using federated learning with the MNIST data-set. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# Parrot: セマンティック変数を持つLLMベースのアプリケーションの効率的な実行
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable ( http://arxiv.org/abs/2405.19888v1 ) ライセンス: Link先を確認 | Chaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu, | (参考訳) 大規模言語モデル(LLM)の台頭により、LLMベースのアプリケーション(AIエージェントやコパイロットなど)が実現した。
異なるテナントからの様々なLLMアプリケーションは、1つのタスクを達成するために複数のLLMリクエストを使用して複雑なワークフローを設計できる。
しかし、今日のパブリックなLLMサービスが提供する過剰に単純化されたリクエストレベルのAPIを使用する必要があり、必須のアプリケーションレベルの情報が失われる。
パブリックなLLMサービスは個々のLLMリクエストを盲目的に最適化しなければなりません。
本稿では,LLM ベースのアプリケーションのエンドツーエンド体験に焦点を当てた LLM サービスシステムである Parrot を紹介する。
Parrotは、アプリケーションレベルの知識をパブリックなLLMサービスに公開するための統合された抽象化であるSemantic Variableを提案する。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続するときにデータパイプラインを生成し、LLMアプリケーションをプログラムする自然な方法を提供する。
セマンティック変数をパブリックなLLMサービスに公開することで、従来のデータフロー分析を実行して、複数のLLMリクエスト間の相関を明らかにすることができる。
この相関関係は、LLMベースのアプリケーションのエンドツーエンド性能に対して、真に新しい最適化空間を開放する。
広範に評価された結果から,LLM アプリケーションで広く実用化されているユースケースに対して,Parrot が高次改善を実現可能であることが示唆された。
The rise of large language models (LLMs) has enabled LLM-based applications (a.k.a. AI agents or co-pilots), a new software paradigm that combines the strength of LLM and conventional software. Diverse LLM applications from different tenants could design complex workflows using multiple LLM requests to accomplish one task. However, they have to use the over-simplified request-level API provided by today's public LLM services, losing essential application-level information. Public LLM services have to blindly optimize individual LLM requests, leading to sub-optimal end-to-end performance of LLM applications. This paper introduces Parrot, an LLM service system that focuses on the end-to-end experience of LLM-based applications. Parrot proposes Semantic Variable, a unified abstraction to expose application-level knowledge to public LLM services. A Semantic Variable annotates an input/output variable in the prompt of a request, and creates the data pipeline when connecting multiple LLM requests, providing a natural way to program LLM applications. Exposing Semantic Variables to the public LLM service allows it to perform conventional data flow analysis to uncover the correlation across multiple LLM requests. This correlation opens a brand-new optimization space for the end-to-end performance of LLM-based applications. Extensive evaluations demonstrate that Parrot can achieve up to an order-of-magnitude improvement for popular and practical use cases of LLM applications. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 近空間飛行船大容量MIMOネットワークの深部連続符号化とビームフォーミング
Deep Joint Semantic Coding and Beamforming for Near-Space Airship-Borne Massive MIMO Network ( http://arxiv.org/abs/2405.19889v1 ) ライセンス: Link先を確認 | Minghui Wu, Zhen Gao, Zhaocheng Wang, Dusit Niyato, George K. Karagiannidis, Sheng Chen, | (参考訳) 近距離飛行船による通信網は、成層圏高度における長期滞在の利点により、将来統合された地上空間ネットワークの欠かせない要素であると認識されているが、緊急に信頼性と効率のよい飛行船対Xリンクが必要である。
本稿では,送信効率とキャパシティを向上させるため,MIMO(Multiple-Input multiple-output)技術とセマンティックコミュニケーションを統合することを提案する。
具体的には、宇宙空間における飛行船をベースとした大規模なMIMO画像伝送ネットワークのためのディープ・ジョイント・セマンティック・コーディング・ビームフォーミング(JSCBF)方式を提案し、そこでは、ソースとチャネルの両方のセマンティックスを融合させて、セマンティック・コーディングと物理層ビームフォーミングを共同設計する。
まず、画像ソースとチャネル状態情報から意味を抽出する2つの意味抽出ネットワークを設計する。
そこで本研究では,これらのセマンティクスを複雑な意味的特徴に融合し,その後の物理層伝送を実現するセマンティクス融合ネットワークを提案する。
物理層における融合セマンティックな特徴を効率的に伝達するために,ハイブリッドデータとモデル駆動のセマンティック・アウェア・ビームフォーミング・ネットワークを提案する。
受信機では、送信された画像の再構成のためにセマンティックデコーディングネットワークが設計されている。
最後に、受信機における画像再構成品質を指標として、すべてのモジュールを協調訓練するエンド・ツー・エンドのディープラーニングを実行する。
提案したディープJSCBFスキームは,MIMOの高スペクトル効率とセマンティック通信の効率的なソース圧縮性とロバストな誤り訂正機能を完全に結合し,既存の手法に比べて大幅な性能向上を実現している。
Near-space airship-borne communication network is recognized to be an indispensable component of the future integrated ground-air-space network thanks to airships' advantage of long-term residency at stratospheric altitudes, but it urgently needs reliable and efficient Airship-to-X link. To improve the transmission efficiency and capacity, this paper proposes to integrate semantic communication with massive multiple-input multiple-output (MIMO) technology. Specifically, we propose a deep joint semantic coding and beamforming (JSCBF) scheme for airship-based massive MIMO image transmission network in space, in which semantics from both source and channel are fused to jointly design the semantic coding and physical layer beamforming. First, we design two semantic extraction networks to extract semantics from image source and channel state information, respectively. Then, we propose a semantic fusion network that can fuse these semantics into complex-valued semantic features for subsequent physical-layer transmission. To efficiently transmit the fused semantic features at the physical layer, we then propose the hybrid data and model-driven semantic-aware beamforming networks. At the receiver, a semantic decoding network is designed to reconstruct the transmitted images. Finally, we perform end-to-end deep learning to jointly train all the modules, using the image reconstruction quality at the receivers as a metric. The proposed deep JSCBF scheme fully combines the efficient source compressibility and robust error correction capability of semantic communication with the high spectral efficiency of massive MIMO, achieving a significant performance improvement over existing approaches. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# NISQハードウェアにおけるCNOT回路の忠実性向上
Improving the Fidelity of CNOT Circuits on NISQ Hardware ( http://arxiv.org/abs/2405.19891v1 ) ライセンス: Link先を確認 | Dohun Kim, Minyoung Kim, Sarah Meng Li, Michele Mosca, | (参考訳) 我々は,ノイズの多い中間規模量子(NISQ)ハードウェアにおける近傍相互作用とCNOTゲート誤り率を考慮した改良型CNOT合成アルゴリズムを提案する。
IBMのQiskitコンパイラと比較して、合成されたCNOT回路の忠実度を平均で2倍(最大9倍)向上させる。
合成したCNOT数を平均で13倍(最大162倍)下げる。
私たちの貢献は2倍です。
まず、平均ゲートフィデリティを$F_{avg}$と近似することで、$\textsf{Cost}$関数を定義する。
シミュレーション結果によると、$\textsf{Cost}$はノイズの多いCNOT回路の誤差確率に適合し、$\textsf{Prob} = 1 - F_{avg}$は一般的に使用されるコスト関数よりもはるかに厳密である。
IBMの偽のNairobiバックエンドでは、$\textsf{Prob}$と$10^{-3}$にマッチする。
他のバックエンドでは、$\textsf{Prob}$を10^{-1}$に適合させる。
$\textsf{Cost}$は、動的エラー特性を正確に定量化し、驚くべきスケーラビリティを示します。
次に,雑音を考慮したCNOTルーティングアルゴリズムNAPermRowColを提案する。
重み付きエッジを用いてCNOTゲートエラー率を符号化し、各還元ステップに$\textsf{Cost}$-instructed heuristicsを適用する。
NAPermRowColはAcillary qubitsを使用しず、特定の初期 qubit map に制限されない。
ノイズに依存しないアルゴリズムと比較して、様々なNISQハードウェアで合成されたCNOT回路の忠実度を向上させる。
ベンチマーク回路とIBMバックエンドの選択により、合成されたCNOT数はROWCOLと比較して56.95 %、PermRowColに比べて21.62 %まで下げられる。
これは合成$\textsf{Cost}$をROWCOLと比較して25.71 %、PermRowColと比較して9.12 %まで下げる。
我々の手法は、より一般的な量子回路をルーティングするように拡張することができ、NISQデバイスにコンパイルするための強力な新しいツールを提供する。
We introduce an improved CNOT synthesis algorithm that considers nearest-neighbour interactions and CNOT gate error rates in noisy intermediate-scale quantum (NISQ) hardware. Compared to IBM's Qiskit compiler, it improves the fidelity of a synthesized CNOT circuit by about 2 times on average (up to 9 times). It lowers the synthesized CNOT count by a factor of 13 on average (up to a factor of 162). Our contribution is twofold. First, we define a $\textsf{Cost}$ function by approximating the average gate fidelity $F_{avg}$. According to the simulation results, $\textsf{Cost}$ fits the error probability of a noisy CNOT circuit, $\textsf{Prob} = 1 - F_{avg}$, much tighter than the commonly used cost functions. On IBM's fake Nairobi backend, it matches $\textsf{Prob}$ to within $10^{-3}$. On other backends, it fits $\textsf{Prob}$ to within $10^{-1}$. $\textsf{Cost}$ accurately quantifies the dynamic error characteristics and shows remarkable scalability. Second, we propose a noise-aware CNOT routing algorithm, NAPermRowCol, by adapting the leading Steiner-tree-based connectivity-aware CNOT synthesis algorithms. A weighted edge is used to encode a CNOT gate error rate and $\textsf{Cost}$-instructed heuristics are applied to each reduction step. NAPermRowCol does not use ancillary qubits and is not restricted to certain initial qubit maps. Compared with algorithms that are noise-agnostic, it improves the fidelity of a synthesized CNOT circuit across varied NISQ hardware. Depending on the benchmark circuit and the IBM backend selected, it lowers the synthesized CNOT count up to $56.95\%$ compared to ROWCOL and up to $21.62\%$ compared to PermRowCol. It reduces the synthesis $\textsf{Cost}$ up to $25.71\%$ compared to ROWCOL and up to $9.12\%$ compared to PermRowCol. Our method can be extended to route a more general quantum circuit, giving a powerful new tool for compiling on NISQ devices. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 類似性は必ずしも必要ではない:多層思考による検索拡張生成の促進
Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts ( http://arxiv.org/abs/2405.19893v1 ) ライセンス: Link先を確認 | Chunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou, | (参考訳) 近年,大規模言語モデル (LLM) は様々な領域において顕著な成果を上げている。
しかし、LLMの幻覚化問題と相まって知識更新の非タイムラインとコストは、検索強化生成(RAG)が役立つような知識集約的なタスクにおいて、その適用範囲を狭めている。
それにもかかわらず、既存の検索拡張モデルは典型的には、クエリとドキュメントの間のブリッジとして類似性を使用し、読み出し手順に従って検索する。
本研究では, 類似性は必ずしもパナセアに限らず, 類似性に依存しているため, 検索再生の性能が低下することがあると論じる。
そこで我々は,Multi layEred Thoughts enhanced Retrieval Augmented Generation frameworkであるMetRagを提案する。
まず,従来の類似性指向思考以外にも,実用性指向思考のためのLLMから監督を引き出す小型ユーティリティモデルを採用し,その類似性と実用性指向思考を包括的に組み合わせて,よりスマートなモデルを提案する。
さらに, 検索した文書集合が巨大で, 単独で使用すると, 共通点や特徴を捉えるのが難しくなることから, LLMをタスク適応要約器として作成し, コンパクト性を重視した検索生成を支援することを提案する。
最後に、先進的な段階からの多層的思考により、LLMは知識拡張生成のために呼ばれる。
知識集約型タスクに関する大規模な実験は、MetRagの優位性を実証している。
In recent years, large language models (LLMs) have made remarkable achievements in various domains. However, the untimeliness and cost of knowledge updates coupled with hallucination issues of LLMs have curtailed their applications in knowledge intensive tasks, where retrieval augmented generation (RAG) can be of help. Nevertheless, existing retrieval augmented models typically use similarity as a bridge between queries and documents and follow a retrieve then read procedure. In this work, we argue that similarity is not always the panacea and totally relying on similarity would sometimes degrade the performance of retrieval augmented generation. To this end, we propose MetRag, a Multi layEred Thoughts enhanced Retrieval Augmented Generation framework. To begin with, beyond existing similarity oriented thought, we embrace a small scale utility model that draws supervision from an LLM for utility oriented thought and further come up with a smarter model by comprehensively combining the similarity and utility oriented thoughts. Furthermore, given the fact that the retrieved document set tends to be huge and using them in isolation makes it difficult to capture the commonalities and characteristics among them, we propose to make an LLM as a task adaptive summarizer to endow retrieval augmented generation with compactness-oriented thought. Finally, with multi layered thoughts from the precedent stages, an LLM is called for knowledge augmented generation. Extensive experiments on knowledge-intensive tasks have demonstrated the superiority of MetRag. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# セマンティックセグメンテーションのためのオープンセットドメイン適応
Open-Set Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2405.19899v1 ) ライセンス: Link先を確認 | Seun-An Choe, Ah-Hyung Shin, Keon-Hee Park, Jinwoo Choi, Gyeong-Moon Park, | (参考訳) セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインに画素単位の知識を転送することを目的としている。
しかし、現在のUDAメソッドは典型的には、ソースとターゲット間の共有ラベル空間を仮定し、ターゲットドメインに新しいカテゴリが出現する現実のシナリオにおける適用性を制限している。
本稿では,セマンティックセグメンテーションのためのオープンセットドメイン適応(OSDA-SS)を初めて紹介する。
我々はOSDA-SSシナリオにおける2つの大きな問題を以下に挙げる。
1)既存のUDA手法は未知のクラスの境界を正確に予測するのに苦労し、
2) 未知のクラスの形状を正確に予測できない。
これらの問題に対処するため,BUS の造語であるBundary and Unknown Shape-Aware Open-set Domain 適応を提案する。
我々のBUSは、新しい拡張浸食に基づくコントラスト損失を用いて、未知のクラスと未知のクラスの境界を正確に識別することができる。
さらに,未知クラスや未知クラスの形状検出を改善するために,ドメインおよびサイズ不変の特徴を効果的に学習するための新しいドメイン混合拡張手法であるOpenReMixを提案する。
大規模な実験により,提案手法はOSDA-SSシナリオにおける未知のクラスを,従来の手法に比べて大きなマージンで効果的に検出できることが実証された。
コードはhttps://github.com/KHU-AGI/BUSで公開されている。
Unsupervised domain adaptation (UDA) for semantic segmentation aims to transfer the pixel-wise knowledge from the labeled source domain to the unlabeled target domain. However, current UDA methods typically assume a shared label space between source and target, limiting their applicability in real-world scenarios where novel categories may emerge in the target domain. In this paper, we introduce Open-Set Domain Adaptation for Semantic Segmentation (OSDA-SS) for the first time, where the target domain includes unknown classes. We identify two major problems in the OSDA-SS scenario as follows: 1) the existing UDA methods struggle to predict the exact boundary of the unknown classes, and 2) they fail to accurately predict the shape of the unknown classes. To address these issues, we propose Boundary and Unknown Shape-Aware open-set domain adaptation, coined BUS. Our BUS can accurately discern the boundaries between known and unknown classes in a contrastive manner using a novel dilation-erosion-based contrastive loss. In addition, we propose OpenReMix, a new domain mixing augmentation method that guides our model to effectively learn domain and size-invariant features for improving the shape detection of the known and unknown classes. Through extensive experiments, we demonstrate that our proposed BUS effectively detects unknown classes in the challenging OSDA-SS scenario compared to the previous methods by a large margin. The code is available at https://github.com/KHU-AGI/BUS. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 一般化等角的強フレームからの過完全測定の不確かさ関係
Uncertainty relations for overcomplete measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.19900v1 ) ライセンス: Link先を確認 | Alexey E. Rastegin, | (参考訳) 本研究は, 一般化された等角的きつ枠を用いたオーバーコンプリート測定の不確実性について検討することを目的とする。
情報過剰測定は、トモグラフィーや状態推定を含む量子情報処理において貴重なツールである。
相互に偏りのない基底の最大集合は、情報的に過剰な測定の最も一般的な場合である。
互いに偏りのない基底の$d+1$の存在は、素パワーである$d$に対して証明される。
様々な目的のために、情報過完全測定のより一般的なクラスが提案されている。
このような測定は典型的には、要求される特性を維持する内部構造によって特徴づけられる。
それは生成された確率に課される制限につながります。
興味の測定を適用するためには、これらの制限を情報理論用語に変換する必要がある。
不確実性の量を定量的に記述するために、Tsallis と R\'{e}nyi エントロピーと、別の結果の確率を用いる。
得られた結果は一致の指数の推定に基づく。
派生した関係は、簡単に例示される。
The current study aims to examine uncertainty relations for overcomplete measurements from generalized equiangular tight frames. Informationally overcomplete measurements are a valuable tool in quantum information processing, including tomography and state estimation. The maximal sets of mutually unbiased bases are the most common case of informationally overcomplete measurements. The existence of $d+1$ of mutually unbiased bases is proved for $d$ being a prime power. More general classes of informationally overcomplete measurements have been proposed for various purposes. Such measurements are typically characterized by some inner structure maintaining the required properties. It leads to restrictions imposed on generated probabilities. To apply the measurements of interest, these restrictions should be converted into information-theoretic terms. To describe the amount of uncertainty quantitatively, we use the Tsallis and R\'{e}nyi entropies as well as probabilities of separate outcomes. The obtained results are based on estimation of the index of coincidence. The derived relations are briefly exemplified. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 都市大気汚染予測:衛星観測と気象予報を利用した機械学習アプローチ
Urban Air Pollution Forecasting: a Machine Learning Approach leveraging Satellite Observations and Meteorological Forecasts ( http://arxiv.org/abs/2405.19901v1 ) ライセンス: Link先を確認 | Giacomo Blanco, Luca Barco, Lorenzo Innocenti, Claudio Rossi, | (参考訳) 大気汚染は公衆衛生、特に都市部において重大な脅威となる。
本研究では, センチネル5P衛星のデータ, 気象条件, トポロジカル特性を統合し, 5つの主要な汚染物質の将来レベルを予測する機械学習モデルを提案する。
この調査はデータ収集の過程を詳述し、この研究で利用された多様なデータソースの組み合わせについて詳述する。
ミラノ大都市圏で実施された実験を通じて、これらのモデルは次の日の汚染レベルの予測に有効であることを実証し、約30%の誤差を達成した。
提案したモデルは監視局とは無関係であるため,既存のインフラのない地域での利用が容易である。
さらに、収集したデータセットを一般向けに公開し、この分野のさらなる研究を促進することを目的としている。
本研究は,都市大気質の動態の理解を深めることに寄与し,ロバストな大気汚染予測モデルを開発するための衛星・気象・地形データの統合の重要性を強調している。
Air pollution poses a significant threat to public health and well-being, particularly in urban areas. This study introduces a series of machine-learning models that integrate data from the Sentinel-5P satellite, meteorological conditions, and topological characteristics to forecast future levels of five major pollutants. The investigation delineates the process of data collection, detailing the combination of diverse data sources utilized in the study. Through experiments conducted in the Milan metropolitan area, the models demonstrate their efficacy in predicting pollutant levels for the forthcoming day, achieving a percentage error of around 30%. The proposed models are advantageous as they are independent of monitoring stations, facilitating their use in areas without existing infrastructure. Additionally, we have released the collected dataset to the public, aiming to stimulate further research in this field. This research contributes to advancing our understanding of urban air quality dynamics and emphasizes the importance of amalgamating satellite, meteorological, and topographical data to develop robust pollution forecasting models. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 雑音ラベル検出のためのラベル破壊による識別ダイナミクスの学習
Learning Discriminative Dynamics with Label Corruption for Noisy Label Detection ( http://arxiv.org/abs/2405.19902v1 ) ライセンス: Link先を確認 | Suyeon Kim, Dongha Lee, SeongKu Kang, Sukang Chae, Sanghwan Jang, Hwanjo Yu, | (参考訳) 実世界のデータセットで一般的に見られるラベルノイズは、モデルの一般化に有害な影響を与える。
誤ったラベル付きインスタンスを効果的に検出するために、以前の研究は、クリーンなラベルとノイズの多いラベルを区別する指標として、トレーニング損失などの区別可能なトレーニング信号に大きく依存していた。
しかし、トレーニング信号がモデルの振舞いを不完全に明らかにし、様々なノイズタイプに効果的に一般化されないため、検出精度が制限されるという制限がある。
本稿では,トレーニング信号のダイナミクスに基づいて,不正ラベル付きインスタンスと正しくラベル付けされたインスタンスを区別するDynaCorフレームワークを提案する。
クリーンでノイズの多いラベルに対する監督の欠如に対処するため、DynaCorは最初に、オリジナルのデータセットを意図的に破損したラベルで強化するラベル破損戦略を導入し、ノイズの多いラベルに対するモデルの振る舞いを間接的にシミュレーションできるようにする。
そしてDynaCorは、トレーニングダイナミクスの潜在表現から2つの明確に区別可能なクラスタを誘導することで、クリーンでノイズの多いインスタンスを特定することを学ぶ。
我々の総合的な実験により、DynaCorは最先端のライバルより優れており、様々なノイズタイプやノイズレートに対して強い堅牢性を示している。
Label noise, commonly found in real-world datasets, has a detrimental impact on a model's generalization. To effectively detect incorrectly labeled instances, previous works have mostly relied on distinguishable training signals, such as training loss, as indicators to differentiate between clean and noisy labels. However, they have limitations in that the training signals incompletely reveal the model's behavior and are not effectively generalized to various noise types, resulting in limited detection accuracy. In this paper, we propose DynaCor framework that distinguishes incorrectly labeled instances from correctly labeled ones based on the dynamics of the training signals. To cope with the absence of supervision for clean and noisy labels, DynaCor first introduces a label corruption strategy that augments the original dataset with intentionally corrupted labels, enabling indirect simulation of the model's behavior on noisy labels. Then, DynaCor learns to identify clean and noisy instances by inducing two clearly distinguishable clusters from the latent representations of training dynamics. Our comprehensive experiments show that DynaCor outperforms the state-of-the-art competitors and shows strong robustness to various noise types and noise rates. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# 主未成年者の統計物理:キャビティ・アプローチ
Statistical physics of principal minors: Cavity approach ( http://arxiv.org/abs/2405.19904v1 ) ライセンス: Link先を確認 | A. Ramezanpour, M. A. Rajabpour, | (参考訳) 行列式は、量子系のフェルミオンや学習問題におけるサンプルのトレーニングのような(効果的に)反発的かつ独立な要素の相互作用系の状態を表すのに有用である。
計算的に難しい問題は、量子フェルミオン系における臨界挙動の研究と学習アルゴリズムの最大情報的トレーニングデータのサブセットを見つけることに関連する行列の主小数の和を計算することである。
具体的には、正の正方行列の主部分集合は、行列指標の集合上のランダム点過程の統計的重みと見なすことができる。
指標の各部分集合の確率は、一般に、関連する部分行列の行列式の正の力に比例する。
我々は、対称行列および正行列に対する行列式のガウス表現を用いて、Bethe近似内の分割関数(または自由エネルギー)と主部分集合のエントロピーを推定する。
この結果は、局所的な木のような構造を持つ対角行列に対して漸近的に正確であることが期待されている。
我々は、次数$K=2,3,4$のランダム正則グラフのラプラシアン行列を考え、そのような行列の平均場モデルにおいて関連する未成年者の構造を正確に特徴づける。
この種類の対角行列では、主部分の正の力を高めて(有限温度の)相転移は見られず、逆温度の役割を担っている。
Determinants are useful to represent the state of an interacting system of (effectively) repulsive and independent elements, like fermions in a quantum system and training samples in a learning problem. A computationally challenging problem is to compute the sum of powers of principal minors of a matrix which is relevant to the study of critical behaviors in quantum fermionic systems and finding a subset of maximally informative training data for a learning algorithm. Specifically, principal minors of positive square matrices can be considered as statistical weights of a random point process on the set of the matrix indices. The probability of each subset of the indices is in general proportional to a positive power of the determinant of the associated sub-matrix. We use Gaussian representation of the determinants for symmetric and positive matrices to estimate the partition function (or free energy) and the entropy of principal minors within the Bethe approximation. The results are expected to be asymptotically exact for diagonally dominant matrices with locally tree-like structures. We consider the Laplacian matrix of random regular graphs of degree $K=2,3,4$ and exactly characterize the structure of the relevant minors in a mean-field model of such matrices. No (finite-temperature) phase transition is observed in this class of diagonally dominant matrices by increasing the positive power of the principal minors, which here plays the role of an inverse temperature. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# オフライン強化学習のための適応的アドバンテージ誘導型ポリシー規則化
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19909v1 ) ライセンス: Link先を確認 | Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan, Xin Xu, | (参考訳) オフライン強化学習では、アウト・オブ・ディストリビューション(OOD)の課題が読み取れる。
これを解決するために、既存の手法は、しばしばポリシーの規則化を通じて学習したポリシーを制約する。
しかし、これらの方法はしばしば不必要な保守性の問題に悩まされ、政策改善を妨げている。
これは、オフラインデータセットを制約として生成する振舞いポリシーから、すべてのアクションが無差別に使用されるためである。
データセットの品質が最適以下である場合、この問題は特に顕著になる。
そこで我々は, 適応アドバンテージ誘導型政策規則化(A2PR)を提案し, VAEと組み合わせた拡張行動政策から高アドバンテージな行動を求め, 学習方針を導出する。
A2PRはデータセットにあるものとは異なる高アドバンテージなアクションを選択できるが、OODアクションからの保守性を効果的に維持できる。
これは、VAEキャパシティを利用して、データポイントの分布に一致するサンプルを生成することで達成される。
我々は行動政策の改善が保証されていることを理論的に証明する。
さらに、値過大評価を有界な性能ギャップで効果的に軽減する。
実験的に、我々はD4RLベンチマークで一連の実験を行い、A2PRは最先端の性能を示す。
さらに、追加の最適混合データセットに対する実験結果から、A2PRは優れた性能を示すことが明らかとなった。
コードはhttps://github.com/ltlhuuu/A2PRで公開されている。
In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# データ破壊下におけるロバストカーネル仮説の検証
Robust Kernel Hypothesis Testing under Data Corruption ( http://arxiv.org/abs/2405.19912v1 ) ライセンス: Link先を確認 | Antonin Schrab, Ilmun Kim, | (参考訳) データ破損下での頑健な置換テストを構築するための2つの一般的な方法を提案する。
提案試験は,データ破損時の非漸近型I型誤差を効果的に制御し,最小条件下での出力の整合性を実証する。
これは、潜在的な敵攻撃を伴う現実世界のアプリケーションに対する仮説テストの実践的な展開に寄与する。
当社の手法の1つは本質的に差分プライバシーを保証し、プライベートデータ分析の適用性をさらに広げるものである。
2サンプルと独立性の設定では、カーネルのロバストテストが最小限の最適値であることを示し、カーネルMDとHSICメトリクスのnullから一様に分離された代替値に対して非漸近的に強力であることを保証する。
最後に、利用可能な実装を提供し、提案したテストの実用性を実証的に説明する。
We propose two general methods for constructing robust permutation tests under data corruption. The proposed tests effectively control the non-asymptotic type I error under data corruption, and we prove their consistency in power under minimal conditions. This contributes to the practical deployment of hypothesis tests for real-world applications with potential adversarial attacks. One of our methods inherently ensures differential privacy, further broadening its applicability to private data analysis. For the two-sample and independence settings, we show that our kernel robust tests are minimax optimal, in the sense that they are guaranteed to be non-asymptotically powerful against alternatives uniformly separated from the null in the kernel MMD and HSIC metrics at some optimal rate (tight with matching lower bound). Finally, we provide publicly available implementations and empirically illustrate the practicality of our proposed tests. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# B$^α$ゲートの実装
Implementation of B$^α$ Gates ( http://arxiv.org/abs/2405.19913v1 ) ライセンス: Link先を確認 | M. Karthick Selvan, S. Balakrishnan, | (参考訳) 本稿では,B$^{\alpha}$ Gatesの特性について述べる。
イオントラップ系にB$^{\alpha}$ Gatesを実装する実験手法を提案する。
このスキームでは、単一の振動モードのみがスピン-スピン結合に寄与すると仮定する。
このスキームは、イオントラップ系におけるXY型相互作用を実現するための、最近提案されたスキームの拡張である。
このスキームの実装が成功すると、B$^{\alpha}$ gatesはイオントラップ量子コンピュータの量子計算に利用できる。
In this brief report, we discuss the characteristics of B$^{\alpha}$ gates. We propose an experimental scheme to implement B$^{\alpha}$ gates in ion-trap system. In this scheme, we assume that only a single vibrational mode contributes to spin-spin coupling. This scheme is an extension of a recently proposed scheme to realize XY-type interaction in ion-trap system. With the successful implementation of this scheme, B$^{\alpha}$ gates can be used for doing quantum computation in ion-trap quantum computers. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# RGB-NIRクロスモダリティ画像登録に向けて
Towards RGB-NIR Cross-modality Image Registration and Beyond ( http://arxiv.org/abs/2405.19914v1 ) ライセンス: Link先を確認 | Huadong Li, Shichao Dong, Jin Wang, Rong Fu, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji, | (参考訳) 本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に焦点をあてる。
この分野では、RGB-NIRのクロスモダリティ登録方法を評価するための視点のバリエーションを備えた正しく注釈付けされたベンチマークが存在しないことと、RGB-NIRのクロスモダリティ画像間の外観の相違に起因する不整合な局所的特徴の問題という2つの主要な課題に直面している。
これらの課題に対処するために、まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを提示する。
従来手法の評価では,RGB-NIR-IRegisベンチマークによる重要な課題,特に視点変動のあるRGB-NIR画像対が顕著であった。
そして、不満足な性能の原因を分析するために、モデル性能に対する可視画像と赤外線画像の間の非一貫性な局所的特徴の有害な影響を明らかにするために、いくつかの指標を設計する。
これにより,局所的不整合性特徴の負の影響を軽減するために,高レベルのセマンティックガイダンスを利用するセマンティックガイダンストランスフォーマ (SGFormer) と呼ばれるベースライン手法の開発が促進される。
モチベーションの単純さにもかかわらず、広範な実験結果から、本手法の有効性が示された。
This paper focuses on the area of RGB(visible)-NIR(near-infrared) cross-modality image registration, which is crucial for many downstream vision tasks to fully leverage the complementary information present in visible and infrared images. In this field, researchers face two primary challenges - the absence of a correctly-annotated benchmark with viewpoint variations for evaluating RGB-NIR cross-modality registration methods and the problem of inconsistent local features caused by the appearance discrepancy between RGB-NIR cross-modality images. To address these challenges, we first present the RGB-NIR Image Registration (RGB-NIR-IRegis) benchmark, which, for the first time, enables fair and comprehensive evaluations for the task of RGB-NIR cross-modality image registration. Evaluations of previous methods highlight the significant challenges posed by our RGB-NIR-IRegis benchmark, especially on RGB-NIR image pairs with viewpoint variations. To analyze the causes of the unsatisfying performance, we then design several metrics to reveal the toxic impact of inconsistent local features between visible and infrared images on the model performance. This further motivates us to develop a baseline method named Semantic Guidance Transformer (SGFormer), which utilizes high-level semantic guidance to mitigate the negative impact of local inconsistent features. Despite the simplicity of our motivation, extensive experimental results show the effectiveness of our method. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# P$^2$-ViT:フル量子化ビジョン変換器の2時間後量子化と高速化
P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer ( http://arxiv.org/abs/2405.19915v1 ) ライセンス: Link先を確認 | Huihong Shi, Xin Cheng, Wendong Mao, Zhongfeng Wang, | (参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクに優れていますが、メモリ消費と計算集約性があり、リソース制約のあるデバイスへのデプロイメントに挑戦しています。
この制限に対処するために、以前の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保持しており、これは非無視的な再量子化オーバーヘッドをもたらし、ViTのハードウェア効率を制限し、よりハードウェアフレンドリーなソリューションを動機付けている。
この目的のために、完全量子化された ViT を加速するために、最初の \underline{P}ower-of-Two (PoT) \underline{p}ost-training Quantization and accelerate framework である \emph{P$^2$-ViT} を提案する。
具体的には,PoTスケーリング因子を効果的に定量化する専用量子化スキームを探索し,再量子化オーバーヘッドを最小化する。
さらに,高精度かつ高精度なトレードオフを実現するために,粗大な自動混合精度量子化を提案する。
ハードウェアの分野では、ViTの異なるタイプの操作を個別に扱うために、複数の調整されたサブプロセッサを備えた専用のチャンクベースのアクセラレータを開発し、再構成可能なオーバーヘッドを軽減する。
さらに,PoTスケーリング要因によって導入されたパイプライン処理の機会を把握し,スループットを向上させるために,列定常データフローを調整して設計する。
大規模な実験は、P$^2$-ViTの有効性を一貫して評価する。
特に、浮動小数点スケーリング係数と比較して、PoTスケーリング係数と同等またはそれ以上の量子化性能を提供する。
さらに、最大$\mathbf{10.1\times}$スピードアップと$\mathbf{36.8\times}$GPUのチューリングテンソルコアに対する省エネ、最大$\mathbf{1.84\times}$SOTA量子化ベースのViTアクセラレータに対する高い計算効率を実現する。
コードは \url{https://github.com/shihuihong214/P2-ViT} で公開されている。
Vision Transformers (ViTs) have excelled in computer vision tasks but are memory-consuming and computation-intensive, challenging their deployment on resource-constrained devices. To tackle this limitation, prior works have explored ViT-tailored quantization algorithms but retained floating-point scaling factors, which yield non-negligible re-quantization overhead, limiting ViTs' hardware efficiency and motivating more hardware-friendly solutions. To this end, we propose \emph{P$^2$-ViT}, the first \underline{P}ower-of-Two (PoT) \underline{p}ost-training quantization and acceleration framework to accelerate fully quantized ViTs. Specifically, {as for quantization,} we explore a dedicated quantization scheme to effectively quantize ViTs with PoT scaling factors, thus minimizing the re-quantization overhead. Furthermore, we propose coarse-to-fine automatic mixed-precision quantization to enable better accuracy-efficiency trade-offs. {In terms of hardware,} we develop {a dedicated chunk-based accelerator} featuring multiple tailored sub-processors to individually handle ViTs' different types of operations, alleviating reconfigurable overhead. Additionally, we design {a tailored row-stationary dataflow} to seize the pipeline processing opportunity introduced by our PoT scaling factors, thereby enhancing throughput. Extensive experiments consistently validate P$^2$-ViT's effectiveness. {Particularly, we offer comparable or even superior quantization performance with PoT scaling factors when compared to the counterpart with floating-point scaling factors. Besides, we achieve up to $\mathbf{10.1\times}$ speedup and $\mathbf{36.8\times}$ energy saving over GPU's Turing Tensor Cores, and up to $\mathbf{1.84\times}$ higher computation utilization efficiency against SOTA quantization-based ViT accelerators. Codes are available at \url{https://github.com/shihuihong214/P2-ViT}. | 翻訳日:2024-05-31 14:59:14 公開日:2024-05-30 |
# エゴセントリックな行動認識のためのマルチモーダルなクロスドメインFew-Shot学習
Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition ( http://arxiv.org/abs/2405.19917v1 ) ライセンス: Link先を確認 | Masashi Hatano, Ryo Hachiuma, Ryo Fuji, Hideo Saito, | (参考訳) マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいクロスドメイン少ショット学習タスク(CD-FSL)について検討する。
本稿では,CD-FSL設定におけるエゴセントリックなアクション認識に関わる2つの重要な課題について,(1)エゴセントリックなビデオの極端な領域間差,(2)実世界のアプリケーションにおける計算コストについて考察する。
本稿では,対象領域への適応性を向上し,推論速度を向上させるために,ドメイン適応的で効率的なアプローチであるMM-CDFSLを提案する。
最初の課題に対処するために,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。
各教師モデルは、それぞれのモダリティのソースデータとターゲットデータに基づいて、独立して訓練される。
マルチモーダル蒸留における未ラベルのターゲットデータのみを活用すると、学生モデルのターゲット領域への適応性が向上する。
さらに,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。
このアプローチでは、アンサンブル予測はマスキングによる性能劣化を緩和し、2つ目の問題に効果的に対処する。
当社のアプローチは、最先端のCD-FSLアプローチよりも優れており、複数のエゴセントリックデータセットに対してかなりのマージンを有し、平均6.12/6.10ポイントの1ショット/5ショット設定で改善され、推論速度は2.2ドルの速さで達成された。
プロジェクトページ:https://masashi-hatano.github.io/MM-CDFSL/
We address a novel cross-domain few-shot learning task (CD-FSL) with multimodal input and unlabeled target data for egocentric action recognition. This paper simultaneously tackles two critical challenges associated with egocentric action recognition in CD-FSL settings: (1) the extreme domain gap in egocentric videos (\eg, daily life vs. industrial domain) and (2) the computational cost for real-world applications. We propose MM-CDFSL, a domain-adaptive and computationally efficient approach designed to enhance adaptability to the target domain and improve inference speed. To address the first challenge, we propose the incorporation of multimodal distillation into the student RGB model using teacher models. Each teacher model is trained independently on source and target data for its respective modality. Leveraging only unlabeled target data during multimodal distillation enhances the student model's adaptability to the target domain. We further introduce ensemble masked inference, a technique that reduces the number of input tokens through masking. In this approach, ensemble prediction mitigates the performance degradation caused by masking, effectively addressing the second issue. Our approach outperformed the state-of-the-art CD-FSL approaches with a substantial margin on multiple egocentric datasets, improving by an average of 6.12/6.10 points for 1-shot/5-shot settings while achieving $2.2$ times faster inference speed. Project page: https://masashi-hatano.github.io/MM-CDFSL/ | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# グラフ陽性学習における不テロ親和性構造の影響の解明
Unraveling the Impact of Heterophilic Structures on Graph Positive-Unlabeled Learning ( http://arxiv.org/abs/2405.19919v1 ) ライセンス: Link先を確認 | Yuhao Wu, Jiangchao Yao, Bo Han, Lina Yao, Tongliang Liu, | (参考訳) Positive-Unlabeled (PU) 学習は多くの実世界のシナリオにおいて不可欠であるが、グラフデータへの応用はいまだ未探索のままである。
グラフ上でのPU学習における重要な課題はエッジヘテロフィリー上にあり、クラスプライア推定(PU学習アルゴリズムを構築する上では、クラス先行が必須)の既約性仮定に直接違反し、未ラベルノード上の潜在ラベル推論をクラス化学習中に退避させる。
この課題に対応するために,ラベル伝搬損失を用いたグラフPU学習(Graph PU Learning with Label Propagation Loss, GPL)という新しい手法を導入する。
具体的には、GPLはPUノードからの学習と中間的ヘテロフィリ還元を考慮し、ヘテロ親和性構造の負の影響を軽減する。
この手順は、内部ループにおける不均一性を低減し、外部ループにおける分類器を効率的に学習する二段階最適化として定式化する。
さまざまなデータセットにわたる大規模な実験により、GPLはベースラインメソッドを大幅に上回っており、その有効性と優位性を確認している。
While Positive-Unlabeled (PU) learning is vital in many real-world scenarios, its application to graph data still remains under-explored. We unveil that a critical challenge for PU learning on graph lies on the edge heterophily, which directly violates the irreducibility assumption for Class-Prior Estimation (class prior is essential for building PU learning algorithms) and degenerates the latent label inference on unlabeled nodes during classifier training. In response to this challenge, we introduce a new method, named Graph PU Learning with Label Propagation Loss (GPL). Specifically, GPL considers learning from PU nodes along with an intermediate heterophily reduction, which helps mitigate the negative impact of the heterophilic structure. We formulate this procedure as a bilevel optimization that reduces heterophily in the inner loop and efficiently learns a classifier in the outer loop. Extensive experiments across a variety of datasets have shown that GPL significantly outperforms baseline methods, confirming its effectiveness and superiority. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# MCDS-VSS:自監督幾何と動きによるフィルタリングによる移動カメラダイナミックシーン映像セマンティックセグメンテーション
MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion ( http://arxiv.org/abs/2405.19921v1 ) ライセンス: Link先を確認 | Angel Villar-Corrales, Moritz Austermann, Sven Behnke, | (参考訳) 自動運転車のような自律システムは、意思決定に信頼できるセマンティックな環境認識に依存している。
ビデオセマンティックセグメンテーションの進歩にもかかわらず、既存のアプローチは重要な帰納バイアスを無視し、構造的で解釈可能な内部表現を欠いている。
本研究では,カメラのシーン形状とエゴモーションを推定し,外部物体の動きを推定する構造付きフィルタモデルMCDS-VSSを提案する。
我々のモデルはこれらの表現を活用し、セグメンテーションの精度を犠牲にすることなくセグメンテーションの時間的一貫性を向上させる。
MCDS-VSSは、シーン幾何学とカメラモーションを最初にエゴモーションを補うために使用し、その後、ダイナミックオブジェクトの動きを補うために残留フローを使用し、最終的に予測されたシーン特徴を現在の特徴と融合させて時間的に一貫したシーンセグメンテーションを得る、予測融合アプローチに従っている。
我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションといった複数の分離された解釈可能な表現に解析する。
MCDS-VSSは、競合セグメンテーション性能を維持しつつ、ビデオシーケンスの時間的一貫性を向上することを示す。
Autonomous systems, such as self-driving cars, rely on reliable semantic environment perception for decision making. Despite great advances in video semantic segmentation, existing approaches ignore important inductive biases and lack structured and interpretable internal representations. In this work, we propose MCDS-VSS, a structured filter model that learns in a self-supervised manner to estimate scene geometry and ego-motion of the camera, while also estimating the motion of external objects. Our model leverages these representations to improve the temporal consistency of semantic segmentation without sacrificing segmentation accuracy. MCDS-VSS follows a prediction-fusion approach in which scene geometry and camera motion are first used to compensate for ego-motion, then residual flow is used to compensate motion of dynamic objects, and finally the predicted scene features are fused with the current features to obtain a temporally consistent scene segmentation. Our model parses automotive scenes into multiple decoupled interpretable representations such as scene geometry, ego-motion, and object motion. Quantitative evaluation shows that MCDS-VSS achieves superior temporal consistency on video sequences while retaining competitive segmentation performance. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# BAN: 逆行性ニューロンノイズによるバックドア検出
BAN: Detecting Backdoors Activated by Adversarial Neuron Noise ( http://arxiv.org/abs/2405.19928v1 ) ライセンス: Link先を確認 | Xiaoyun Xu, Zhuoran Liu, Stefanos Koffas, Shujian Yu, Stjepan Picek, | (参考訳) ディープラーニングに対するバックドア攻撃は、最近の研究コミュニティで大きな注目を集めている脅威である。
バックドアディフェンスは主にバックドアのインバージョンに基づいており、これは汎用的でモデルに依存しず、実用的な脅威シナリオに適用可能であることが示されている。
State-of-the-art backdoor inversion(最先端のバックドア・インバージョン)は、特徴空間のマスクを回復して、目立つバックドアの特徴を見つける。
しかし、高い計算オーバーヘッドに悩まされており、良質な特徴と非常に区別可能な顕著なバックドア機能に過度に依存していることもわかりました。
これらの欠点に対処するために,ニューロン活性化情報を付加することにより,バックドア検出のためのバックドア特徴インバージョンを改善する。
特に、バックドアモデルとクリーンモデルを簡単に区別可能なバックドア効果を活性化するために、ウェイトに関するバックドアモデルの損失を逆向きに増加させます。
実験の結果、BANは1.37$\times$(CIFAR-10)と5.11$\times$(ImageNet200)で、最先端のBTI-DBFよりも9.99%高い検出成功率を示した。
私たちのコードとトレーニングされたモデルは公開されています。
\url{https://anonymous.4open.science/r/ban-4B32}
Backdoor attacks on deep learning represent a recent threat that has gained significant attention in the research community. Backdoor defenses are mainly based on backdoor inversion, which has been shown to be generic, model-agnostic, and applicable to practical threat scenarios. State-of-the-art backdoor inversion recovers a mask in the feature space to locate prominent backdoor features, where benign and backdoor features can be disentangled. However, it suffers from high computational overhead, and we also find that it overly relies on prominent backdoor features that are highly distinguishable from benign features. To tackle these shortcomings, this paper improves backdoor feature inversion for backdoor detection by incorporating extra neuron activation information. In particular, we adversarially increase the loss of backdoored models with respect to weights to activate the backdoor effect, based on which we can easily differentiate backdoored and clean models. Experimental results demonstrate our defense, BAN, is 1.37$\times$ (on CIFAR-10) and 5.11$\times$ (on ImageNet200) more efficient with 9.99% higher detect success rate than the state-of-the-art defense BTI-DBF. Our code and trained models are publicly available.\url{https://anonymous.4open.science/r/ban-4B32} | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# 有限ショット微調整およびベイズニューラルネットワークによる緩和における拡散モデルの破壊段階の探索
Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks ( http://arxiv.org/abs/2405.19931v1 ) ライセンス: Link先を確認 | Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan, | (参考訳) 拡散モデル(DM)の微調整は重要な進歩であり、トレーニングコストを大幅に削減し、パーソナライズされたAIアプリケーションを可能にする。
しかし,DMのトレーニング力学を探求し,予期せぬ現象を観察する。トレーニング過程の間,画像の忠実度は最初改善され,ノイズパターンの出現とともに予期せぬ劣化が生じるが,その後,過度なオーバーフィッティングで回復する。
ノイズパターンが生じるステージを汚職ステージと表現する。
この汚職の段階を理解するために、理論的には1ショットの微調整シナリオをモデル化し、さらに一般的なケースに拡張する。
このモデリングにより、この汚職ステージの主な原因、すなわち、数発の微調整の性質に固有の絞り込み学習分布を同定する。
そこで本研究では,BNNの学習対象が拡散損失の期待と,事前訓練したDMとのさらなる正規化とを自然にみなすことが可能であることを,変分推論によるDMにベイズニューラルネットワーク(BNN)を適用して学習分布を暗黙的に拡大する。
このアプローチは、DMにおける現在の数発の微調整手法と互換性が高く、追加の推論コストを導入しない。
実験結果から,本手法は汚損を著しく軽減し,オブジェクト駆動および主観駆動の両方で生成した画像の忠実度,品質,多様性を向上することが示された。
Few-shot fine-tuning of Diffusion Models (DMs) is a key advancement, significantly reducing training costs and enabling personalized AI applications. However, we explore the training dynamics of DMs and observe an unanticipated phenomenon: during the training process, image fidelity initially improves, then unexpectedly deteriorates with the emergence of noisy patterns, only to recover later with severe overfitting. We term the stage with generated noisy patterns as corruption stage. To understand this corruption stage, we begin by theoretically modeling the one-shot fine-tuning scenario, and then extend this modeling to more general cases. Through this modeling, we identify the primary cause of this corruption stage: a narrowed learning distribution inherent in the nature of few-shot fine-tuning. To tackle this, we apply Bayesian Neural Networks (BNNs) on DMs with variational inference to implicitly broaden the learned distribution, and present that the learning target of the BNNs can be naturally regarded as an expectation of the diffusion loss and a further regularization with the pretrained DMs. This approach is highly compatible with current few-shot fine-tuning methods in DMs and does not introduce any extra inference costs. Experimental results demonstrate that our method significantly mitigates corruption, and improves the fidelity, quality and diversity of the generated images in both object-driven and subject-driven generation tasks. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# 潜在グラフ構造と不確かさの学習
Learning Latent Graph Structures and their Uncertainty ( http://arxiv.org/abs/2405.19933v1 ) ライセンス: Link先を確認 | Alessandro Manenti, Daniele Zambon, Cesare Alippi, | (参考訳) 予測タスク内では、グラフニューラルネットワーク(GNN)がモデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
本稿では,平均絶対誤差である点予測損失関数,例えば平均絶対誤差の最小化が,潜時関係情報とその関連不確かさの適切な学習を保証するものではないことを実証する。
逆に、確率モデル上の適切な損失関数が同時に付与されることを示す。
(i)未知の隣接行列潜時分布
(ii)予測タスクにおける最適性能。
最後に,この共同学習課題を解決するサンプリングベース手法を提案する。
実証実験により,提案手法の有効性を検証し,提案手法の有効性を実証した。
Within a prediction task, Graph Neural Networks (GNNs) use relational information as an inductive bias to enhance the model's accuracy. As task-relevant relations might be unknown, graph structure learning approaches have been proposed to learn them while solving the downstream prediction task. In this paper, we demonstrate that minimization of a point-prediction loss function, e.g., the mean absolute error, does not guarantee proper learning of the latent relational information and its associated uncertainty. Conversely, we prove that a suitable loss function on the stochastic model outputs simultaneously grants (i) the unknown adjacency matrix latent distribution and (ii) optimal performance on the prediction task. Finally, we propose a sampling-based method that solves this joint learning task. Empirical results validate our theoretical claims and demonstrate the effectiveness of the proposed approach. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# エージェントベースモデルによるストロークの人口バーデンの推定
Estimating Population Burden of Stroke with an Agent-Based Model ( http://arxiv.org/abs/2405.19934v1 ) ライセンス: Link先を確認 | Elizabeth Hunter, John D. Kelleher, | (参考訳) ストロークは世界中で死と障害の主な原因の1つだが、非常に予防可能であると考えられている。
脳卒中予防の大多数はリスクの高い個人をターゲットにしているが、リスクの高い個人のターゲットが脳卒中全体の社会的負担にどのように影響するかを理解することが重要である。
本研究では,集団レベルでの介入が与える影響を評価するために,前ストロークとストロークの旅を通じてエージェントに従うエージェントベースモデルを提案する。
本研究では,特定の年齢における脳卒中リスクを知らせるエージェントと,そのリスクを軽減する対策を講じているエージェントの影響について検討する。
以上の結果から,エージェントがリスクを認識し,それに従って行動すると,脳卒中やDALYは有意に減少することが明らかとなった。
このケーススタディは、脳卒中予防のための自己の脳卒中リスクを理解することの重要性と、脳卒中介入の効果を評価するためのエージェントベースモデルの有用性を強調した。
Stroke is one of the leading causes of death and disability worldwide but it is believed to be highly preventable. The majority of stroke prevention focuses on targeting high-risk individuals but its is important to understand how the targeting of high-risk individuals might impact the overall societal burden of stroke. We propose using an agent-based model that follows agents through their pre-stroke and stroke journey to assess the impacts of different interventions at the population level. We present a case study looking at the impacts of agents being informed of their stroke risk at certain ages and those agents taking measure to reduce their risk. The results of our study show that if agents are aware of their risk and act accordingly we see a significant reduction in strokes and population DALYs. The case study highlights the importance of individuals understanding their own stroke risk for stroke prevention and the usefulness of agent-based models in assessing the impact of stroke interventions. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# ジャイアント駆動$-$型3レベル原子の自発放出のコヒーレント制御
Coherent Control of Spontaneous Emission for a giant driven $Λ $-type three-level atom ( http://arxiv.org/abs/2405.19942v1 ) ライセンス: Link先を確認 | Yang ya, Sun ge, Li jing, Lu jing, Zhou lan, | (参考訳) 巨大原子を持つ量子光学は、原子スケールで光メモリデバイスを実装するための新しいアプローチを提供する。
ここでは、2つの結合点を通して1次元導波路と相互作用する1つの駆動3レベル原子の緩和ダイナミクスを理論的に研究する。
ある条件下では、長期間のダイナミクスの後、巨大原子の個体群が安定な値を維持するか、定期的な周期的な振動挙動を示すか、巨大原子の領域に光子を閉じ込めることが判明した。
この現象は、脚が2本ある2段階の原子では達成できない。
安定な境界状態の原子励起確率は定数値であり、原子の大きさによって決定される。
重要なことに、原子の大きさ(二つの結合点間の距離)は光の波長よりもはるかに大きく、これは振動する境界状態の存在に必要な条件である。
Quantum optics with giant atoms provides a new approach for implementing optical memory devices at the atomic scale. Here, we theoretically study the relaxation dynamics of a single driven three-level atom interacting with a one-dimensional waveguide, via two coupling points. Under certain conditions, after the long-time dynamics, we found that the population of giant atom can either maintain stable values or exhibit regular periodic oscillation behavior, while photons can be trapped in the region of giant atoms. This phenomenon is not achievable using a two-level atom with two legs. It is worth noting that the atomic excitation probability of a stable bound state is a constant value, which is determined by the size of the atom. Crucially, the size of the atom (the distance between the two coupling points) is much larger than the wavelength of the light field, which is a necessary condition for the existence of oscillating bound states. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# 監督型ビューワイズコントリビューション重み付けによる大規模シーンにおける多視点人物検出
Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution Weighting ( http://arxiv.org/abs/2405.19943v1 ) ライセンス: Link先を確認 | Qi Zhang, Yunfei Gong, Daijie Chen, Antoni B. Chan, Hui Huang, | (参考訳) 近年の深層学習に基づくマルチビュー人検出(MVD)手法は,既存のデータセットに対して有望な結果を示した。
しかし、現在の手法は主に、限られた数のマルチビューフレームと固定カメラビューを持つ小さな単一シーンで訓練され、評価されている。
その結果、これらの手法は、重度の閉塞とカメラキャリブレーションエラーを伴う、より大きく、より複雑なシーンの人々を検出するには実用的ではないかもしれない。
本稿では,大画面下でのマルチカメラ情報の融合を改善するために,教師付きビューワイド・コントリビューション重み付け手法を開発することにより,多視点人物検出の改善に焦点をあてる。
さらに、モデルの一般化能力を高め、より実用的な評価と比較を可能にするために、大規模な合成データセットが採用されている。
新しいテストシーンにおけるモデルの性能は、シンプルなドメイン適応技術によりさらに改善される。
実験により,提案手法が有望な多面的人物検出性能の実現に有効であることを実証した。
コードについては、https://vcc.tech/research/2024/MVDを参照してください。
Recent deep learning-based multi-view people detection (MVD) methods have shown promising results on existing datasets. However, current methods are mainly trained and evaluated on small, single scenes with a limited number of multi-view frames and fixed camera views. As a result, these methods may not be practical for detecting people in larger, more complex scenes with severe occlusions and camera calibration errors. This paper focuses on improving multi-view people detection by developing a supervised view-wise contribution weighting approach that better fuses multi-camera information under large scenes. Besides, a large synthetic dataset is adopted to enhance the model's generalization ability and enable more practical evaluation and comparison. The model's performance on new testing scenes is further improved with a simple domain adaptation technique. Experimental results demonstrate the effectiveness of our approach in achieving promising cross-scene multi-view people detection performance. See code here: https://vcc.tech/research/2024/MVD. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# 戦略的に語るための学習: 一夜のアルティメット・ウィールウルフを事例として
Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf ( http://arxiv.org/abs/2405.19946v1 ) ライセンス: Link先を確認 | Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, Jun Wang, | (参考訳) コミュニケーションは人間社会の基本的な側面であり、情報と信念の交換を促進する。
大規模言語モデル(LLM)の進歩にもかかわらず、近年のエージェントは、コミュニケーションシナリオやゲームに不可欠な議論戦術の制御を無視することが多い。
有名なコミュニケーションゲーム『Werewolf』の変種として、One Night Ultimate Werewolf (ONUW) はプレイヤーがゲームの不確実性と複雑さを増大させる潜在的な役割の変化のために戦略的な議論ポリシーを開発することを要求している。
本研究は,ONUWゲームにおける完全ベイズ平衡 (PBE) の存在を2つのシナリオとして提示する。
その結果、議論はプレイヤーの信念に影響を与え、議論戦術の重要性を強調することで、プレイヤーの効用を大きく変えることが明らかとなった。
分析から得られた知見に基づき、強化学習(RL)によって訓練された議論政策を取り入れ、適切な議論手法を採用するためのRL指示言語エージェントフレームワークを提案する。
いくつかのONUWゲーム設定実験の結果,提案フレームワークの有効性と一般化性を示した。
Communication is a fundamental aspect of human society, facilitating the exchange of information and beliefs among people. Despite the advancements in large language models (LLMs), recent agents built with these often neglect the control over discussion tactics, which are essential in communication scenarios and games. As a variant of the famous communication game Werewolf, One Night Ultimate Werewolf (ONUW) requires players to develop strategic discussion policies due to the potential role changes that increase the uncertainty and complexity of the game. In this work, we first present the existence of the Perfect Bayesian Equilibria (PBEs) in two scenarios of the ONUW game: one with discussion and one without. The results showcase that the discussion greatly changes players' utilities by affecting their beliefs, emphasizing the significance of discussion tactics. Based on the insights obtained from the analyses, we propose an RL-instructed language agent framework, where a discussion policy trained by reinforcement learning (RL) is employed to determine appropriate discussion tactics to adopt. Our experimental results on several ONUW game settings demonstrate the effectiveness and generalizability of our proposed framework. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# クラウドFPGA用高レベル合成可能なIPにおける希少ターゲットトリガーのためのスケーラブルなテスト生成
Scalable Test Generation to Trigger Rare Targets in High-Level Synthesizable IPs for Cloud FPGAs ( http://arxiv.org/abs/2405.19948v1 ) ライセンス: Link先を確認 | Mukta Debnath, Animesh Basak Chowdhury, Debasri Saha, Susmita Sur-Kolay, | (参考訳) 高レベル合成(HLS)は複雑なハードウェアIP(HWIP)の開発を、SystemC/C++のような言語、特に高性能およびクラウドコンピューティングのコンテキストにおけるフィールドプログラマブルゲートアレイ(FPGA)アクセラレータを通じて抽象化と構成性を提供することによって変革した。
これらのIPはクラウド上の様々なFPGAボード向けに合成することができ、コンパクトな領域要件と柔軟性を提供する。
HLSは、レジスタ転送レベル(RTL)合成を必要とせずに、最新のFPGA内でARMプロセッサ上で直接実行する設計を可能にし、FPGAリソースを保存する。
HLSは柔軟性と効率性を提供するが、設計中にハードウェアトロイの木馬をホストする可能性など、隠れた回路の存在のような潜在的な脆弱性も導入している。
クラウド環境では、これらの脆弱性は機密データの漏洩、IP機能の破壊、ハードウェアの損傷といった重大なセキュリティ上の懸念を生じさせ、堅牢なテストフレームワークの開発を必要としている。
本研究では,HLS が開発したクラウド IP の高度なテスト手法を提案する。
提案手法は, グレーボックスファジングとコンコリック実行技術を組み合わせた選択的インスツルメンテーションを利用して, テスト生成能力を向上する。
FPGAベースのクラウドIPの特徴を組み込んだHLSベンチマークで行った評価では,トロイの木馬や稀なシナリオの検出,カバレッジ,時間効率,メモリ使用量,既存手法と比較してテストコストが向上したことを示す。
High-Level Synthesis (HLS) has transformed the development of complex Hardware IPs (HWIP) by offering abstraction and configurability through languages like SystemC/C++, particularly for Field Programmable Gate Array (FPGA) accelerators in high-performance and cloud computing contexts. These IPs can be synthesized for different FPGA boards in cloud, offering compact area requirements and enhanced flexibility. HLS enables designs to execute directly on ARM processors within modern FPGAs without the need for Register Transfer Level (RTL) synthesis, thereby conserving FPGA resources. While HLS offers flexibility and efficiency, it also introduces potential vulnerabilities such as the presence of hidden circuitry, including the possibility of hosting hardware trojans within designs. In cloud environments, these vulnerabilities pose significant security concerns such as leakage of sensitive data, IP functionality disruption and hardware damage, necessitating the development of robust testing frameworks. This research presents an advanced testing approach for HLS-developed cloud IPs, specifically targeting hidden malicious functionalities that may exist in rare conditions within the design. The proposed method leverages selective instrumentation, combining greybox fuzzing and concolic execution techniques to enhance test generation capabilities. Evaluation conducted on various HLS benchmarks, possessing characteristics of FPGA-based cloud IPs with embedded cloud related threats, demonstrates the effectiveness of our framework in detecting trojans and rare scenarios, showcasing improvements in coverage, time efficiency, memory usage, and testing costs compared to existing methods. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# アモーダルコンプリート用ハイパートランス
Hyper-Transformer for Amodal Completion ( http://arxiv.org/abs/2405.19949v1 ) ライセンス: Link先を確認 | Jianxiong Gao, Xuelin Qian, Longfei Liang, Junwei Han, Yanwei Fu, | (参考訳) アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
学習形態の事前は効果的なアモーダルな完了には不可欠だが、従来の手法は2段階のプロセスや追加の情報に依存しており、非効率性や潜在的なエラーの蓄積につながる。
これらの欠点に対処するために,Hyper-Transformer Amodal Network (H-TAN) という新しいフレームワークを導入する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
具体的には、H-TANはデュアルブランチ構造を使用して、画像とマスクの両方からマルチスケールの特徴を抽出する。
イメージブランチのマルチスケール特徴は、学習前の形状や、各インスタンスに合わせて調整された動的畳み込みのための重みを生成する際に、ハイパートランスフォーマーを導く。
ダイナミックな畳み込みヘッドは、マスクブランチの特徴を使って正確なアモーダルマスクを予測する。
KINS,COCOA-cls,D2SAの3つのベンチマークデータセットを用いて,H-TANが既存手法と比較して優れた性能を示した。
さらに,本フレームワークにおける新しいハイパートランスの有効性と安定性を検証した。
Amodal object completion is a complex task that involves predicting the invisible parts of an object based on visible segments and background information. Learning shape priors is crucial for effective amodal completion, but traditional methods often rely on two-stage processes or additional information, leading to inefficiencies and potential error accumulation. To address these shortcomings, we introduce a novel framework named the Hyper-Transformer Amodal Network (H-TAN). This framework utilizes a hyper transformer equipped with a dynamic convolution head to directly learn shape priors and accurately predict amodal masks. Specifically, H-TAN uses a dual-branch structure to extract multi-scale features from both images and masks. The multi-scale features from the image branch guide the hyper transformer in learning shape priors and in generating the weights for dynamic convolution tailored to each instance. The dynamic convolution head then uses the features from the mask branch to predict precise amodal masks. We extensively evaluate our model on three benchmark datasets: KINS, COCOA-cls, and D2SA, where H-TAN demonstrated superior performance compared to existing methods. Additional experiments validate the effectiveness and stability of the novel hyper transformer in our framework. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# MM-Lego:極小調整によるモジュール型バイオメディカルマルチモーダルモデル
MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning ( http://arxiv.org/abs/2405.19950v1 ) ライセンス: Link先を確認 | Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik, | (参考訳) 物理的、化学的、生物学的システムにおける全体論的計算表現の学習には、同じモデル内の異なる分布やモダリティからの情報を処理する能力が必要である。
このように、マルチモーダル機械学習モデルの需要は、シーケンス、グラフ、時系列、表データなど、視覚や言語を超えたモダリティに対して急速に高まっている。
利用可能なマルチモーダル融合やアライメントアプローチは数多く存在するが、そのほとんどはエンドツーエンドのトレーニングを必要とし、モダリティの数に2次的にスケールし、トレーニングセットで高いモダリティ不均衡のケースを扱えないか、あるいはトポロジーに特有であり、多くの生物医学的な学習タスクでは制限されすぎている。
本稿では,モジュールおよび汎用融合モデル統合フレームワークであるMultimodal Lego(MM-Lego)について述べる。
周波数領域の特徴を学習し、信号干渉の少ないモデルマージを可能にすることで、モダリティ間の軽量次元仮定を強制し、それらの表現を調和させるユニモーダルエンコーダのラッパーを導入する。
MM-Lego
1)をモデルマージ法として用いることができ、細調整なしでエンドツーエンドの融合モデルとの競合性能を実現することができる。
2) 任意の単調エンコーダで動作可能で、
3) モデル融合法は、最小限の微調整で、6つのベンチマークされたマルチモーダルバイオメディカルタスクに対して最先端の結果が得られる。
Learning holistic computational representations in physical, chemical or biological systems requires the ability to process information from different distributions and modalities within the same model. Thus, the demand for multimodal machine learning models has sharply risen for modalities that go beyond vision and language, such as sequences, graphs, time series, or tabular data. While there are many available multimodal fusion and alignment approaches, most of them require end-to-end training, scale quadratically with the number of modalities, cannot handle cases of high modality imbalance in the training set, or are highly topology-specific, making them too restrictive for many biomedical learning tasks. This paper presents Multimodal Lego (MM-Lego), a modular and general-purpose fusion and model merging framework to turn any set of encoders into a competitive multimodal model with no or minimal fine-tuning. We achieve this by introducing a wrapper for unimodal encoders that enforces lightweight dimensionality assumptions between modalities and harmonises their representations by learning features in the frequency domain to enable model merging with little signal interference. We show that MM-Lego 1) can be used as a model merging method which achieves competitive performance with end-to-end fusion models without any fine-tuning, 2) can operate on any unimodal encoder, and 3) is a model fusion method that, with minimal fine-tuning, achieves state-of-the-art results on six benchmarked multimodal biomedical tasks. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# GenKubeSec: LLMベースのKubernetes設定ミス検出、ローカライゼーション、推論、修正
GenKubeSec: LLM-Based Kubernetes Misconfiguration Detection, Localization, Reasoning, and Remediation ( http://arxiv.org/abs/2405.19954v1 ) ライセンス: Link先を確認 | Ehud Malul, Yair Meidan, Dudu Mimran, Yuval Elovici, Asaf Shabtai, | (参考訳) Kubernetes設定ファイル(KCF)に関連する重要な課題は、しばしば非常に複雑でエラーが発生し、セキュリティ上の脆弱性と運用上の問題が発生することだ。
KCFのミスコンフィグレーション検出のためのルールベース(RB)ツールは静的なルールセットに依存しており、本質的に制限されており、新たに発見されたミスコンフィグレーションを検出できない。
RBツールは、検出ルールをコーディングする際のミスの可能性があり、誤検出にも悩まされる。
KCFのミスコンフィグレーションを検知およびリメディエートする方法は,スケーラビリティや検出範囲の面で制限されているか,あるいは高度な専門的要件があり,誤コンフィグレーション検出とともに自動修復を提供していないためである。
LLMをパイプラインに採用する新しいアプローチは、APIベース、汎用、主に商用モデルに依存している。
したがって、それらはセキュリティ上の課題を提起し、一貫性のない分類性能を持ち、コストがかかる可能性がある。
本稿では,多種多様なKCFの誤設定を検出するとともに,誤設定の正確な位置を特定し,それらに関する詳細な推論と修正を提案する,包括的かつ適応的なLLMベースの手法であるGenKubeSecを提案する。
3つの業界標準のRBツールと経験的に比較すると、GenKubeSecは同等の精度(0.990)と優れたリコール(0.999)を達成した。
KCFのランダムなサンプルがKubernetesのセキュリティ専門家によって調査されたとき、GenKubeSecは、設定ミスのローカライゼーション、推論、修正が100%正確で、情報的、有用であると説明した。
この領域のさらなる進歩を促進するため、収集したユニークなデータセット、ラベル標準化のために開発した統一された設定ミスインデックス、実験コード、GenKubeSec自体をオープンソースツールとして公開しています。
A key challenge associated with Kubernetes configuration files (KCFs) is that they are often highly complex and error-prone, leading to security vulnerabilities and operational setbacks. Rule-based (RB) tools for KCF misconfiguration detection rely on static rule sets, making them inherently limited and unable to detect newly-discovered misconfigurations. RB tools also suffer from misdetection, since mistakes are likely when coding the detection rules. Recent methods for detecting and remediating KCF misconfigurations are limited in terms of their scalability and detection coverage, or due to the fact that they have high expertise requirements and do not offer automated remediation along with misconfiguration detection. Novel approaches that employ LLMs in their pipeline rely on API-based, general-purpose, and mainly commercial models. Thus, they pose security challenges, have inconsistent classification performance, and can be costly. In this paper, we propose GenKubeSec, a comprehensive and adaptive, LLM-based method, which, in addition to detecting a wide variety of KCF misconfigurations, also identifies the exact location of the misconfigurations and provides detailed reasoning about them, along with suggested remediation. When empirically compared with three industry-standard RB tools, GenKubeSec achieved equivalent precision (0.990) and superior recall (0.999). When a random sample of KCFs was examined by a Kubernetes security expert, GenKubeSec's explanations as to misconfiguration localization, reasoning and remediation were 100% correct, informative and useful. To facilitate further advancements in this domain, we share the unique dataset we collected, a unified misconfiguration index we developed for label standardization, our experimentation code, and GenKubeSec itself as an open-source tool. | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# HOLMES:複数検出器を用いた逆例検出
HOLMES: to Detect Adversarial Examples with Multiple Detectors ( http://arxiv.org/abs/2405.19956v1 ) ライセンス: Link先を確認 | Jing Wen, | (参考訳) ディープニューラルネットワーク(DNN)は、画像に付加された意図しないノイズによって容易に騙され、誤って分類される。
以前の防御作業は主にモデルの再訓練やノイズの検出に重点を置いていたが、成功率に制限があったり、新たな敵の攻撃を受けたりした。
逆画像やDNNモデルの内部に焦点をあてるのではなく、異なるアルゴリズムで生成された逆例をDNN(logits)の出力に基づいて識別できることを示した。
ロジットは検出器を訓練するための外装として機能する。
そこで,本研究では,DNNの強化を目的としたHOLMES(Hierarchically Organized Light-weight Multiple dEtector System)を提案する。
HOLMESは、適応モデルでも単一検出器システムよりも精度が高く、偽陽性率の低い複数の攻撃から \textit{unseen} 逆の例を識別することができる。
HOLMESにおける検出器の多様性とランダム性を確保するために,ラベルごとに専用の検出器を訓練し,トップkロジットで検出器を訓練する2つの手法を用いる。
我々の効果的で安価な戦略は、オリジナルのDNNモデルを変更したり、内部パラメータを必要としたりしない。
HOLMESは、あらゆる種類の学習モデル(外部APIに限らず)と互換性があるだけでなく、高い検出率を達成するために他の防御を補完する(様々な敵の例からシステムを完全に保護する)。
Deep neural networks (DNNs) can easily be cheated by some imperceptible but purposeful noise added to images, and erroneously classify them. Previous defensive work mostly focused on retraining the models or detecting the noise, but has either shown limited success rates or been attacked by new adversarial examples. Instead of focusing on adversarial images or the interior of DNN models, we observed that adversarial examples generated by different algorithms can be identified based on the output of DNNs (logits). Logit can serve as an exterior feature to train detectors. Then, we propose HOLMES (Hierarchically Organized Light-weight Multiple dEtector System) to reinforce DNNs by detecting potential adversarial examples to minimize the threats they may bring in practical. HOLMES is able to distinguish \textit{unseen} adversarial examples from multiple attacks with high accuracy and low false positive rates than single detector systems even in an adaptive model. To ensure the diversity and randomness of detectors in HOLMES, we use two methods: training dedicated detectors for each label and training detectors with top-k logits. Our effective and inexpensive strategies neither modify original DNN models nor require its internal parameters. HOLMES is not only compatible with all kinds of learning models (even only with external APIs), but also complementary to other defenses to achieve higher detection rates (may also fully protect the system against various adversarial examples). | 翻訳日:2024-05-31 14:47:58 公開日:2024-05-30 |
# PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting ( http://arxiv.org/abs/2405.19957v1 ) ライセンス: Link先を確認 | Qiaowei Miao, Yawei Luo, Yi Yang, | (参考訳) テキスト条件拡散モデル (DM) が画像, ビデオ, 3次元生成のブレークスルーを達成するにつれ, 研究コミュニティの焦点は, 動的3次元オブジェクトを生成するための時間次元を導入し, テキストから4次元合成の課題へとシフトしてきた。
そこで本研究では,テキスト・ツー・3D合成技術として広く用いられているスコア蒸留サンプリング(SDS)を,Janus-facedとテクスチャ・非現実的な問題と高い計算コストによるテキスト・ツー・4D性能の重大な障害として同定する。
本稿では,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして利用し,静的な3Dオブジェクトを生成して動きを注入する新しい手法であるGaussian Splatting (\textbf{PLA4D})を提案する。
具体的には、レンダリングのためのカメラポーズの校正にFocal Alignmentを導入し、GS-Mesh Contrastive Learningを使用して、ピクセルレベルのレンダリング画像コントラストから幾何学的先行を抽出する。
さらに、変形ネットワークを用いて、ガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発した。
これらの技術により、4Dガウススプラッティングは、幾何学、テクスチャ、動きをピクセルレベルで生成されたビデオと整列させることができる。
従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。
PLA4Dはオープンソースモデルで完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザフレンドリで有望な方向性を提供する。
プロジェクトページ: \href{https://github.com/MiaoQiaowei/PLA4D.github.io}{https://github.com/MiaoQiaowei/PLA4D.github.io}
As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community's focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting (\textbf{PLA4D}), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: \href{https://github.com/MiaoQiaowei/PLA4D.github.io}{https://github.com/MiaoQiaowei/PLA4D.github.io}. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 異方性拡張による多視点制御可能なテキスト生成
Multi-Aspect Controllable Text Generation with Disentangled Counterfactual Augmentation ( http://arxiv.org/abs/2405.19958v1 ) ライセンス: Link先を確認 | Yi Liu, Xiangyu Liu, Xiangrong Zhu, Wei Hu, | (参考訳) マルチアスペクト制御可能なテキスト生成は、属性の生成されたテキストを複数の側面から制御することを目的としている(例えば、感情から「ポジティブ」、トピックから「スポーツ」)。
トレーニングサンプルの取得を容易にするため、既存の作業では、異なる属性の相互接続によって形成される属性相関を無視する。
特に、不均衡な属性相関によって形成されるステレオタイプは、マルチアスペクト制御に大きく影響する。
本稿では,多視点制御可能テキスト生成方式であるMAGICを提案する。
属性潜在空間の反実的特徴ベクトルを用いたトレーニングにおける非平衡特性相関の問題点を,アンタングル化により緩和する。
推論中、ターゲット誘導逆ファクト拡張による属性相関を強化し、マルチアスペクト制御をさらに改善する。
実験により、MAGICは不均衡な特性相関シナリオとバランスの取れた特性相関シナリオの両方において、最先端のベースラインよりも優れていることが示された。
ソースコードとデータはhttps://github.com/nju-websoft/MAGIC.comで公開されています。
Multi-aspect controllable text generation aims to control the generated texts in attributes from multiple aspects (e.g., "positive" from sentiment and "sport" from topic). For ease of obtaining training samples, existing works neglect attribute correlations formed by the intertwining of different attributes. Particularly, the stereotype formed by imbalanced attribute correlations significantly affects multi-aspect control. In this paper, we propose MAGIC, a new multi-aspect controllable text generation method with disentangled counterfactual augmentation. We alleviate the issue of imbalanced attribute correlations during training using counterfactual feature vectors in the attribute latent space by disentanglement. During inference, we enhance attribute correlations by target-guided counterfactual augmentation to further improve multi-aspect control. Experiments show that MAGIC outperforms state-of-the-art baselines in both imbalanced and balanced attribute correlation scenarios. Our source code and data are available at https://github.com/nju-websoft/MAGIC. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 生成フローネットワークを用いた集団可変自由遷移経路サンプリング
Collective Variable Free Transition Path Sampling with Generative Flow Network ( http://arxiv.org/abs/2405.19961v1 ) ライセンス: Link先を確認 | Kiyoung Seong, Seonghyun Park, Seonghwan Kim, Woo Youn Kim, Sungsoo Ahn, | (参考訳) 分子系における準安定状態間の遷移経路を理解することは、物質設計と薬物発見に不可欠である。
しかし、分子動力学シミュレーションによるこれらの経路のサンプリングは、準安定状態間の高エネルギー障壁のため、計算的に禁止されている。
最近の機械学習アプローチは、しばしば単純なシステムに制限されるか、高価なドメイン知識から抽出された集合変数(CV)に依存している。
本研究では,生成フローネットワーク(GFlowNets)をCVに依存しない遷移経路のサンプリングに活用することを提案する。
我々は,GFlowNetsのフローマッチング目的から,ターゲット分布とジェネレータの2乗対数比を最小化することにより,分子軌道上のエネルギーベースサンプリングとして問題を再構築し,バイアスポテンシャルを訓練する。
我々の3つのタンパク質(アラニンジペプチド、ポリプロリン、チグノリン)に対する評価は、我々のアプローチであるTPS-GFNが、従来のCVフリー機械学習アプローチよりも現実的で多様な遷移経路を生成することを示している。
Understanding transition paths between meta-stable states in molecular systems is fundamental for material design and drug discovery. However, sampling these paths via molecular dynamics simulations is computationally prohibitive due to the high-energy barriers between the meta-stable states. Recent machine learning approaches are often restricted to simple systems or rely on collective variables (CVs) extracted from expensive domain knowledge. In this work, we propose to leverage generative flow networks (GFlowNets) to sample transition paths without relying on CVs. We reformulate the problem as amortized energy-based sampling over molecular trajectories and train a bias potential by minimizing the squared log-ratio between the target distribution and the generator, derived from the flow matching objective of GFlowNets. Our evaluation on three proteins (Alanine Dipeptide, Polyproline, and Chignolin) demonstrates that our approach, called TPS-GFN, generates more realistic and diverse transition paths than the previous CV-free machine learning approach. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 量子鍵分布における非デコイ単一光子源とデコイ弱コヒーレントパルスの比較
Comparison of non-decoy single-photon source and decoy weak coherent pulse in quantum key distribution ( http://arxiv.org/abs/2405.19963v1 ) ライセンス: Link先を確認 | Roberto G. Pousa, Daniel K. L. Oi, John Jeffers, | (参考訳) 実用的な単一光子源(SPS)の進歩は、高い明るさと低い$g^{(2)}(0)$を示し、量子鍵分布(QKD)への応用に大きな関心を寄せている。
それらのQKD性能を評価するためには、デコイ状態法において広く用いられている弱コヒーレントパルス(WCP)と比較することが不可欠である。
本研究では,SPSの非デコイ効率BB84プロトコルを解析し,その光子統計を$g^{(2)}(0)$と平均光子数で部分的に特徴付ける。
両プロトコルのパラメータを最適化しながら、有限鍵解析フレームワーク内のWCPと2デコイ効率のBB84を比較した。
その結果, 平均光子数$\langle n \rangle = 0.5$ and $g^{(2)}(0) = 3.6\%$は, ブロックサイズが4.66 \cdot 10^9$(取得時間の29ドル秒)以下の場合, 10$dB(52.5$km)のチャネル損失で, 2-decoy WCPに対してセキュアな鍵生成を向上できることがわかった。
さらに、平均光子数$\langle n \rangle \geq 0.0142$のSPSの最大許容チャネル損失が10^8$以下のブロックサイズ(取得時間0.62$秒)で増加することを示す。
これらの結果から,SPSは短距離QKDネットワークにおいて鍵レート向上の可能性が示唆された。
Advancements in practical single-photon sources (SPS) exhibiting high brightness and low $g^{(2)}(0)$ have garnered significant interest for their application in quantum key distribution (QKD). To assess their QKD performance, it is essential to compare them with the widely employed weak coherent pulses (WCPs) in the decoy state method. In this work, we analyze the non-decoy efficient BB84 protocol for an SPS, partially characterising its photon statistics by its $g^{(2)}(0)$ and mean photon number. We compare it to the 2-decoy efficient BB84 with WCPs within the finite-key analysis framework while optimizing the parameters of both protocols. Our findings indicate that the non-decoy SPS with a mean photon number of $\langle n \rangle = 0.5$ and $g^{(2)}(0) = 3.6\%$ can enhance the secure key generation over the 2-decoy WCP for block sizes under $4.66 \cdot 10^9$ sent signals ($29$ seconds of acquisition time) at a channel loss of $10$ dB ($52.5$ km of optical fibre). Additionally, we demonstrate an increase in the maximum tolerable channel loss for SPSs with mean photon number $\langle n \rangle \geq 0.0142$ at block sizes below $10^8$ sent signals ($0.62$ seconds of acquisition time). These results suggest that SPSs hold potential for key rate enhancement in short-range QKD networks, though further research is required to evaluate their key generation capabilities when integrated into the decoy method. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# Dual Encoding と Threshold を用いた再分類によるアウト・オブ・スコープのインテント分類の改善
Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification ( http://arxiv.org/abs/2405.19967v1 ) ライセンス: Link先を確認 | Hossam M. Zawbaa, Wael Rashwan, Sourav Dutta, Haytham Assem, | (参考訳) タスク指向対話や意図分類には,スコープ外発話の検出が不可欠である。
現在の手法は、予測不可能なアウトレイラの分布に困難に直面し、しばしばデータ分布に関する仮定に依存している。
本稿では,これらの課題に対処するため,Threshold-Based Re-Classification (DETER) のためのデュアルエンコーダを提案する。
このエンドツーエンドフレームワークは、データ分散や追加の後処理ステップを仮定することなく、スコープ外インテントを効率的に検出する。
DETERのコアは、デュアルテキストエンコーダであるUniversal Sentence Encoder(USE)とTransformerベースのDenoising Auto Encoder(TSDAE)を使用して、分岐ニューラルネットワークアーキテクチャによって分類されたユーザ発話の埋め込みを生成する。
さらに、DETERは自己スーパービジョンを用いて合成外れ値を生成し、オープンドメインデータセットからスコープ外のフレーズを組み込む。
このアプローチは、スコープ外検出のための包括的なトレーニングセットを保証する。
さらに、しきい値に基づく再分類機構により、モデルの初期予測が洗練される。
CLINC-150、Stackoverflow、Banking77データセットの評価は、DETERの有効性を示している。
私たちのモデルは,CLINC-150とStackoverflowに関する未知の意図に対するF1スコアの13%と5%,Banding77に関する未知の意図に対する16%,不明な意図に対する24%に向上しています。
ソースコードはhttps://github.com/Hossam-Mohammed-tech/Intent\_Classification\_OOSで公開されている。
Detecting out-of-scope user utterances is essential for task-oriented dialogues and intent classification. Current methodologies face difficulties with the unpredictable distribution of outliers and often rely on assumptions about data distributions. We present the Dual Encoder for Threshold-Based Re-Classification (DETER) to address these challenges. This end-to-end framework efficiently detects out-of-scope intents without requiring assumptions on data distributions or additional post-processing steps. The core of DETER utilizes dual text encoders, the Universal Sentence Encoder (USE) and the Transformer-based Denoising AutoEncoder (TSDAE), to generate user utterance embeddings, which are classified through a branched neural architecture. Further, DETER generates synthetic outliers using self-supervision and incorporates out-of-scope phrases from open-domain datasets. This approach ensures a comprehensive training set for out-of-scope detection. Additionally, a threshold-based re-classification mechanism refines the model's initial predictions. Evaluations on the CLINC-150, Stackoverflow, and Banking77 datasets demonstrate DETER's efficacy. Our model outperforms previous benchmarks, increasing up to 13% and 5% in F1 score for known and unknown intents on CLINC-150 and Stackoverflow, and 16% for known and 24% % for unknown intents on Banking77. The source code has been released at https://github.com/Hossam-Mohammed-tech/Intent\_Classification\_OOS. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 法執行における人工知能対策戦略:ギリシャ、イタリア、スペインにおける市民のクロスカウンタリー比較
Strategies to Counter Artificial Intelligence in Law Enforcement: Cross-Country Comparison of Citizens in Greece, Italy and Spain ( http://arxiv.org/abs/2405.19970v1 ) ライセンス: Link先を確認 | Petra Saskia Bayerl, Babak Akhgar, Ernesto La Mattina, Barbara Pirillo, Ioana Cotoi, Davide Ariu, Matteo Mauri, Jorge Garcia, Dimitris Kavallieros, Antonia Kardara, Konstantina Karagiorgou, | (参考訳) 本稿では、法執行機関(LEA)による人工知能(AI)の利用に対する市民の対策について検討する。
3つの国(ギリシャ、イタリア、スペイン)の情報に基づいて、我々は10の特定の対策戦略の可能性において格差を示す。
さらに,対策戦略の妥当性を高める要因を明らかにした。
我々の研究は、LEAのAI能力に直面する市民の意識的かつ戦略的選択を示すことによって、セキュリティに焦点を当てたAIアプリケーションの社会的影響に対する重要な新しい視点を提供する。
This paper investigates citizens' counter-strategies to the use of Artificial Intelligence (AI) by law enforcement agencies (LEAs). Based on information from three countries (Greece, Italy and Spain) we demonstrate disparities in the likelihood of ten specific counter-strategies. We further identified factors that increase the propensity for counter-strategies. Our study provides an important new perspective to societal impacts of security-focused AI applications by illustrating the conscious, strategic choices by citizens when confronted with AI capabilities for LEAs. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# GasTrace:Ethereumでサンドウィッチ攻撃の悪意のあるアカウントを検知
GasTrace: Detecting Sandwich Attack Malicious Accounts in Ethereum ( http://arxiv.org/abs/2405.19971v1 ) ライセンス: Link先を確認 | Zekai Liu, Xiaoqi Li, Hongli Peng, Wenkai Li, | (参考訳) Ethereumトランザクションデータのオープン性と透明性により、悪意のある攻撃を実行して、任意のエンティティによって悪用されやすくなる。
サンドイッチ攻撃はAMM(Automated Market Maker)メカニズムを操作し、前払いまたは後払いの取引を通じて市場価格を操作することで利益を得る。
サンドイッチ攻撃を検知し防止するために,カスケード分類フレームワークであるGasTraceを提案する。
GasTraceはさまざまなトランザクション機能を分析して悪意のあるアカウントを検出する。
最初の分類では、サポートベクトルマシン(SVM)とラジアル基底関数(RBF)カーネルを用いて、予測されるアカウントの確率を生成し、さらに詳細なトランザクションネットワークを構築する。
その後、行動特徴は第2分類におけるグラフ注意ネットワーク(GAT)技術によってキャプチャされる。
カスケード分類によって、GasTraceはサンドイッチ攻撃を分析して分類することができる。
実験の結果,GasTraceは96.73\%,F1スコア95.71\%の精度でサンドイッチ攻撃アカウントを識別できることがわかった。
The openness and transparency of Ethereum transaction data make it easy to be exploited by any entities, executing malicious attacks. The sandwich attack manipulates the Automated Market Maker (AMM) mechanism, profiting from manipulating the market price through front or after-running transactions. To identify and prevent sandwich attacks, we propose a cascade classification framework GasTrace. GasTrace analyzes various transaction features to detect malicious accounts, notably through the analysis and modeling of Gas features. In the initial classification, we utilize the Support Vector Machine (SVM) with the Radial Basis Function (RBF) kernel to generate the predicted probabilities of accounts, further constructing a detailed transaction network. Subsequently, the behavior features are captured by the Graph Attention Network (GAT) technique in the second classification. Through cascade classification, GasTrace can analyze and classify the sandwich attacks. Our experimental results demonstrate that GasTrace achieves a remarkable detection and generation capability, performing an accuracy of 96.73\% and an F1 score of 95.71\% for identifying sandwich attack accounts. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 同位体精製シリコン-ゲルマニウム量子井戸におけるスピン量子ビットの原子組成の詳細とその重要性
Atomistic compositional details and their importance for spin qubits in isotope-purified silicon-germanium quantum wells ( http://arxiv.org/abs/2405.19974v1 ) ライセンス: Link先を確認 | Jan Klos, Jan Tröger, Jens Keutgen, Merritt P. Losert, Helge Riemann, Nikolay V. Abrosimov, Joachim Knoch, Hartmut Bracht, Susan N. Coppersmith, Mark Friesen, Oana Cojocaru-Mirédin, Lars R. Schreiber, Dominique Bougeard, | (参考訳) 結晶特性を原子レベルまで理解することは、再現可能で均質な性質を持つ量子ビットの固体プラットフォームを作るための重要な洞察として、ますます現れている。
ここでは,SiGe/$^{28}$Si/SiGeヘテロ構造中の同位体組成の深さ分布を原子プローブトモグラフィー(APT)と飛行時間二次イオン質量分析法を用いて解析した。
スピン-echo dephasing times $T_2^{echo}=128 \mu s$と谷エネルギー分裂は約200 \mu eV$が、この量子井戸(QW)ヘテロ構造において単一のスピン量子ビットに対して観測され、超微細相互作用や谷状態間の散乱による量子ビットのデコヒーレンスの抑制を示唆している。
核スピン担持$^{29}$Siの濃度は、$^{28}$Si QWの50ppmである。
APTは、上層SiGe/$^{28}$Siと下層QWの$^{28}$Si/SiGe界面が、いくつかの単層スケールでエピタキシャル成長フロント偏析シグネチャによって形成されることを明らかにすることができる。
その後の熱処理により表面を約2つの単層で広げるが、底面の幅は変化しない。
SiGe合金障害を含む密結合モデルを用いて, この実験結果から, わずかに熱膨張した表層界面とQW中のGe濃度が0.3 %の最小濃度との組み合わせが, 偏析による大きな谷分割に有効であることが示唆された。
最小Geの加算は$<1 \%$で、これはQWが細くなりやすいため、コヒーレンスタイムを損なうことなく高い谷分割をサポートする。
同時に, デバイスプロセス中の熱処理や結晶成長特性を考慮した場合も, 再現可能な量子ビット特性の設計に重要であると考えられる。
Understanding crystal characteristics down to the atomistic level increasingly emerges as a crucial insight for creating solid state platforms for qubits with reproducible and homogeneous properties. Here, isotope composition depth profiles in a SiGe/$^{28}$Si/SiGe heterostructure are analyzed with atom probe tomography (APT) and time-of-flight secondary-ion mass spectrometry. Spin-echo dephasing times $T_2^{echo}=128 \mu s$ and valley energy splittings around $200 \mu eV$ have been observed for single spin qubits in this quantum well (QW) heterostructure, pointing towards the suppression of qubit decoherence through hyperfine interaction or via scattering between valley states. The concentration of nuclear spin-carrying $^{29}$Si is 50 ppm in the $^{28}$Si QW. APT allows to uncover that both the top SiGe/$^{28}$Si and the bottom $^{28}$Si/SiGe interfaces of the QW are shaped by epitaxial growth front segregation signatures on a few monolayer scale. A subsequent thermal treatment broadens the top interface by about two monolayers, while the width of the bottom interface remains unchanged. Using a tight-binding model including SiGe alloy disorder, these experimental results suggest that the combination of the slightly thermally broadened top interface and of a minimal Ge concentration of $0.3 \%$ in the QW, resulting from segregation, is instrumental for the observed large valley splitting. Minimal Ge additions $< 1 \%$, which get more likely in thin QWs, will hence support high valley splitting without compromising coherence times. At the same time, taking thermal treatments during device processing as well as the occurrence of crystal growth characteristics into account seems important for the design of reproducible qubit properties. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# DLシステムの進化する世界でのテスト:Python GitHubプロジェクトからの洞察
Testing in the Evolving World of DL Systems:Insights from Python GitHub Projects ( http://arxiv.org/abs/2405.19976v1 ) ライセンス: Link先を確認 | Qurban Ali, Oliviero Riganelli, Leonardo Mariani, | (参考訳) 進化を続けるディープラーニング(DL)の分野では、プロジェクトの品質と信頼性を保証することが重要な課題です。
本研究では、GitHubのDLプロジェクトにおけるテストプラクティスについて調査する。
テストの自動化、テストの種類(例えば、単体テスト、統合テスト、システム)、テストスイートの成長率、異なるプロジェクトバージョンにわたるテストプラクティスの進化といった側面に注目して、テスト方法論の採用を定量化する。
我々は,量的および質的基準に基づいて,慎重に選択された300のリポジトリのサブセットを分析する。
本研究は,オープンソースコミュニティにおけるDLプロジェクトにおけるテスト実践の頻度に関する知見を報告する。
In the ever-evolving field of Deep Learning (DL), ensuring project quality and reliability remains a crucial challenge. This research investigates testing practices within DL projects in GitHub. It quantifies the adoption of testing methodologies, focusing on aspects like test automation, the types of tests (e.g., unit, integration, and system), test suite growth rate, and evolution of testing practices across different project versions. We analyze a subset of 300 carefully selected repositories based on quantitative and qualitative criteria. This study reports insights on the prevalence of testing practices in DL projects within the open-source community. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# Consistent Submodular Maximization
Consistent Submodular Maximization ( http://arxiv.org/abs/2405.19977v1 ) ライセンス: Link先を確認 | Paul Dütting, Federico Fusco, Silvio Lattanzi, Ashkan Norouzi-Fard, Morteza Zadimoghaddam, | (参考訳) 濃度制約下での単調部分モジュラ函数の最大化は、データマイニングや機械学習におけるいくつかの応用において古典的な最適化課題である。
本稿では, 安定解(すなわち, 2つの連続解間の変化数は有界)を持ちながら, ストリーミング方式で要素が到着し, 最適解に対する定数近似が維持されることを目標とする動的環境において, この問題を考察する。
この設定では、一貫性と近似品質のトレードオフが異なるアルゴリズムを提供しています。
また、実世界の事例におけるアルゴリズムの有効性を示す実験分析により、理論的結果を補完する。
Maximizing monotone submodular functions under cardinality constraints is a classic optimization task with several applications in data mining and machine learning. In this paper we study this problem in a dynamic environment with consistency constraints: elements arrive in a streaming fashion and the goal is maintaining a constant approximation to the optimal solution while having a stable solution (i.e., the number of changes between two consecutive solutions is bounded). We provide algorithms in this setting with different trade-offs between consistency and approximation quality. We also complement our theoretical results with an experimental analysis showing the effectiveness of our algorithms in real-world instances. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# Cauchy-Schwarz分枝による領域適応
Domain Adaptation with Cauchy-Schwarz Divergence ( http://arxiv.org/abs/2405.19978v1 ) ライセンス: Link先を確認 | Wenzhe Yin, Shujian Yu, Yicong Lin, Jie Liu, Jan-Jakob Sonke, Efstratios Gavves, | (参考訳) ドメイン適応は、1つまたは複数のソースドメインからのトレーニングデータを使用して、異なるが関連するターゲットドメインに一般化できる仮説を学ぶことを目的としています。
このように、限界分布と条件分布の相違を評価するための信頼性の高い尺度を持つことが重要である。
本稿では、教師なし領域適応(UDA)問題にCauchy-Schwarz(CS)の発散を導入する。
CS発散は、Kulback-Leibler発散よりも理論上より厳密な一般化誤差を提供する。
これは、多クラス分類や回帰を含む教師あり学習の一般的なケースに当てはまる。
さらに,CSの発散により,表現空間におけるソース領域とターゲット領域の差分分布と条件分布の差分分布を,分布仮定を必要とせず簡単に推定できることを示す。
距離距離と対角距離のトレーニングベース UDA フレームワークにおいて,CS のばらつきが有用であることを示す複数の例を提示する。
Domain adaptation aims to use training data from one or multiple source domains to learn a hypothesis that can be generalized to a different, but related, target domain. As such, having a reliable measure for evaluating the discrepancy of both marginal and conditional distributions is crucial. We introduce Cauchy-Schwarz (CS) divergence to the problem of unsupervised domain adaptation (UDA). The CS divergence offers a theoretically tighter generalization error bound than the popular Kullback-Leibler divergence. This holds for the general case of supervised learning, including multi-class classification and regression. Furthermore, we illustrate that the CS divergence enables a simple estimator on the discrepancy of both marginal and conditional distributions between source and target domains in the representation space, without requiring any distributional assumptions. We provide multiple examples to illustrate how the CS divergence can be conveniently used in both distance metric- or adversarial training-based UDA frameworks, resulting in compelling performance. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# マルチエージェント非同期分布をもつフォレックス市場における取引最適化のための深層強化学習手法
A Deep Reinforcement Learning Approach for Trading Optimization in the Forex Market with Multi-Agent Asynchronous Distribution ( http://arxiv.org/abs/2405.19982v1 ) ライセンス: Link先を確認 | Davoud Sarani, Dr. Parviz Rashidi-Khazaee, | (参考訳) 今日のフォレックス市場トレーダーはますますアルゴリズム取引に転換し、コンピューターを活用してより多くの利益を追求している。
機械学習における最先端の進歩としてのディープラーニング技術は、財務データのパターンを識別することができる。
トレーダーはこれらのパターンを利用してより効果的な取引を行い、アルゴリズム的な取引規則に従う。
特定パターンに基づいて取引を直接実行し、利益性を評価するディープ強化学習法(DRL)は、従来のDLアプローチよりも有利である。
この研究は、最先端の非同期アドバンテージ・アクター・クリティカル(A3C)アルゴリズムを用いたマルチエージェント(MA)RLフレームワークの適用を先導する。
提案手法では,複数の非同期作業者間で並列学習を行い,複数の通貨ペアの取引に特化して,異なる市場条件や通貨ペアに適したニュアンス戦略の可能性を探る。
ロックとロックなしの2つの異なるA3Cが提案され、単一通貨とマルチ通貨で訓練された。
以上の結果から,両モデルが近似政策最適化モデルよりも優れていたことが示唆された。
ロック付きA3Cはシングル通貨のトレーニングシナリオで、ロックなしA3Cはマルチ通貨シナリオで、他のA3Cより優れています。
その結果、このアプローチは異なる通貨ペアのより広範かつ迅速な探索を促進し、トレーディングリターンを大幅に向上させることを示した。
さらに、エージェントはより利益性の高いトレーディング戦略を短時間で学習することができる。
In today's forex market traders increasingly turn to algorithmic trading, leveraging computers to seek more profits. Deep learning techniques as cutting-edge advancements in machine learning, capable of identifying patterns in financial data. Traders utilize these patterns to execute more effective trades, adhering to algorithmic trading rules. Deep reinforcement learning methods (DRL), by directly executing trades based on identified patterns and assessing their profitability, offer advantages over traditional DL approaches. This research pioneers the application of a multi-agent (MA) RL framework with the state-of-the-art Asynchronous Advantage Actor-Critic (A3C) algorithm. The proposed method employs parallel learning across multiple asynchronous workers, each specialized in trading across multiple currency pairs to explore the potential for nuanced strategies tailored to different market conditions and currency pairs. Two different A3C with lock and without lock MA model was proposed and trained on single currency and multi-currency. The results indicate that both model outperform on Proximal Policy Optimization model. A3C with lock outperforms other in single currency training scenario and A3C without Lock outperforms other in multi-currency scenario. The findings demonstrate that this approach facilitates broader and faster exploration of different currency pairs, significantly enhancing trading returns. Additionally, the agent can learn a more profitable trading strategy in a shorter time. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 逐次間接実験設計
Targeted Sequential Indirect Experiment Design ( http://arxiv.org/abs/2405.19985v1 ) ライセンス: Link先を確認 | Elisabeth Ailer, Niclas Dern, Jason Hartford, Niki Kilbertus, | (参考訳) 科学的仮説は一般的に、表現型に対する遺伝子発現レベルの影響や、微生物群集が環境健康に与える影響など、複雑な、不完全な、または完全に未知のメカニズムの特定の側面に関するものである。
このようなクエリは本質的に因果関係ではなく因果関係にあるが、多くの設定では、目的とする変数に対して直接に実験を行うことはできないが、間接的である。
したがって、それらはターゲット変数を摂動するが、潜在的な共起因子を除去しない。
さらに、実験結果が多次元であり、研究機構が非線形である場合、興味の問合せは一般的には特定されない。
提案手法は,クエリ上の上行と下行のギャップを逐次狭めることによって,対象とする真理メカニズムについて最適に問い合わせる間接的な実験を設計するための適応的戦略を開発する。
一般の定式化は二段階最適化法により構成されるが、因果効果の限界を効率的に推定可能な解析的カーネルベース推定法を導出し、鍵となる関心の問合せを導出し、整合性、多変量、非線形合成設定における我々のアプローチの有効性を実証する。
Scientific hypotheses typically concern specific aspects of complex, imperfectly understood or entirely unknown mechanisms, such as the effect of gene expression levels on phenotypes or how microbial communities influence environmental health. Such queries are inherently causal (rather than purely associational), but in many settings, experiments can not be conducted directly on the target variables of interest, but are indirect. Therefore, they perturb the target variable, but do not remove potential confounding factors. If, additionally, the resulting experimental measurements are multi-dimensional and the studied mechanisms nonlinear, the query of interest is generally not identified. We develop an adaptive strategy to design indirect experiments that optimally inform a targeted query about the ground truth mechanism in terms of sequentially narrowing the gap between an upper and lower bound on the query. While the general formulation consists of a bi-level optimization procedure, we derive an efficiently estimable analytical kernel-based estimator of the bounds for the causal effect, a query of key interest, and demonstrate the efficacy of our approach in confounded, multivariate, nonlinear synthetic settings. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# Video-Language Critic:Transferable Reward Function for Language-Conditioned Robotics
Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics ( http://arxiv.org/abs/2405.19988v1 ) ライセンス: Link先を確認 | Minttu Alakuijala, Reginald McLean, Isaac Woungang, Nariman Farsad, Samuel Kaski, Pekka Marttinen, Kai Yuan, | (参考訳) 自然言語は、人間がロボットのタスクを指定するのに最も簡単かつ最も便利なモダリティであることが多い。
しかし、言語から行動への学習には、通常、各ロボットで収集された多種多様な言語アノテーションによるデモンストレーションを非現実的に必要とします。
本研究は、外部観測のみのデータから恩恵を受けることができるため、その達成方法から何を達成すべきかという問題を分離することを目的としており、後者は特定のロボットの実施形態に依存している。
この目的のために、コントラスト学習と時間的ランク付け目標を用いて、容易に利用可能なクロスボデーメントデータに基づいてトレーニング可能な報酬モデルであるVideo-Language Criticを提案し、これを用いて、別個の強化学習アクターから行動トレースをスコアリングする。
Open X-Embodimentデータに基づくトレーニングでは、ドメインギャップが大きいにもかかわらず、メタワールドタスクに対する2倍のサンプル効率のポリシートレーニングが可能になる。
ドメイン内データを用いるが、Meta-World上の課題一般化設定では、バイナリ分類で訓練されたり、静的画像を使用したり、ビデオデータに存在する時間情報の活用を行なわない、事前言語条件の報酬モデルよりも、より多くのサンプル効率のトレーニングを行うことができる。
Natural language is often the easiest and most convenient modality for humans to specify tasks for robots. However, learning to ground language to behavior typically requires impractical amounts of diverse, language-annotated demonstrations collected on each target robot. In this work, we aim to separate the problem of what to accomplish from how to accomplish it, as the former can benefit from substantial amounts of external observation-only data, and only the latter depends on a specific robot embodiment. To this end, we propose Video-Language Critic, a reward model that can be trained on readily available cross-embodiment data using contrastive learning and a temporal ranking objective, and use it to score behavior traces from a separate reinforcement learning actor. When trained on Open X-Embodiment data, our reward model enables 2x more sample-efficient policy training on Meta-World tasks than a sparse reward only, despite a significant domain gap. Using in-domain data but in a challenging task generalization setting on Meta-World, we further demonstrate more sample-efficient training than is possible with prior language-conditioned reward models that are either trained with binary classification, use static images, or do not leverage the temporal information present in video data. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# DiffPhysBA: 現実世界における人の再同定に対する拡散型物理バックドア攻撃
DiffPhysBA: Diffusion-based Physical Backdoor Attack against Person Re-Identification in Real-World ( http://arxiv.org/abs/2405.19990v1 ) ライセンス: Link先を確認 | Wenli Sun, Xinyang Jiang, Dongsheng Li, Cairong Zhao, | (参考訳) 個人再識別システム(ReID)は、バックドア攻撃による重大なセキュリティリスクを引き起こし、敵の追跡や不正行為を回避する。
この問題の認識以外にも,ReIDモデルは通常,デジタルドメインで収集されたデータに基づいてトレーニングされ,物理的環境にデプロイされる,現実世界のシナリオにおいてバックドアアタックをどのように展開するかを検討する。
この攻撃シナリオでは、物理的ドメイン内の個人ReIDモデルに埋め込まれたバックドアをアクティベートするために、バックドアトリガをリアルにデジタルドメインに埋め込む攻撃フローが必要となる。
本稿では,歩行者画像(例えば,バッグ,帽子など)のリアルなアクセサリーをバックドアトリガとして生成するために拡散モデルを活用することにより,この攻撃フローを実現する。
しかし、オフザシェルフ拡散モデルと物理的に発生するトリガー間の顕著なドメインギャップは、攻撃成功率を低くする。
そこで本研究では,トレーニング不要な類似性誘導サンプリングプロセスを採用した拡散型物理バックドアアタック(DiffPhysBA)を導入し,生成したトリガと物理トリガの類似性を高める。
その結果、DiffPhysBAはデジタルドメインのセマンティックレベルトリガとして現実的な属性を生成し、現実世界のテストセットで直接ペースト法に比べて25.6%高い物理ASRを提供する。
新たに提案された実世界および合成ReIDテストセットの評価を通じて、DiffPhysBAは、デジタルドメインと物理ドメインの両方で90%を超える顕著な成功率を示している。
特に、デジタルステルス指標に優れ、最先端の防御手法を効果的に回避することができる。
Person Re-Identification (ReID) systems pose a significant security risk from backdoor attacks, allowing adversaries to evade tracking or impersonate others. Beyond recognizing this issue, we investigate how backdoor attacks can be deployed in real-world scenarios, where a ReID model is typically trained on data collected in the digital domain and then deployed in a physical environment. This attack scenario requires an attack flow that embeds backdoor triggers in the digital domain realistically enough to also activate the buried backdoor in person ReID models in the physical domain. This paper realizes this attack flow by leveraging a diffusion model to generate realistic accessories on pedestrian images (e.g., bags, hats, etc.) as backdoor triggers. However, the noticeable domain gap between the triggers generated by the off-the-shelf diffusion model and their physical counterparts results in a low attack success rate. Therefore, we introduce a novel diffusion-based physical backdoor attack (DiffPhysBA) method that adopts a training-free similarity-guided sampling process to enhance the resemblance between generated and physical triggers. Consequently, DiffPhysBA can generate realistic attributes as semantic-level triggers in the digital domain and provides higher physical ASR compared to the direct paste method by 25.6% on the real-world test set. Through evaluations on newly proposed real-world and synthetic ReID test sets, DiffPhysBA demonstrates an impressive success rate exceeding 90% in both the digital and physical domains. Notably, it excels in digital stealth metrics and can effectively evade state-of-the-art defense methods. | 翻訳日:2024-05-31 14:38:07 公開日:2024-05-30 |
# 過度にパラメータ化されたニューラルネットワークの対称性:平均的な視野
Symmetries in Overparametrized Neural Networks: A Mean-Field View ( http://arxiv.org/abs/2405.19995v1 ) ライセンス: Link先を確認 | Javier Maass Martínez, Joaquin Fontbona, | (参考訳) 我々は,一般コンパクト群$G$の作用を法則として,過度にパラメータ化されたニューラルネットワーク(NN)の学習力学の平均場(MF)ビューを開発する。
本研究では,SGD(確率勾配勾配勾配)と,データ拡張(DA)や特徴平均化(FA),等変アーキテクチャ(EA)といった対称性平均化(SL)手法を併用した,N$の多層ユニットのアンサンブルによって与えられる一般化された浅層NNのクラスを考える。
各単位のパラメータ空間上で、それぞれ$G$-不変分布と、群作用によって固定されたパラメータ(EAを符号化する)で支えられる分布について、弱不変かつ強不変な法則(WIとSI)の概念を導入する。
これにより、$N\to\infty$と互換性のある対称モデルを定義し、それらの MF の極限を記述する Wasserstein Gradient Flows の観点から、DA, FA, EA の漸近力学の解釈を与えることができる。
活性化が群作用を尊重する場合、対称データに対して、DA、FAおよび自由学習モデルは、WI法則の空間に留まり、人口リスクを最小化する全く同じMFダイナミクスに従うことを示す。
また、SI法に対する最適の到達可能性についても反例を挙げる。
それにもかかわらず、非常に驚くべきことに、SI則の集合は、自由に訓練されたとしても、MF力学によって保存されている。
これは有限$N$の設定とは対照的であり、EA は非制約 SGD によって一般に保存されない。
教師が学習する実験環境でN$が大きくなるにつれて, WI, SI, あるいは任意の教師モデルから学習するために学生NNを訓練し, 様々なSLスキームを用いてN$が大きくなることを示す。
我々は最後にデータ駆動ヒューリスティックを導出し、最小の一般化誤差でEAを設計するのに使用できる問題に対するSI分布をサポートするパラメータの最大の部分空間を発見する。
We develop a Mean-Field (MF) view of the learning dynamics of overparametrized Artificial Neural Networks (NN) under data symmetric in law wrt the action of a general compact group $G$. We consider for this a class of generalized shallow NNs given by an ensemble of $N$ multi-layer units, jointly trained using stochastic gradient descent (SGD) and possibly symmetry-leveraging (SL) techniques, such as Data Augmentation (DA), Feature Averaging (FA) or Equivariant Architectures (EA). We introduce the notions of weakly and strongly invariant laws (WI and SI) on the parameter space of each single unit, corresponding, respectively, to $G$-invariant distributions, and to distributions supported on parameters fixed by the group action (which encode EA). This allows us to define symmetric models compatible with taking $N\to\infty$ and give an interpretation of the asymptotic dynamics of DA, FA and EA in terms of Wasserstein Gradient Flows describing their MF limits. When activations respect the group action, we show that, for symmetric data, DA, FA and freely-trained models obey the exact same MF dynamic, which stays in the space of WI laws and minimizes therein the population risk. We also give a counterexample to the general attainability of an optimum over SI laws. Despite this, quite remarkably, we show that the set of SI laws is also preserved by the MF dynamics even when freely trained. This sharply contrasts the finite-$N$ setting, in which EAs are generally not preserved by unconstrained SGD. We illustrate the validity of our findings as $N$ gets larger in a teacher-student experimental setting, training a student NN to learn from a WI, SI or arbitrary teacher model through various SL schemes. We last deduce a data-driven heuristic to discover the largest subspace of parameters supporting SI distributions for a problem, that could be used for designing EA with minimal generalization error. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# DP-IQA:野生のブラインド画像品質評価に先立って拡散を利用する
DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild ( http://arxiv.org/abs/2405.19996v1 ) ライセンス: Link先を確認 | Honghao Fu, Yufei Wang, Wenhan Yang, Bihan Wen, | (参考訳) 画像品質評価(IQA)は,高品質な画像の選択や,一連のアプリケーションにおける圧縮・拡張手法の指導において重要な役割を担っている。
ブラインドIQAは、参照画像のない複雑な真の歪みを含む、ワイヤ内画像の品質を評価することで、より大きな課題を提起する。
既存の手法は局所パッチを用いた均一分布のモデル化に限られており、低レベルのビジョンと高レベルのビジョンのギャップに悩まされている。
本稿では, 画像の視覚的品質の知覚において, セマンティックギャップを橋渡しする優れた能力で, 事前学習した拡散モデルからの事前知識を活用する, 拡散事前ベースIQA (DP-IQA) と呼ばれる新しいIQA手法を提案する。
具体的には、トレーニング済みの安定拡散をバックボーンとして使用し、所定のタイミングでアップサンプリング中のU-Netからマルチレベル特徴を抽出し、画像品質スコアをデコードして推定する。
テキストおよびイメージアダプタは、下流タスクの領域ギャップを緩和し、変分オートエンコーダボトルネックに起因する情報損失を補正するために採用される。
最後に、上記のモデルにおける知識をCNNベースの学生モデルに蒸留し、適用性を高めるためにパラメータを著しく削減し、学生モデルは驚くほど教師モデルと同じような、あるいはそれ以上に優れている。
実験の結果, DP-IQAは, 画像品質評価のための拡散の階層的特徴指標を用いて, 大域的モデリングにおける手法の優位性を示した。
Image quality assessment (IQA) plays a critical role in selecting high-quality images and guiding compression and enhancement methods in a series of applications. The blind IQA, which assesses the quality of in-the-wild images containing complex authentic distortions without reference images, poses greater challenges. Existing methods are limited to modeling a uniform distribution with local patches and are bothered by the gap between low and high-level visions (caused by widely adopted pre-trained classification networks). In this paper, we propose a novel IQA method called diffusion priors-based IQA (DP-IQA), which leverages the prior knowledge from the pre-trained diffusion model with its excellent powers to bridge semantic gaps in the perception of the visual quality of images. Specifically, we use pre-trained stable diffusion as the backbone, extract multi-level features from the denoising U-Net during the upsampling process at a specified timestep, and decode them to estimate the image quality score. The text and image adapters are adopted to mitigate the domain gap for downstream tasks and correct the information loss caused by the variational autoencoder bottleneck. Finally, we distill the knowledge in the above model into a CNN-based student model, significantly reducing the parameter to enhance applicability, with the student model performing similarly or even better than the teacher model surprisingly. Experimental results demonstrate that our DP-IQA achieves state-of-the-art results on various in-the-wild datasets with better generalization capability, which shows the superiority of our method in global modeling and utilizing the hierarchical feature clues of diffusion for evaluating image quality. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# カーネル言語エントロピー:意味的類似性からLLMの微細不確実性定量化
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities ( http://arxiv.org/abs/2405.20003v1 ) ライセンス: Link先を確認 | Alexander Nikitin, Jannik Kossen, Yarin Gal, Pekka Marttinen, | (参考訳) 大規模言語モデル(LLM)における不確かさの定量化は、安全性と信頼性が重要であるアプリケーションには不可欠である。
特に不確実性は、一般に幻覚と呼ばれる事実的不正確なモデル応答を検出することによって、LCMの信頼性を向上させるために用いられる。
批判的に言えば、LLM出力の意味に対する不確実性は、答えの正しさに影響を与えない語彙や構文の変化に対する不確実性よりも、モデルの意味的不確実性(英語版)を捉えるべきである。
この問題に対処するために,白と黒のLLMにおける不確実性評価手法であるカーネル言語エントロピー(KLE)を提案する。
KLEは正の半有限単位トレースカーネルを定義し、LLM出力の意味的類似性を符号化し、フォン・ノイマンエントロピーを用いて不確実性を定量化する。
答え(またはセマンティッククラスタ)間のペアワイズなセマンティック依存関係を考慮し、答えのハードクラスタリングに基づく従来の方法よりもきめ細かい不確実性推定を提供する。
理論的には、KLEはセマンティックエントロピー(semantic entropy)と呼ばれる従来の最先端の手法を一般化し、複数の自然言語生成データセットやLLMアーキテクチャにおける不確実性定量化性能を向上させることを実証的に証明している。
Uncertainty quantification in Large Language Models (LLMs) is crucial for applications where safety and reliability are important. In particular, uncertainty can be used to improve the trustworthiness of LLMs by detecting factually incorrect model responses, commonly called hallucinations. Critically, one should seek to capture the model's semantic uncertainty, i.e., the uncertainty over the meanings of LLM outputs, rather than uncertainty over lexical or syntactic variations that do not affect answer correctness. To address this problem, we propose Kernel Language Entropy (KLE), a novel method for uncertainty estimation in white- and black-box LLMs. KLE defines positive semidefinite unit trace kernels to encode the semantic similarities of LLM outputs and quantifies uncertainty using the von Neumann entropy. It considers pairwise semantic dependencies between answers (or semantic clusters), providing more fine-grained uncertainty estimates than previous methods based on hard clustering of answers. We theoretically prove that KLE generalizes the previous state-of-the-art method called semantic entropy and empirically demonstrate that it improves uncertainty quantification performance across multiple natural language generation datasets and LLM architectures. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# 変圧器におけるキーセマンティクスの共有による画像復元
Sharing Key Semantics in Transformer Makes Efficient Image Restoration ( http://arxiv.org/abs/2405.20008v1 ) ライセンス: Link先を確認 | Bin Ren, Yawei Li, Jingyun Liang, Rakesh Ranjan, Mengyuan Liu, Rita Cucchiara, Luc Van Gool, Ming-Hsuan Yang, Nicu Sebe, | (参考訳) 古典的な低レベル視覚タスクである画像復元(IR)は、グローバル情報を効果的にモデル化するディープモデルを通じて、大幅な進歩をみせた。
視覚変換器(ViT)の出現により、これらの進歩はさらに加速した。
計算において、ViTの基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向にある。
この傾きは、特に高い入力解像度で計算の非効率性を導入し、無関係な情報を処理する必要があるため、効率を損なう。
さらに、IRでは、劣化した画像の小さな部分、特にセマンティックに密に整合した部分)が、正確な復元に不可欠な重要な文脈的手がかりに寄与するため、回復プロセスを支援するために特に関連性のある情報を提供するのが一般的である。
これらの課題に対処するため、本論文では、Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することにより、IRの性能を向上させることを提案する。
具体的には、SemanIRは当初、分解されたパッチごとに重要なセマンティック接続を確立することで、各トランスフォーマーステージ内でスパースだが包括的なキー・セマンティック辞書を構築している。
その後、この辞書は同じステージ内の全ての変圧器ブロック間で共有される。
この戦略は、キー・セマンティック辞書に格納された意味的関連コンポーネントにのみ焦点をあてて、各ブロック内の注意計算を最適化する。
その結果、注意計算は各ウィンドウ内で線形計算複雑性を実現する。
6つのIRタスクにわたる広範囲な実験は、提案されたセマン赤外線の最先端性能を定量的かつ質的に証明している。
Image Restoration (IR), a classic low-level vision task, has witnessed significant advancements through deep models that effectively model global information. Notably, the Vision Transformers (ViTs) emergence has further propelled these advancements. When computing, the self-attention mechanism, a cornerstone of ViTs, tends to encompass all global cues, even those from semantically unrelated objects or regions. This inclusivity introduces computational inefficiencies, particularly noticeable with high input resolution, as it requires processing irrelevant information, thereby impeding efficiency. Additionally, for IR, it is commonly noted that small segments of a degraded image, particularly those closely aligned semantically, provide particularly relevant information to aid in the restoration process, as they contribute essential contextual cues crucial for accurate reconstruction. To address these challenges, we propose boosting IR's performance by sharing the key semantics via Transformer for IR (i.e., SemanIR) in this paper. Specifically, SemanIR initially constructs a sparse yet comprehensive key-semantic dictionary within each transformer stage by establishing essential semantic connections for every degraded patch. Subsequently, this dictionary is shared across all subsequent transformer blocks within the same stage. This strategy optimizes attention calculation within each block by focusing exclusively on semantically related components stored in the key-semantic dictionary. As a result, attention calculation achieves linear computational complexity within each window. Extensive experiments across 6 IR tasks confirm the proposed SemanIR's state-of-the-art performance, quantitatively and qualitatively showcasing advancements. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# FlexiDrop:GNNにおけるランダムドロップアウト手法の理論的考察と実践的進歩
FlexiDrop: Theoretical Insights and Practical Advances in Random Dropout Method on GNNs ( http://arxiv.org/abs/2405.20012v1 ) ライセンス: Link先を確認 | Zhiheng Zhou, Sihao Liu, Weichen Zhao, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ型データを扱う強力なツールである。
近年、GNNは様々な領域で広く採用されているが、オーバーフィット、過度なスムーシング、非破壊といった問題にも直面している。
既存の研究では、ランダムなドロップアウト手法がこれらの問題に対処する有効な方法であることが示されている。
しかし、GNNにおけるランダムなドロップアウト手法はまだ未解決の問題に直面している。
現在、しばしばヒューリスティックまたはグリッド探索法によって決定されるドロップアウト率の選択は、ドロップアウトの主目的に反する一般化誤差を増大させることができる。
本稿ではFlexiDropと呼ばれるGNNのための新しいランダムドロップアウト手法を提案する。
まず、ラデマッハ複雑性を用いたGNNにおけるドロップアウトの理論解析を行い、従来のランダムドロップアウト手法の一般化誤差が、ドロップアウト率に関連する関数によって制約されていることを示す。
その後、この関数を正則化器として、単一損失関数内でのドロップアウト率と経験損失を統一し、同時に最適化する。
そこで本手法は,ドロップアウト率を適応的に調整し,モデル複雑性と一般化能力とのトレードオフを理論的にバランスさせる。
さらに、ベンチマークデータセットの広範な実験結果から、FlexiDropはGNNの従来のランダムなドロップアウト手法よりも優れていることが示された。
Graph Neural Networks (GNNs) are powerful tools for handling graph-type data. Recently, GNNs have been widely applied in various domains, but they also face some issues, such as overfitting, over-smoothing and non-robustness. The existing research indicates that random dropout methods are an effective way to address these issues. However, random dropout methods in GNNs still face unresolved problems. Currently, the choice of dropout rate, often determined by heuristic or grid search methods, can increase the generalization error, contradicting the principal aims of dropout. In this paper, we propose a novel random dropout method for GNNs called FlexiDrop. First, we conduct a theoretical analysis of dropout in GNNs using rademacher complexity and demonstrate that the generalization error of traditional random dropout methods is constrained by a function related to the dropout rate. Subsequently, we use this function as a regularizer to unify the dropout rate and empirical loss within a single loss function, optimizing them simultaneously. Therefore, our method enables adaptive adjustment of the dropout rate and theoretically balances the trade-off between model complexity and generalization ability. Furthermore, extensive experimental results on benchmark datasets show that FlexiDrop outperforms traditional random dropout methods in GNNs. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# SubMFL:デバイス異種環境におけるフェデレーション学習のための互換性サブモデル生成
subMFL: Compatiple subModel Generation for Federated Learning in Device Heterogenous Environment ( http://arxiv.org/abs/2405.20014v1 ) ライセンス: Link先を確認 | Zeyneddin Oz, Ceylan Soygul Oz, Abdollah Malekjafarian, Nima Afraz, Fatemeh Golpayegani, | (参考訳) フェデレートラーニング(FL)は、様々なデータと多様な計算能力とストレージ能力にアクセス可能な、分散デバイスと異種デバイスを持つシステムで一般的に使われている。
FLトレーニングプロセスにより、そのようなデバイスはローカルデータを使用して共有モデルの重量をローカルに更新し、信頼された中央サーバがこれらのモデルをすべて組み合わせてグローバルモデルを生成する。
このようにして、プライバシーを守るためにデータがデバイスにローカルに留まっている間に、グローバルモデルが生成される。
しかし、リソース制約のあるデバイス上でDeep Neural Networks(DNN)のような大規模なモデルをトレーニングすることは、極めて長い時間を要するため、大量のエネルギーを消費することができる。
現在のプロセスでは、低い容量のデバイスはトレーニングプロセスから除外されるが、見当たらないデータにアクセスすることができる。
この課題を克服するために,計算能力の異なる異種デバイスをFLプロセスに参加可能なモデル圧縮手法を提案する。
その後、訓練されたモデルは徐々に圧縮され、異なるレベルの疎性を持つサブモデルを取得し、第1の密密なモデルを訓練できないリソース制約されたデバイスに最適な初期グローバルモデルとして使用する。
これにより、前回の訓練から移行した重量を保存しながら、リソース制約された装置の参加率を増大させる。
検証実験の結果,世界規模で約50%に達するが,生成したサブモデルは精度を維持しつつ,参加率を約50%向上させることができることがわかった。
Federated Learning (FL) is commonly used in systems with distributed and heterogeneous devices with access to varying amounts of data and diverse computing and storage capacities. FL training process enables such devices to update the weights of a shared model locally using their local data and then a trusted central server combines all of those models to generate a global model. In this way, a global model is generated while the data remains local to devices to preserve privacy. However, training large models such as Deep Neural Networks (DNNs) on resource-constrained devices can take a prohibitively long time and consume a large amount of energy. In the current process, the low-capacity devices are excluded from the training process, although they might have access to unseen data. To overcome this challenge, we propose a model compression approach that enables heterogeneous devices with varying computing capacities to participate in the FL process. In our approach, the server shares a dense model with all devices to train it: Afterwards, the trained model is gradually compressed to obtain submodels with varying levels of sparsity to be used as suitable initial global models for resource-constrained devices that were not capable of train the first dense model. This results in an increased participation rate of resource-constrained devices while the transferred weights from the previous round of training are preserved. Our validation experiments show that despite reaching about 50 per cent global sparsity, generated submodels maintain their accuracy while can be shared to increase participation by around 50 per cent. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# 視覚的モダリティの導入による効率的なLCMジェイルブレーク
Efficient LLM-Jailbreaking by Introducing Visual Modality ( http://arxiv.org/abs/2405.20015v1 ) ライセンス: Link先を確認 | Zhenxing Niu, Yuyao Sun, Haodong Ren, Haoxuan Ji, Quan Wang, Xiaoke Ma, Gang Hua, Rong Jin, | (参考訳) 本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に着目し,有害なユーザクエリに応答して,敵対的なコンテンツを生成する。
LLM に直接指向する以前の LLM-jailbreak とは異なり、我々のアプローチは、ターゲット LLM に視覚モジュールを組み込むことで、マルチモーダルな大規模言語モデル (MLLM) を構築することから始まる。
その後,効率的なMLLMジェイルブレイクを行い,jailbreaking embeddings embJSを生成した。
最後に, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
直接的LLMジェイルブレイクに比べ、MLLMは純粋なLLMよりもジェイルブレイクに弱いため、我々のアプローチはより効率的である。
さらに、ジェイルブレイクの攻撃成功率(ASR)を改善するために、適切な初期入力を特定するための画像テキスト意味マッチングスキームを提案する。
大規模な実験により,本手法は効率と有効性の両方の観点から,現在の最先端手法を超越していることが示された。
さらに,本手法は,クラス間のジェイルブレイク能力に優れる。
This paper focuses on jailbreaking attacks against large language models (LLMs), eliciting them to generate objectionable content in response to harmful user queries. Unlike previous LLM-jailbreaks that directly orient to LLMs, our approach begins by constructing a multimodal large language model (MLLM) through the incorporation of a visual module into the target LLM. Subsequently, we conduct an efficient MLLM-jailbreak to generate jailbreaking embeddings embJS. Finally, we convert the embJS into text space to facilitate the jailbreaking of the target LLM. Compared to direct LLM-jailbreaking, our approach is more efficient, as MLLMs are more vulnerable to jailbreaking than pure LLM. Additionally, to improve the attack success rate (ASR) of jailbreaking, we propose an image-text semantic matching scheme to identify a suitable initial input. Extensive experiments demonstrate that our approach surpasses current state-of-the-art methods in terms of both efficiency and effectiveness. Moreover, our approach exhibits superior cross-class jailbreaking capabilities. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# 自然言語制約による安全なマルチエージェント強化学習
Safe Multi-agent Reinforcement Learning with Natural Language Constraints ( http://arxiv.org/abs/2405.20018v1 ) ライセンス: Link先を確認 | Ziyan Wang, Meng Fang, Tristan Tomilin, Fei Fang, Yali Du, | (参考訳) 安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
Safe MARLは、特にロボティクスや自動運転車などの分野において大きな可能性を秘めているが、その大きなポテンシャルは、設計済みの数学的用語で制約を定義する必要性によって制限されている。
この制限に対処し、Safe MARLをよりアクセシブルかつ適応的にするために、Safe Multi-Adnt Reinforcement Learning with Natural Language constraints (SMALL) という新しいアプローチを提案する。
提案手法は, 微調整言語モデルを用いて, 自由形式のテキスト制約を解釈・処理し, 禁止状態や動作の本質を捉えたセマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
SMALLの有効性を評価するために,自然言語制約に順応する複数のエージェントの性能を評価するマルチタスクベンチマークであるLaMaSafeを導入する。
様々な環境における実証的な評価は、SMALLが同等の報酬を達成し、制約違反を著しく少なくし、自然言語の制約を理解し、強制する効果を強調していることを示している。
The role of natural language constraints in Safe Multi-agent Reinforcement Learning (MARL) is crucial, yet often overlooked. While Safe MARL has vast potential, especially in fields like robotics and autonomous vehicles, its full potential is limited by the need to define constraints in pre-designed mathematical terms, which requires extensive domain expertise and reinforcement learning knowledge, hindering its broader adoption. To address this limitation and make Safe MARL more accessible and adaptable, we propose a novel approach named Safe Multi-agent Reinforcement Learning with Natural Language constraints (SMALL). Our method leverages fine-tuned language models to interpret and process free-form textual constraints, converting them into semantic embeddings that capture the essence of prohibited states and behaviours. These embeddings are then integrated into the multi-agent policy learning process, enabling agents to learn policies that minimize constraint violations while optimizing rewards. To evaluate the effectiveness of SMALL, we introduce the LaMaSafe, a multi-task benchmark designed to assess the performance of multiple agents in adhering to natural language constraints. Empirical evaluations across various environments demonstrate that SMALL achieves comparable rewards and significantly fewer constraint violations, highlighting its effectiveness in understanding and enforcing natural language constraints. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# モバイルおよび無線ネットワークにおけるジェネレーティブAI(GAI)の応用
Applications of Generative AI (GAI) for Mobile and Wireless Networking: A Survey ( http://arxiv.org/abs/2405.20024v1 ) ライセンス: Link先を確認 | Thai-Hoc Vu, Senthil Kumar Jagatheesaperumal, Minh-Duong Nguyen, Nguyen Van Huynh, Sunghwan Kim, Quoc-Viet Pham, | (参考訳) 近年、複数の分野や垂直領域における人工知能(AI)の成功は、モバイルネットワークと将来のインターネットの進化を、AI統合されたIoT(Internet-of-Things)時代へと進めている。
それでも、ほとんどのAI技術は、物理デバイス(モバイルデバイスやネットワークノードなど)や特定のアプリケーション(フィットネストラッカーやモバイルゲームなど)によって生成されたデータに依存している。
この回避を回避すべく、AIGC(Generative AI)と呼ばれるAI生成コンテンツ(AIGC)は、複雑なデータ分散を効率的に学習し、さまざまな形式で元のデータを表現するための合成データを生成する能力のおかげで、強力なAIパラダイムとして登場した。
この素晴らしい機能は、モバイルネットワーキングの管理を変革し、提供されている現在のサービスとアプリケーションを多様化するために計画されている。
本研究は,モバイルおよび無線ネットワークにおけるGAIの役割について,簡潔なチュートリアルを提示する。
特に、この調査はまず、モバイルおよび無線ネットワークにおけるGAIの応用を理解するための重要な予備となる、GAIおよび代表的GAIモデルの基礎を提供する。
この研究は、ネットワーク管理、無線セキュリティ、セマンティックコミュニケーション、オープンな文献から学んだ教訓における最先端の研究とGAI応用の包括的なレビューを提供する。
最後に、このエッジカット領域におけるGAIの開発と適用を容易にするために解決すべき重要な課題を概説することによって、モバイルおよび無線ネットワークにおけるGAIに関する現在の研究を要約する。
The success of Artificial Intelligence (AI) in multiple disciplines and vertical domains in recent years has promoted the evolution of mobile networking and the future Internet toward an AI-integrated Internet-of-Things (IoT) era. Nevertheless, most AI techniques rely on data generated by physical devices (e.g., mobile devices and network nodes) or specific applications (e.g., fitness trackers and mobile gaming). To bypass this circumvent, Generative AI (GAI), a.k.a. AI-generated content (AIGC), has emerged as a powerful AI paradigm; thanks to its ability to efficiently learn complex data distributions and generate synthetic data to represent the original data in various forms. This impressive feature is projected to transform the management of mobile networking and diversify the current services and applications provided. On this basis, this work presents a concise tutorial on the role of GAIs in mobile and wireless networking. In particular, this survey first provides the fundamentals of GAI and representative GAI models, serving as an essential preliminary to the understanding of the applications of GAI in mobile and wireless networking. Then, this work provides a comprehensive review of state-of-the-art studies and GAI applications in network management, wireless security, semantic communication, and lessons learned from the open literature. Finally, this work summarizes the current research on GAI for mobile and wireless networking by outlining important challenges that need to be resolved to facilitate the development and applicability of GAI in this edge-cutting area. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# 森林から動物園へ:チンパンジーによる類人猿の行動認識
From Forest to Zoo: Great Ape Behavior Recognition with ChimpBehave ( http://arxiv.org/abs/2405.20025v1 ) ライセンス: Link先を確認 | Michael Fuchs, Emilie Genty, Adrian Bangerter, Klaus Zuberbühler, Paul Cotofrei, | (参考訳) 本稿では,非ヒト霊長類の行動認識における重要な課題について,特にチンパンジーに着目した。
自動行動認識は, 保全と行動研究の進展に不可欠である。
しかし、手動ビデオアノテーションの労働集約的なプロセスによって著しく妨げられている。
大規模な動物行動データセットが利用可能であるにもかかわらず、さまざまな環境設定にわたる機械学習モデルの効果的な適用は、主にデータ収集コンテキストのばらつきとアノテーションの特異性のために、重要な課題となる。
本稿では,動物園で飼育されているチンパンジーの2時間以上の動画(約193,000フレーム)を収録した新しいデータセットであるChimpBehaveについて紹介する。
ChimpBehaveは、その振る舞いクラスを既存のデータセットと一意に整合させ、異なる視覚的設定間のドメイン適応とクロスデータセットの一般化方法の研究を可能にする。
さらに、最新のCNNベースのアクション認識モデルを用いてデータセットをベンチマークし、内部およびクロスデータセット設定の両方で最初のベースライン結果を提供する。
データセット、モデル、コードは、https://github.com/MitchFuchs/ChimpBehaveでアクセスできます。
This paper addresses the significant challenge of recognizing behaviors in non-human primates, specifically focusing on chimpanzees. Automated behavior recognition is crucial for both conservation efforts and the advancement of behavioral research. However, it is significantly hindered by the labor-intensive process of manual video annotation. Despite the availability of large-scale animal behavior datasets, the effective application of machine learning models across varied environmental settings poses a critical challenge, primarily due to the variability in data collection contexts and the specificity of annotations. In this paper, we introduce ChimpBehave, a novel dataset featuring over 2 hours of video (approximately 193,000 video frames) of zoo-housed chimpanzees, meticulously annotated with bounding boxes and behavior labels for action recognition. ChimpBehave uniquely aligns its behavior classes with existing datasets, allowing for the study of domain adaptation and cross-dataset generalization methods between different visual settings. Furthermore, we benchmark our dataset using a state-of-the-art CNN-based action recognition model, providing the first baseline results for both within and cross-dataset settings. The dataset, models, and code can be accessed at: https://github.com/MitchFuchs/ChimpBehave | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# SEAキャッシュ: 競合ベースの攻撃に対するパフォーマンス効率の良い対策
SEA Cache: A Performance-Efficient Countermeasure for Contention-based Attacks ( http://arxiv.org/abs/2405.20027v1 ) ライセンス: Link先を確認 | Xiao Liu, Mark Zwolinski, Basel Halak, | (参考訳) 競合ベースのサイドチャネル攻撃を防ぐために多くのキャッシュ設計が提案されている。
良く知られたタイプのキャッシュは、ランダム化されたリマッピングキャッシュである。
多くのランダム化されたリマッピングキャッシュは、固定またはオーバープロテクションを提供し、永続的なパフォーマンス劣化を引き起こすか、柔軟なプロテクションを提供するが、強力な競合ベースの攻撃に対するパフォーマンスを犠牲にする。
セキュアキャッシュ設計を改善するため,既存のセキュアキャッシュ設計,CEASER-SHキャッシュを拡張し,SEAキャッシュを提案する。
両方のキャッシュにおける新しいキャッシュ構成は論理的連想性であり、キャッシュラインをマッピングされたキャッシュセットだけでなく、その後のキャッシュセットにも配置することができる。
SEAキャッシュは、各ユーザまたは各プロセスが異なるローカル論理的連想性を持つことを可能にする。
したがって、競合ベースの攻撃に対する追加の保護を要求するユーザーまたはプロセスだけが、高い論理的アソシエーションで保護される。
他のユーザやプロセスは、レイテンシが低く、より高いパフォーマンスでキャッシュにアクセスすることができる。
8の論理的連想性を持つCEASER-SHキャッシュと比較して、通常の保護ユーザに対して1の論理的連想性を持つSEAキャッシュと、高い保護ユーザに対しては16のサイクルパーインストラクションペナルティがあり、通常の保護下でのユーザに対しては約0.6%減少し、競合ベースの攻撃に対してより優れたセキュリティを提供する。
45nm技術ライブラリに基づいて、従来のキャッシュと比較して、電力オーバーヘッドは約20%、面積オーバーヘッドは3.4%と見積もっている。
Many cache designs have been proposed to guard against contention-based side-channel attacks. One well-known type of cache is the randomized remapping cache. Many randomized remapping caches provide fixed or over protection, which leads to permanent performance degradation, or they provide flexible protection, but sacrifice performance against strong contention-based attacks. To improve the secure cache design, we extend an existing secure cache design, CEASER-SH cache, and propose the SEA cache. The novel cache configurations in both caches are logical associativity, which allows the cache line to be placed not only in its mapped cache set but also in the subsequent cache sets. SEA cache allows each user or each process to have a different local logical associativity. Hence, only those users or processes that request extra protection against contention-based attacks are protected with high logical associativity. Other users or processes can access the cache with lower latency and higher performance. Compared to a CEASER-SH cache with logical associativity of 8, an SEA cache with logical associativity of 1 for normal protection users and 16 for high protection users has a Cycles Per Instruction penalty that is about 0.6% less for users under normal protections and provides better security against contention-based attacks. Based on a 45nm technology library, and compared to a conventional cache, we estimate the power overhead is about 20% and the area overhead is 3.4%. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# 99ドル(T^{2/3})を最小限に設定したオンライン学習におけるFTRLの簡易かつ適応的な学習率とそのBest-of-Both-Worldsへの応用
A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $Θ(T^{2/3})$ and its Application to Best-of-Both-Worlds ( http://arxiv.org/abs/2405.20028v1 ) ライセンス: Link先を確認 | Taira Tsuchiya, Shinji Ito, | (参考訳) FTRL(Follow-the-Regularized-Leader)は、さまざまなオンライン学習問題の強力なフレームワークである。
過去の観測に適応するように正規化器と学習率を設計することで、FTRLは基礎となる環境の様々な特性に適応して機能することが知られている。
しかし、既存の適応学習率のほとんどは、ラウンド数$T$に対して$\Theta(\sqrt{T})$のミニマックス後悔を伴うオンライン学習問題に対するものであり、間接的なフィードバックを扱ういくつかの重要な問題を含む$\Theta(T^{2/3})$のミニマックス後悔を伴う問題の適応学習率に関する研究はわずかである。
この制限に対処するため、我々は、$\Theta(T^{2/3})$のミニマックス後悔問題に対する新しい適応学習率フレームワークを構築した。
学習速度は安定性、ペナルティ、バイアスの項を一致させて設計されており、この項は最小限の最小限の残差が$\Theta(T^{2/3})$である問題に対して自然に上界に現れる。
このフレームワークの応用として、間接的なフィードバックを扱う2つの大きな問題として、部分的なモニタリングとグラフの帯域幅について考察する。
学習速度とTsallisエントロピー正規化器を用いたFTRLは,既存のBest-of-Both-Worlds (BOBW) の上界を後悔し,確率的・対角的体制において同時最適性を達成できることを示す。
結果として得られた学習率は、BOBWアルゴリズムの既存の学習率と比較して、$\Theta(T^{2/3})$のミニマックス後悔問題に対して驚くほど単純である。
Follow-the-Regularized-Leader (FTRL) is a powerful framework for various online learning problems. By designing its regularizer and learning rate to be adaptive to past observations, FTRL is known to work adaptively to various properties of an underlying environment. However, most existing adaptive learning rates are for online learning problems with a minimax regret of $\Theta(\sqrt{T})$ for the number of rounds $T$, and there are only a few studies on adaptive learning rates for problems with a minimax regret of $\Theta(T^{2/3})$, which include several important problems dealing with indirect feedback. To address this limitation, we establish a new adaptive learning rate framework for problems with a minimax regret of $\Theta(T^{2/3})$. Our learning rate is designed by matching the stability, penalty, and bias terms that naturally appear in regret upper bounds for problems with a minimax regret of $\Theta(T^{2/3})$. As applications of this framework, we consider two major problems dealing with indirect feedback: partial monitoring and graph bandits. We show that FTRL with our learning rate and the Tsallis entropy regularizer improves existing Best-of-Both-Worlds (BOBW) regret upper bounds, which achieve simultaneous optimality in the stochastic and adversarial regimes. The resulting learning rate is surprisingly simple compared to the existing learning rates for BOBW algorithms for problems with a minimax regret of $\Theta(T^{2/3})$. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# アンタゴニストイベントグループコンペティションにおけるランダムフォレストに基づく転倒点予測モデル
A Random Forest-based Prediction Model for Turning Points in Antagonistic event-group Competitions ( http://arxiv.org/abs/2405.20029v1 ) ライセンス: Link先を確認 | Zishuo Zhu, | (参考訳) 現在,競技結果の予測に焦点が当てられているイベントグループ競技に関する予測研究の多くは,競技結果の予測に焦点が当てられているが,実際の競技における競技者の状態情報のリアルタイムなフィードバックが得られず,競技状況の変化を分析できない競技プロセスの予測には焦点が当てられている。
そこで本研究では, ランダムフォレストに基づく, 対角的事象群の旋回点の予測モデルを提案する。
第一に、競合ポテンシャルエネルギーの定量的方程式を提案し、第二に、重み付け法の動的組み合わせを用いて競合ポテンシャルエネルギーの定量的値を求め、その定量的時系列グラフに基づいて敵対事象群の競合状況の旋回点をマークし、最後に、KM-SMOTEアルゴリズムの最適化に基づくランダム森林予測モデルとグリッド探索法を確立した。
実験により, 競合ポテンシャルエネルギーの定量的方程式は, 競合の動的状況を効果的に反映しうること, モデルが対角的事象群の競合状況の旋回点を効果的に予測でき, テストセットにおけるモデルのリコール率は86.13%であり, モデルが今後, 対角的事象群の競合状況の考察に有効であることを示す。
At present, most of the prediction studies related to antagonistic event-group competitions focus on the prediction of competition results, and less on the prediction of the competition process, which can not provide real-time feedback of the athletes' state information in the actual competition, and thus can not analyze the changes of the competition situation. In order to solve this problem, this paper proposes a prediction model based on Random Forest for the turning point of the antagonistic event-group. Firstly, the quantitative equation of competitive potential energy is proposed; Secondly, the quantitative value of competitive potential energy is obtained by using the dynamic combination of weights method, and the turning point of the competition situation of the antagonistic event-group is marked according to the quantitative time series graph; Finally, the random forest prediction model based on the optimisation of the KM-SMOTE algorithm and the grid search method is established. The experimental analysis shows that: the quantitative equation of competitive potential energy can effectively reflect the dynamic situation of the competition; The model can effectively predict the turning point of the competition situation of the antagonistic event-group, and the recall rate of the model in the test set is 86.13%; the model has certain significance for the future study of the competition situation of the antagonistic event-group. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# EMAG:Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos
EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos ( http://arxiv.org/abs/2405.20030v1 ) ライセンス: Link先を確認 | Masashi Hatano, Ryo Hachiuma, Hideo Saito, | (参考訳) エゴセントリックなビデオから将来の人間の行動を予測することは、人間の意図を理解する上で難しいが重要な課題である。
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本稿では,1)エゴセントリックな映像における2次元手の位置が,エゴセントリックな映像のエゴモーションに強く影響されていること,(2)視覚情報に基づく予測は背景やシーンのテクスチャに過度に適合する傾向にあり,新規シーンや人間の行動の一般化に挑戦する傾向にあること,の2つの課題に対処する。
上記の問題を解決するために,エゴ運動認識と一般化可能な2次元手指予測法であるEMAGを提案する。
最初の問題に対して,2つの連続するフレームのホモグラフィ行列列で表されるエゴ運動を考慮した手法を提案する。
さらに、光学的流れ、手の軌跡、相互作用する物体、エゴモーションなどのモダリティを活用し、第2の問題を緩和する。
Ego4DとEPIC-Kitchens 55という2つの大規模エゴセントリックビデオデータセットの大規模な実験により,提案手法の有効性が検証された。
特に、我々のモデルは、データセット間の評価において、事前メソッドを7.0$\%で上回ります。
プロジェクトページ:https://masashi-hatano.github.io/EMAG/
Predicting future human behavior from egocentric videos is a challenging but critical task for human intention understanding. Existing methods for forecasting 2D hand positions rely on visual representations and mainly focus on hand-object interactions. In this paper, we investigate the hand forecasting task and tackle two significant issues that persist in the existing methods: (1) 2D hand positions in future frames are severely affected by ego-motions in egocentric videos; (2) prediction based on visual information tends to overfit to background or scene textures, posing a challenge for generalization on novel scenes or human behaviors. To solve the aforementioned problems, we propose EMAG, an ego-motion-aware and generalizable 2D hand forecasting method. In response to the first problem, we propose a method that considers ego-motion, represented by a sequence of homography matrices of two consecutive frames. We further leverage modalities such as optical flow, trajectories of hands and interacting objects, and ego-motions, thereby alleviating the second issue. Extensive experiments on two large-scale egocentric video datasets, Ego4D and EPIC-Kitchens 55, verify the effectiveness of the proposed method. In particular, our model outperforms prior methods by $7.0$\% on cross-dataset evaluations. Project page: https://masashi-hatano.github.io/EMAG/ | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# マンハッタン世界仮説を用いた構造ガウスSLAM
Structure Gaussian SLAM with Manhattan World Hypothesis ( http://arxiv.org/abs/2405.20031v1 ) ライセンス: Link先を確認 | Shuhong Liu, Heng Zhou, Liuzhuozheng Li, Yun Liu, Tianchen Deng, Yiming Zhou, Mingrui Li, | (参考訳) ガウスのSLAMシステムは、リアルタイム再構築の効率性と忠実性を向上させるために大きな進歩を遂げた。
しかし、これらのシステムは複雑な屋内環境において、障害物や限られた視角によって引き起こされる未観測の幾何学により、実質的な穴を特徴とする不完全な再構成に遭遇することが多い。
この課題に対処するために,マンハッタンワールド仮説を利用したRGB-DシステムであるManhattan Gaussian SLAM(MG-SLAM)を提案する。
MG-SLAMは、構造されたシーンから導かれた融合した線分をシームレスに統合することにより、テクスチャレス屋内領域におけるロバストな追跡を確実にする。
さらに、抽出された線と平面面仮定により、欠測した幾何学領域における新しいガウスの戦略的補間が可能となり、効率的なシーン補完が可能となった。
合成シーンと実世界のシーンの両方で行われた大規模な実験により、これらの手法が最先端の性能を実現し、ガウスSLAMシステムの能力を大幅に向上することを示す。
Gaussian SLAM systems have made significant advancements in improving the efficiency and fidelity of real-time reconstructions. However, these systems often encounter incomplete reconstructions in complex indoor environments, characterized by substantial holes due to unobserved geometry caused by obstacles or limited view angles. To address this challenge, we present Manhattan Gaussian SLAM (MG-SLAM), an RGB-D system that leverages the Manhattan World hypothesis to enhance geometric accuracy and completeness. By seamlessly integrating fused line segments derived from structured scenes, MG-SLAM ensures robust tracking in textureless indoor areas. Moreover, The extracted lines and planar surface assumption allow strategic interpolation of new Gaussians in regions of missing geometry, enabling efficient scene completion. Extensive experiments conducted on both synthetic and real-world scenes demonstrate that these advancements enable our method to achieve state-of-the-art performance, marking a substantial improvement in the capabilities of Gaussian SLAM systems. | 翻訳日:2024-05-31 14:28:22 公開日:2024-05-30 |
# Promptus: 安定した拡散でビデオストリーミングをリプレースできる
Promptus: Can Prompts Streaming Replace Video Streaming with Stable Diffusion ( http://arxiv.org/abs/2405.20032v1 ) ライセンス: Link先を確認 | Jiangkai Wu, Liming Liu, Yunpeng Tan, Junlin Hao, Xinggong Zhang, | (参考訳) ビデオトラフィックの指数的な増加に伴い、従来のビデオストリーミングシステムは圧縮効率と通信能力の限界に近づいている。
品質を維持しつつビットレートをさらに削減するため,ビデオフレームを一連の「プロンプット」に変換して配信する「安定拡散」で映像コンテンツをストリーミングする「プロンプタス」を提案する。
画素アライメントを確保するため、勾配降下に基づくプロンプトフィッティングフレームワークを提案する。
プロンプトに対する適応ビットレートを実現するために,低ランク分解に基づくビットレート制御アルゴリズムを導入する。
プロンプトのフレーム間圧縮のために,時間スムージングに基づくプロンプト補間アルゴリズムを提案する。
様々なビデオドメインと実ネットワークトレースで評価した結果、PromptusはVAEとH.265と比較して知覚品質を0.111と0.092(LPIPS)向上させ、重く歪んだフレームの比率を89.3%と91.7%に下げることを示した。
さらに、Promptusは150FPS以上のプロンプトからリアルタイムのビデオ生成を実現する。
われわれの知る限りでは、Promptusはビデオコーデックを即時インバージョンで置き換える最初の試みであり、ビデオストリーミングの代わりに即時ストリーミングを使う最初の試みだ。
われわれの研究は、シャノン限界を超えた効率的なビデオ通信のための新しいパラダイムを開拓する。
With the exponential growth of video traffic, traditional video streaming systems are approaching their limits in compression efficiency and communication capacity. To further reduce bitrate while maintaining quality, we propose Promptus, a disruptive novel system that streaming prompts instead of video content with Stable Diffusion, which converts video frames into a series of "prompts" for delivery. To ensure pixel alignment, a gradient descent-based prompt fitting framework is proposed. To achieve adaptive bitrate for prompts, a low-rank decomposition-based bitrate control algorithm is introduced. For inter-frame compression of prompts, a temporal smoothing-based prompt interpolation algorithm is proposed. Evaluations across various video domains and real network traces demonstrate Promptus can enhance the perceptual quality by 0.111 and 0.092 (in LPIPS) compared to VAE and H.265, respectively, and decreases the ratio of severely distorted frames by 89.3% and 91.7%. Moreover, Promptus achieves real-time video generation from prompts at over 150 FPS. To the best of our knowledge, Promptus is the first attempt to replace video codecs with prompt inversion and the first to use prompt streaming instead of video streaming. Our work opens up a new paradigm for efficient video communication beyond the Shannon limit. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 2部量子系の最適制御
Optimal Control of Bipartite Quantum Systems ( http://arxiv.org/abs/2405.20034v1 ) ライセンス: Link先を確認 | Emanuel Malvetti, Léo Van Damme, | (参考訳) 高速局所ユニタリ制御を受ける閉二部量子系を、量子最適制御理論とシュミット分解に基づく還元制御系を用いて研究した。
特に、最大絡み合った状態と積状態の時間-最適生成、および一定の絡み合った量子状態の安定化の問題に焦点が当てられる。
2つの量子ビットからなる一般系(およびボソニックおよびフェルミオン類似系)とポントリャーギン極大原理を用いて研究される2つの結合キュートリットからなる系のクラスに対して、明示的な解析解が与えられる。
Closed bipartite quantum systems subject to fast local unitary control are studied using quantum optimal control theory and a method of reduced control systems based on the Schmidt decomposition. Particular focus is given to the time-optimal generation of maximally entangled states and product states, as well as to the problem of stabilizing quantum states with a certain amount of entanglement. Explicit analytical solutions are given for general systems consisting of two qubits (as well as for bosonic and fermionic analogues) and also for a class of systems consisting of two coupled qutrits which is studied using the Pontryagin Maximum Principle. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# ゼーマン電磁誘導透過におけるチャープ非対称性
Chirp asymmetry in Zeeman electromagnetically induced transparency ( http://arxiv.org/abs/2405.20036v1 ) ライセンス: Link先を確認 | Joseph Gorkos, Karsten Grenzig, Erfan Nasirzadeh Orang, Victoria Thomas, Declan Tighe, Michael Crescimanno, | (参考訳) 電磁誘導透過(EIT)を示す最も単純な3レベル系は、効果的な共役対称性と置換対称性を示す。
共役対称性の破れはチャープ非対称性を区別し、周波数に対する微分応答は周波数の減少に対して増加する。
Hanle-Zeeman EIT resonanceは、システムの多くの光学パラメータを実験的に変更できるため、チャープ非対称性の理論をテストするための理想的なプラットフォームである。
本稿では,この理論をバッファーガスセルの87Rbを用いた実験と比較する。
初期の多光子チャープ非対称性とは対照的に、この試みは初期のチャープ速度の10億分の1近くで非対称性を探索するが、その普遍的な特徴を示す。
チャープ非対称性は、変調/変調パラメータの体系的依存を理解するために、メートルロジカルな結果をもたらす可能性がある。
The simplest three-level system exhibiting electromagnetically induced transparency (EIT) exhibits an effective conjugation symmetry as well as a permutation symmetry. Breaking conjugation symmetry leads to a distinct chirp asymmetry; the differential response to a frequency increase versus a frequency decrease. Hanle-Zeeman EIT resonance is an ideal platform for testing the theory of chirp asymmetry because so many optical parameters of the system can be changed experimentally. We describe the theory and compare it to an experiment using 87Rb in a buffer gas cell. In contrast with earlier multi-photon chirp asymmetry work this present effort explores the asymmetry at nearly one billionth the earlier chirp rate, yet displays its universal features. Chirp asymmetry may have metrological consequences for understanding systematic dependence on modulation/demodulation parameters. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# ジェネレーティブAI知覚の言語的ランドスケープ:14言語にわたるグローバルTwitter分析
Linguistic Landscape of Generative AI Perception: A Global Twitter Analysis Across 14 Languages ( http://arxiv.org/abs/2405.20037v1 ) ライセンス: Link先を確認 | Taichi Murayama, Kunihiro Miyazaki, Yasuko Matsubara, Yasushi Sakurai, | (参考訳) 生成型AIツールの出現は、世界社会に大きな影響を与え、地理的境界を越えている。
これらのツールのグローバルレセプションと利用を理解することは、サービス提供者や政策立案者にとって、今後の政策を形成する上で不可欠である。
そこで、生成的AIツールに関して、多様な言語コミュニティ内の個人の認識と関与を明らかにするために、14の言語で680万以上のツイートを広範囲に分析した。
本研究は,言語固有のニュアンスを伴って,生成AIの認識のグローバルな傾向を明らかにした。
これらのツールに対する感情は言語によって大きく異なるが、イメージツールに対する肯定的な傾向があり、Chatツールに対する否定的な傾向がある。
特にイタリアにおけるChatGPTの禁止は、感情の低下を招き、言語間の議論を開始した。
さらに,チャットボットと対話するための分類法を確立し,言語コミュニティにおける生成的AI利用の変動を社会的分析の枠組みを構築した。
中国のコミュニティはおもに検索の代用としてチャットボットを採用しており、イタリアのコミュニティはより複雑なプロンプトを提示する傾向にある。
我々の研究は、生成型AIツールを取り巻く社会的ダイナミクスのさらなる探索のための堅牢な基盤を提供し、政策、技術、教育における意思決定者にとって貴重な洞察を提供する。
The advent of generative AI tools has had a profound impact on societies globally, transcending geographical boundaries. Understanding these tools' global reception and utilization is crucial for service providers and policymakers in shaping future policies. Therefore, to unravel the perceptions and engagements of individuals within diverse linguistic communities with regard to generative AI tools, we extensively analyzed over 6.8 million tweets in 14 different languages. Our findings reveal a global trend in the perception of generative AI, accompanied by language-specific nuances. While sentiments toward these tools vary significantly across languages, there is a prevalent positive inclination toward Image tools and a negative one toward Chat tools. Notably, the ban of ChatGPT in Italy led to a sentiment decline and initiated discussions across languages. Furthermore, we established a taxonomy for interactions with chatbots, creating a framework for social analysis underscoring variations in generative AI usage among linguistic communities. We find that the Chinese community predominantly employs chatbots as substitutes for search, while the Italian community tends to present more intricate prompts. Our research provides a robust foundation for further explorations of the social dynamics surrounding generative AI tools and offers invaluable insights for decision-makers in policy, technology, and education. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# IoTにおける侵入検知のための深層強化学習:サーベイ
Deep Reinforcement Learning for Intrusion Detection in IoT: A Survey ( http://arxiv.org/abs/2405.20038v1 ) ライセンス: Link先を確認 | Afrah Gueriani, Hamza Kheddar, Ahmed Cherif Mazari, | (参考訳) モノのインターネット(IoT)環境における新たな複雑な攻撃シナリオの台頭は、人間の介入なしにIoTネットワーク内の悪意ある活動を検出し緩和する様々な侵入検知システム(IDS)のような、より先進的でインテリジェントなサイバー防御技術を必要としている。
この問題に対処するため,近年,侵入・攻撃を自動的に対処する深層強化学習(DRL)が提案されている。
本稿では,DRLをベースとしたIoT上のIDSに関する包括的調査を紹介する。
さらに,最新のDRLベースのIDS手法は,無線センサネットワーク(WSN),ディープQネットワーク(DQN),ヘルスケア,ハイブリッド,その他の技術を含む5つのカテゴリに分類されている。
さらに,提案手法の性能を評価するために, 精度, リコール, 精度, 偽陰性率 (FNR), 偽陽性率 (FPR) , 偽陰性率 (FPR) の最も重要な性能指標について詳述した。
本論文では,本研究で活用されるデータセットの要約について述べる。
The rise of new complex attacks scenarios in Internet of things (IoT) environments necessitate more advanced and intelligent cyber defense techniques such as various Intrusion Detection Systems (IDSs) which are responsible for detecting and mitigating malicious activities in IoT networks without human intervention. To address this issue, deep reinforcement learning (DRL) has been proposed in recent years, to automatically tackle intrusions/attacks. In this paper, a comprehensive survey of DRL-based IDS on IoT is presented. Furthermore, in this survey, the state-of-the-art DRL-based IDS methods have been classified into five categories including wireless sensor network (WSN), deep Q-network (DQN), healthcare, hybrid, and other techniques. In addition, the most crucial performance metrics, namely accuracy, recall, precision, false negative rate (FNR), false positive rate (FPR), and F-measure, are detailed, in order to evaluate the performance of each proposed method. The paper provides a summary of datasets utilized in the studies as well. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# タスク非依存型機械学習支援推論
Task-Agnostic Machine Learning-Assisted Inference ( http://arxiv.org/abs/2405.20039v1 ) ライセンス: Link先を確認 | Jiacheng Miao, Qiongshi Lu, | (参考訳) 機械学習(ML)は、科学研究においてますます重要な役割を担っている。
古典的な統計的アプローチと合わせて、ML支援分析戦略は、研究成果の加速に大きな可能性を示唆している。
これはまた、データサイエンスの課題に取り組むためにMLと統計の両方を活用する統合的アプローチに焦点を当てた、全く新しい方法論研究の分野を開いた。
人気を急速に高めた研究の1つは、大量のサンプルで観測されていない結果を予測し、下流の統計的推測で予測結果を使用するためにMLを用いている。
しかし、この種の予測後の推論の有効性を保証するために設計された既存の手法は、線形回帰解析のような非常に基本的なタスクに限られている。
これは、複雑な推論タスクのためにすでに開発されている既存のソフトウェアツールの膨大なライブラリを無視し、実際のアプリケーションにおける予測後推論の範囲を厳しく制限する、タスク固有の代数的導出とソフトウェア実装を必要とするためである。
この課題に対処するために,タスクに依存しないML支援推論のための新しい統計フレームワークを提案する。
これは、ほぼすべての確立したデータ分析ルーチンに簡単にプラグインできる、予測後推論ソリューションを提供する。
MLモデルの任意の選択に対して堅牢な有効かつ効率的な推論を提供すると同時に、ほぼすべての既存の分析フレームワークをML予測結果の分析に組み込むことができる。
大規模な実験を通じて,既存手法と比較して,提案手法の有効性,汎用性,優越性を示す。
Machine learning (ML) is playing an increasingly important role in scientific research. In conjunction with classical statistical approaches, ML-assisted analytical strategies have shown great promise in accelerating research findings. This has also opened up a whole new field of methodological research focusing on integrative approaches that leverage both ML and statistics to tackle data science challenges. One type of study that has quickly gained popularity employs ML to predict unobserved outcomes in massive samples and then uses the predicted outcomes in downstream statistical inference. However, existing methods designed to ensure the validity of this type of post-prediction inference are limited to very basic tasks such as linear regression analysis. This is because any extension of these approaches to new, more sophisticated statistical tasks requires task-specific algebraic derivations and software implementations, which ignores the massive library of existing software tools already developed for complex inference tasks and severely constrains the scope of post-prediction inference in real applications. To address this challenge, we propose a novel statistical framework for task-agnostic ML-assisted inference. It provides a post-prediction inference solution that can be easily plugged into almost any established data analysis routine. It delivers valid and efficient inference that is robust to arbitrary choices of ML models, while allowing nearly all existing analytical frameworks to be incorporated into the analysis of ML-predicted outcomes. Through extensive experiments, we showcase the validity, versatility, and superiority of our method compared to existing approaches. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# CycleFormer : 言語モデリングに基づくTSPソルバー
CycleFormer : TSP Solver Based on Language Modeling ( http://arxiv.org/abs/2405.20042v1 ) ライセンス: Link先を確認 | Jieun Yook, Junpyo Seo, Joon Huh, Han Joon Byun, Byung-ro Mooon, | (参考訳) 本稿では,CycleFormerと呼ばれるトラベリングセールスマン問題(TSP)に対するトランスフォーマーモデルを提案する。
従来の変圧器モデルをTSPに適用する際に考慮すべき特徴を特定し,これらの要素をTSP固有の変圧器に完全に組み込むことを目的とした。
限定的で静的な典型的な言語モデルのトークンセットとは異なり、TSPのトークンセット(ノード)は無制限で動的である。
この事実を最大限に活用するために、エンコーダ出力をデコーダ線形層と同一視し、エンコーダのコンテキストベクトルをデコーダ符号化に直接接続した。
さらに,TSPの2次元特性を反映したエンコーダトークンに位置符号化を加え,ツアーの循環特性を考慮したデコーダトークンの円形位置符号化を考案した。
これらのアイデアを取り入れることで、CycleFormer は TSP を TSP-50 から TSP-500 へ変換する SOTA (State-of-the-art) モデルより優れている。
特にTSP-500では、既存のSOTAと比較して、最適性ギャップが3.09%から1.10%に約2.8倍削減された。
コードはhttps://github.com/Giventicket/CycleFormer.comから入手できる。
We propose a new transformer model for the Traveling Salesman Problem (TSP) called CycleFormer. We identified distinctive characteristics that need to be considered when applying a conventional transformer model to TSP and aimed to fully incorporate these elements into the TSP-specific transformer. Unlike the token sets in typical language models, which are limited and static, the token (node) set in TSP is unlimited and dynamic. To exploit this fact to the fullest, we equated the encoder output with the decoder linear layer and directly connected the context vector of the encoder to the decoder encoding. Additionally, we added a positional encoding to the encoder tokens that reflects the two-dimensional nature of TSP, and devised a circular positional encoding for the decoder tokens that considers the cyclic properties of a tour. By incorporating these ideas, CycleFormer outperforms state-of-the-art (SOTA) transformer models for TSP from TSP-50 to TSP-500. Notably, on TSP-500, the optimality gap was reduced by approximately 2.8 times, from 3.09% to 1.10%, compared to the existing SOTA. The code will be made available at https://github.com/Giventicket/CycleFormer. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 鼻腔内視鏡画像分割のための所要学習フレームワーク
A Point-Neighborhood Learning Framework for Nasal Endoscope Image Segmentation ( http://arxiv.org/abs/2405.20044v1 ) ライセンス: Link先を確認 | Pengyu Jie, Wanquan Liu, Chenqiang Gao, Yihui Wen, Rui He, Pengcheng Li, Jintao Zhang, Deyu Meng, | (参考訳) 内視鏡像上の病変の分画は,その複雑で曖昧な特徴から困難である。
完全教師付きディープラーニングセグメンテーション手法は、完全にピクセルレベルのラベル付きデータセットに基づいて優れたパフォーマンスを得られるが、専門家のラベル付け負担を大幅に増加させる。
半教師付きおよび弱教師付き手法は、ラベル付けの負担を緩和するが、学習困難を強く強化する。
この難しさを軽減するために、弱い半教師付きセグメンテーションでは、多数のポイントアノテーションサンプルを数ピクセルレベルのアノテーションサンプルに追加する新しいアノテーションプロトコルを採用している。
しかし、既存のメソッドは、ポイントアノテーションを囲む前の信頼性を無視しながら、ポイントの限られた情報のみをマイニングする。
本稿では,PNL(Point-Neighborhood Learning)フレームワークという,弱い半教師付き手法を提案する。
注釈付き点を囲む画素の先行をマイニングするために、単点アノテーションを点近傍と呼ばれる円形領域に変換する。
本研究は,訓練指導を強化するために,所望の監督損失と擬似ラベルスコアリング機構を提案する。
ポイント近隣はデータの多様性を高めるためにも使われる。
本手法はセグメンテーションネットワークの構造を変えることなく性能を大幅に向上させる。
総合的な実験により,本手法が既存の手法よりも優れていることが示され,ポイントアノテートされた医用画像にその効果が示された。
プロジェクトコードは、https://github.com/ParryJay/PNL.com/https://github.com/ParryJay/PNL.com/https://github.com/ParryJay/ PNL.com/comで利用可能である。
The lesion segmentation on endoscopic images is challenging due to its complex and ambiguous features. Fully-supervised deep learning segmentation methods can receive good performance based on entirely pixel-level labeled dataset but greatly increase experts' labeling burden. Semi-supervised and weakly supervised methods can ease labeling burden, but heavily strengthen the learning difficulty. To alleviate this difficulty, weakly semi-supervised segmentation adopts a new annotation protocol of adding a large number of point annotation samples into a few pixel-level annotation samples. However, existing methods only mine points' limited information while ignoring reliable prior surrounding the point annotations. In this paper, we propose a weakly semi-supervised method called Point-Neighborhood Learning (PNL) framework. To mine the prior of the pixels surrounding the annotated point, we transform a single-point annotation into a circular area named a point-neighborhood. We propose point-neighborhood supervision loss and pseudo-label scoring mechanism to enhance training supervision. Point-neighborhoods are also used to augment the data diversity. Our method greatly improves performance without changing the structure of segmentation network. Comprehensive experiments show the superiority of our method over the other existing methods, demonstrating its effectiveness in point-annotated medical images. The project code will be available on: https://github.com/ParryJay/PNL. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 高速・非線形・振動ダイナミクスの反復学習制御(予報)
Iterative Learning Control of Fast, Nonlinear, Oscillatory Dynamics (Preprint) ( http://arxiv.org/abs/2405.20045v1 ) ライセンス: Link先を確認 | John W. Brooks, Christine M. Greve, | (参考訳) 突然の消耗と振動のダイナミクス(しばしば不安定と呼ばれる)は、多くの流体、プラズマ、航空宇宙システムにおいて既知の課題である。
これらのダイナミクスは、非線形でカオス的であり、しばしばアクティブな制御スキームでは速すぎるため、対処が難しい。
本研究では、反復学習制御(ILC)、時間ラグ位相格子(TLPP)、ガウス過程回帰(GPR)に基づく反復的、軌道最適化、パラメータ調整アプローチを用いた代替アクティブ制御システムを開発する。
このアプローチの新規性は、コントローラがダイナミクスよりもはるかに遅いにもかかわらず、システムのダイナミクスを制御できることである。
本制御器は, 所望の振動軌道や状態の再現を成功させるために, システムの入力パラメータを反復的に調整(チューニング)する, 方程式のロレンツ系上で実演する。
さらに、制御パラメータに対するシステムの動的感度について検討し、所望の動的軌跡の連続領域と有界領域を同定し、一定の要件を満たす限り制御不能な情報や制御不能なパラメータに頑健であることを実証する。
この研究で提示されたコントローラは、不安定な抑制と緩和に役立つ様々な高速非線形システムの低速制御のためのフレームワークを提供する。
The sudden onset of deleterious and oscillatory dynamics (often called instabilities) is a known challenge in many fluid, plasma, and aerospace systems. These dynamics are difficult to address because they are nonlinear, chaotic, and are often too fast for active control schemes. In this work, we develop an alternative active controls system using an iterative, trajectory-optimization and parameter-tuning approach based on Iterative Learning Control (ILC), Time-Lagged Phase Portraits (TLPP) and Gaussian Process Regression (GPR). The novelty of this approach is that it can control a system's dynamics despite the controller being much slower than the dynamics. We demonstrate this controller on the Lorenz system of equations where it iteratively adjusts (tunes) the system's input parameters to successfully reproduce a desired oscillatory trajectory or state. Additionally, we investigate the system's dynamical sensitivity to its control parameters, identify continuous and bounded regions of desired dynamical trajectories, and demonstrate that the controller is robust to missing information and uncontrollable parameters as long as certain requirements are met. The controller presented in this work provides a framework for low-speed control for a variety of fast, nonlinear systems that may aid in instability suppression and mitigation. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 異種フェデレーション学習のための多視点知識融合を用いたクロストレーニング
Cross-Training with Multi-View Knowledge Fusion for Heterogenous Federated Learning ( http://arxiv.org/abs/2405.20046v1 ) ライセンス: Link先を確認 | Zhuang Qi, Lei Meng, Weihao He, Ruohan Zhang, Yu Wang, Xin Qi, Xiangxu Meng, | (参考訳) これにより、モデルは異なるソースからのデータをトレーニングし、一般化能力を改善することができる。
しかし、ソース間のデータの異質性は、新しいタスクやデータソースに適応するためにクロストレーニングを行う際に、以前取得した知識を徐々に忘れてしまう可能性がある。
複数の視点から情報を集めるためにパーソナライズされたグローバルな知識を統合することで、パフォーマンスが向上する可能性がある、と私たちは主張する。
この目的を達成するために,多視点情報を活用したクロストレーニング方式により,フェデレーション学習を強化する新しい手法を提案する。
具体的には、FedCTと呼ばれる提案手法は、3つの主要なモジュールを含み、一貫性を意識した知識放送モジュールは、クライアント間の協調的優位性を高め、効率的なフェデレーション学習プロセスを実現するモデル割り当て戦略を最適化することを目的としている。
多視点知識誘導表現学習モジュールは、グローバルな視点とローカルな視点の両方から融合した原型知識を利用して、モデル交換前後の局所的な知識の保存を強化し、局所的知識とグローバルな知識の整合性を確保する。
ミックスアップベースの機能拡張モジュールは、豊富な情報を集約して、機能空間の多様性をさらに高める。
比較実験,アブレーション試験,深部分析,ケーススタディの4つのデータセットを用いて実験を行った。
その結果,FedCTは局所的・グローバル的な視点から知識を忘れることが軽減され,最先端の手法よりも優れた結果が得られた。
Federated learning benefits from cross-training strategies, which enables models to train on data from distinct sources to improve the generalization capability. However, the data heterogeneity between sources may lead models to gradually forget previously acquired knowledge when undergoing cross-training to adapt to new tasks or data sources. We argue that integrating personalized and global knowledge to gather information from multiple perspectives could potentially improve performance. To achieve this goal, this paper presents a novel approach that enhances federated learning through a cross-training scheme incorporating multi-view information. Specifically, the proposed method, termed FedCT, includes three main modules, where the consistency-aware knowledge broadcasting module aims to optimize model assignment strategies, which enhances collaborative advantages between clients and achieves an efficient federated learning process. The multi-view knowledge-guided representation learning module leverages fused prototypical knowledge from both global and local views to enhance the preservation of local knowledge before and after model exchange, as well as to ensure consistency between local and global knowledge. The mixup-based feature augmentation module aggregates rich information to further increase the diversity of feature spaces, which enables the model to better discriminate complex samples. Extensive experiments were conducted on four datasets in terms of performance comparison, ablation study, in-depth analysis and case study. The results demonstrated that FedCT alleviates knowledge forgetting from both local and global views, which enables it outperform state-of-the-art methods. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# スコア校正による閾値非依存フェアマッチング
Threshold-Independent Fair Matching through Score Calibration ( http://arxiv.org/abs/2405.20051v1 ) ライセンス: Link先を確認 | Mohammad Hossein Moslemi, Mostafa Milani, | (参考訳) エンティティマッチング(EM)は、医療、金融、行政など多くの分野において重要なタスクであり、異なるデータベース内または異なるデータベース間で同じエンティティを参照するレコードを識別する。
EMは、特に偽陽性と陰性で、かなりの課題に直面している。
これらは典型的には、一致するスコアを生成し、様々な文脈で偽陽性と負のバランスをとる閾値を適用することで対処される。
しかし、これらの閾値を調整することは結果の公平性に影響を与える可能性がある。
フェアEMに関する既存の研究機関は静的しきい値に集中し、フェアネスに重大な影響を無視する傾向にある。
そこで本稿では, スコアベースバイナリ分類におけるバイアス評価の手法として, 特に分布パリティのレンズを用いたEMの新しい手法を提案する。
このアプローチは、しきい値の設定に依存することなく、等化オッズ、等化オッズ、人口比率などの様々なバイアスメトリクスの適用を可能にする。
先行マッチング手法による実験により,潜在的なバイアスが明らかとなり,Wasserstein Barycentersを用いたEMスコアのキャリブレーション手法の適用により,これらのバイアスを緩和するだけでなく,実世界のデータセットの精度も維持する。
本稿では,データクリーニングにおける公平性の分野,特にデータクリーニングにおける中心的な課題であるEM内での公平性に寄与する。
Entity Matching (EM) is a critical task in numerous fields, such as healthcare, finance, and public administration, as it identifies records that refer to the same entity within or across different databases. EM faces considerable challenges, particularly with false positives and negatives. These are typically addressed by generating matching scores and apply thresholds to balance false positives and negatives in various contexts. However, adjusting these thresholds can affect the fairness of the outcomes, a critical factor that remains largely overlooked in current fair EM research. The existing body of research on fair EM tends to concentrate on static thresholds, neglecting their critical impact on fairness. To address this, we introduce a new approach in EM using recent metrics for evaluating biases in score based binary classification, particularly through the lens of distributional parity. This approach enables the application of various bias metrics like equalized odds, equal opportunity, and demographic parity without depending on threshold settings. Our experiments with leading matching methods reveal potential biases, and by applying a calibration technique for EM scores using Wasserstein barycenters, we not only mitigate these biases but also preserve accuracy across real world datasets. This paper contributes to the field of fairness in data cleaning, especially within EM, which is a central task in data cleaning, by promoting a method for generating matching scores that reduce biases across different thresholds. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 次世代ハンドプロセシングのためのトラクタベースニューラルネットワークを用いたハードウェア効率の良いEMGデコーダ
A Hardware-Efficient EMG Decoder with an Attractor-based Neural Network for Next-Generation Hand Prostheses ( http://arxiv.org/abs/2405.20052v1 ) ライセンス: Link先を確認 | Mohammad Kalbasi, MohammadAli Shaeri, Vincent Alexandre Mendez, Solaiman Shokur, Silvestro Micera, Mahsa Shoaran, | (参考訳) 神経工学の進歩は、手機能の回復を目的としたロボット義肢(RPH)の開発を可能にした。
現在の商用RPHは、基本的なオン/オフコマンドによる限定的な制御を提供する。
機械学習の最近の進歩は、より高い自由度で指の動きの復号化を可能にするが、そのようなモデルの高い計算複雑性は、携帯機器におけるその応用を制限している。
将来のRPH設計では、障害のある人には移植性、消費電力の低さ、復号精度の両立を図らなければならない。
そこで本研究では,次世代携帯型RPHのオンチップ動作復号化を実現するために,新たなアトラクタベースニューラルネットワークを提案する。
提案アーキテクチャは、エンコーダ、アテンション層、アトラクタネットワーク、精細化レグレシタからなる。
健常者4名を対象に実験を行い, 復号精度80.6\pm3.3\%を実現した。
提案手法は,最先端のLSTMモデルとCNNモデルと比較して120倍,50倍の圧縮性を有し,復号精度は同等(あるいは優れている)。
したがって、最小限のハードウェアの複雑さを示し、System-on-Chipとして効果的に統合できる。
Advancements in neural engineering have enabled the development of Robotic Prosthetic Hands (RPHs) aimed at restoring hand functionality. Current commercial RPHs offer limited control through basic on/off commands. Recent progresses in machine learning enable finger movement decoding with higher degrees of freedom, yet the high computational complexity of such models limits their application in portable devices. Future RPH designs must balance portability, low power consumption, and high decoding accuracy to be practical for individuals with disabilities. To this end, we introduce a novel attractor-based neural network to realize on-chip movement decoding for next-generation portable RPHs. The proposed architecture comprises an encoder, an attention layer, an attractor network, and a refinement regressor. We tested our model on four healthy subjects and achieved a decoding accuracy of 80.6\pm3.3\%. Our proposed model is over 120 and 50 times more compact compared to state-of-the-art LSTM and CNN models, respectively, with comparable (or superior) decoding accuracy. Therefore, it exhibits minimal hardware complexity and can be effectively integrated as a System-on-Chip. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 嘘をつくか? 直接選好ヘッドを用いた言語モデルの推論時間アライメント
Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads ( http://arxiv.org/abs/2405.20053v1 ) ライセンス: Link先を確認 | Avelina Asada Hadji-Kyriacou, Ognjen Arandjelovic, | (参考訳) 事前訓練された言語モデル(LM)は、強いゼロショットと文脈内学習能力を示すが、それらの振る舞いは制御が難しいことが多い。
Reinforcement Learning from Human Feedback (RLHF)を利用することで、教師なしのLMを微調整して指示に従い、人間の好みを反映した出力を生成することができる。
その利点にもかかわらず、RLHFは言語モデルの推論能力を傷つける可能性があり、モデルが事実を生成できる幻覚のようなアーティファクトを導入することが示されている。
この問題に対処するために、言語モデリングヘッドの出力分布に直接影響を与えずに、LMが補助報酬ヘッドを介して人間の嗜好信号を学習できる微調整フレームワークであるDirect Preference Heads (DPH)を紹介した。
目的関数の理論的解析を行い、保守的直接選好最適化(cDPO)との強い結びつきを見出す。
最後に, GLUE, RACE, そして GPT4All 評価スイート上で評価を行い, スーパービジョンファインチューニング (SFT) や直接優先度最適化 (DPO) のみを用いたモデルよりも高いスコアが得られることを示す。
Pre-trained Language Models (LMs) exhibit strong zero-shot and in-context learning capabilities; however, their behaviors are often difficult to control. By utilizing Reinforcement Learning from Human Feedback (RLHF), it is possible to fine-tune unsupervised LMs to follow instructions and produce outputs that reflect human preferences. Despite its benefits, RLHF has been shown to potentially harm a language model's reasoning capabilities and introduce artifacts such as hallucinations where the model may fabricate facts. To address this issue we introduce Direct Preference Heads (DPH), a fine-tuning framework that enables LMs to learn human preference signals through an auxiliary reward head without directly affecting the output distribution of the language modeling head. We perform a theoretical analysis of our objective function and find strong ties to Conservative Direct Preference Optimization (cDPO). Finally we evaluate our models on GLUE, RACE, and the GPT4All evaluation suite and demonstrate that our method produces models which achieve higher scores than those fine-tuned with Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO) alone. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 植物病検出の強化:テンソルサブスペース学習とHOWSVD-MDを用いたCNNに基づく新しいアプローチ
Enhancing Plant Disease Detection: A Novel CNN-Based Approach with Tensor Subspace Learning and HOWSVD-MD ( http://arxiv.org/abs/2405.20058v1 ) ライセンス: Link先を確認 | Abdelmalik Ouamane, Ammar Chouchane, Yassine Himeur, Abderrazak Debilou, Abbes Amira, Shadi Atalla, Wathiq Mansoor, Hussain Al Ahmad, | (参考訳) 機械学習は農業科学の分野、特に作物の健康と生産性を維持する上で重要な植物病の早期発見と管理に革命をもたらした。
先進的なアルゴリズムと画像技術を活用して、研究者は前例のない精度とスピードで植物病を識別し分類できるようになった。
トマト病の効果的な管理は農業生産性の向上に不可欠である。
トマト病の分類法の開発と応用はこの目的の中心である。
本稿では,最新の学習済み畳み込みニューラルネットワーク(CNN)モデルから得られた知見を利用して,トマト葉病の検出と分類のための最先端手法を提案する。
本稿では,高次白色特異値分解(HOWSVD)と呼ばれるテンソル部分空間学習の領域内での高度なアプローチを提案する。
テンソル部分空間学習への我々のアプローチは、HOWSVDから始まり、MDA(Multiplelinear Discriminant Analysis)で終わる2つのフェーズで体系的に実行される。
このイノベーティブな手法の有効性は、2つの異なるデータセット、すなわちPlanetVillageと台湾のデータセットの総合的な実験を通じて厳密に検証された。
その結果, HOWSVD-MDAは既存の方法よりも優れており, トマト葉病の診断精度と信頼性を著しく向上させる可能性が示唆された。
例えば、プラントヴィラージュと台湾のデータセットでは、98.36\%と89.39\%の精度スコアがそれぞれ達成されている。
Machine learning has revolutionized the field of agricultural science, particularly in the early detection and management of plant diseases, which are crucial for maintaining crop health and productivity. Leveraging advanced algorithms and imaging technologies, researchers are now able to identify and classify plant diseases with unprecedented accuracy and speed. Effective management of tomato diseases is crucial for enhancing agricultural productivity. The development and application of tomato disease classification methods are central to this objective. This paper introduces a cutting-edge technique for the detection and classification of tomato leaf diseases, utilizing insights from the latest pre-trained Convolutional Neural Network (CNN) models. We propose a sophisticated approach within the domain of tensor subspace learning, known as Higher-Order Whitened Singular Value Decomposition (HOWSVD), designed to boost the discriminatory power of the system. Our approach to Tensor Subspace Learning is methodically executed in two phases, beginning with HOWSVD and culminating in Multilinear Discriminant Analysis (MDA). The efficacy of this innovative method was rigorously tested through comprehensive experiments on two distinct datasets, namely PlantVillage and the Taiwan dataset. The findings reveal that HOWSVD-MDA outperforms existing methods, underscoring its capability to markedly enhance the precision and dependability of diagnosing tomato leaf diseases. For instance, up to 98.36\% and 89.39\% accuracy scores have been achieved under PlantVillage and the Taiwan datasets, respectively. | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# 歌声のスペクトルマッピング:U-Net-Assisted Vocal Segmentation
Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation ( http://arxiv.org/abs/2405.20059v1 ) ライセンス: Link先を確認 | Adam Sorrenti, | (参考訳) 音楽トラックからボーカル要素を分離することは、音声信号処理における長年の課題である。
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、音楽分離のためのMUSDB18データセットを用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
その後,UNetニューラルネットワークを用いてスペクトル画像の分割を行い,歌唱音声成分を正確に抽出する。
U-Netモデルを用いて音源分離を行った。
Min/Maxスケーリングによる周波数軸正規化と平均絶対誤差(MAE)損失関数の組み合わせは、7.1dBのソース・歪み比(SDR)を達成した。
また、SIR(Source-to-Interference Ratio)とSAR(Source-to-Artifact Ratio)のスコアはそれぞれ25.2dBと7.2dBを記録した。
これらの値は、特にQuantileベースの正規化やMean Squared Error(MSE)損失関数を使った場合、他の構成よりも大幅に優れていた。
ソースコード、モデルウェイト、デモ資料はプロジェクトのGitHubリポジトリにある。
Separating vocal elements from musical tracks is a longstanding challenge in audio signal processing. This study tackles the distinct separation of vocal components from musical spectrograms. We employ the Short Time Fourier Transform (STFT) to extract audio waves into detailed frequency-time spectrograms, utilizing the benchmark MUSDB18 dataset for music separation. Subsequently, we implement a UNet neural network to segment the spectrogram image, aiming to delineate and extract singing voice components accurately. We achieved noteworthy results in audio source separation using of our U-Net-based models. The combination of frequency-axis normalization with Min/Max scaling and the Mean Absolute Error (MAE) loss function achieved the highest Source-to-Distortion Ratio (SDR) of 7.1 dB, indicating a high level of accuracy in preserving the quality of the original signal during separation. This setup also recorded impressive Source-to-Interference Ratio (SIR) and Source-to-Artifact Ratio (SAR) scores of 25.2 dB and 7.2 dB, respectively. These values significantly outperformed other configurations, particularly those using Quantile-based normalization or a Mean Squared Error (MSE) loss function. Our source code, model weights, and demo material can be found at the project's GitHub repository: https://github.com/mbrotos/SoundSeg | 翻訳日:2024-05-31 14:18:37 公開日:2024-05-30 |
# トレーニングデータのバランスをとることで、顔の毛髪型による精度バイアスを低減できるのか?
Can the accuracy bias by facial hairstyle be reduced through balancing the training data? ( http://arxiv.org/abs/2405.20062v1 ) ライセンス: Link先を確認 | Kagan Ozturk, Haiyu Wu, Kevin W. Bowyer, | (参考訳) 顔の外観は、あごひげや口ひげを生やすことで大きく変化させることができる。
一対の画像の顔のヘアスタイルは、インポスタ分布と真の分布に顕著な変化をもたらす可能性がある。
また、人口統計学的に異なる顔の毛髪スタイルの分布は、人口統計学的に相対的精度の誤った印象を引き起こす可能性がある。
トレーニングセットが大きくなると、すべての顔の毛髪の認識精度が向上するが、トレーニングセットのサイズに関わらず、顔の毛髪の毛髪が引き起こされる精度の変動が持続することを示す。
次に, 顔の髪型を表す訓練データの異なる分画が与える影響を分析した。
We created balanced training set using a set of identities in Webface42M which are a clean-shaven and face hair images。
顔認証モデルがバランスの取れたきれいな髪型/顔の毛髪トレーニングセットで訓練されたとしても、テストデータの精度の変動は減少しない。
次に、顔のランドマークポイントと顔のヘアセグメンテーションモデルを用いて、顔のヘアピクセルを操作することにより、トレーニングデータにおける顔の毛髪分布の影響をさらに調査する。
以上の結果から, 顔の毛髪は, クリーニングヘア画像と顔の毛髪画像の精度のギャップを生じさせ, この影響はアフリカ系アメリカ人とコーカサス人の間で大きく異なる可能性が示唆された。
Appearance of a face can be greatly altered by growing a beard and mustache. The facial hairstyles in a pair of images can cause marked changes to the impostor distribution and the genuine distribution. Also, different distributions of facial hairstyle across demographics could cause a false impression of relative accuracy across demographics. We first show that, even though larger training sets boost the recognition accuracy on all facial hairstyles, accuracy variations caused by facial hairstyles persist regardless of the size of the training set. Then, we analyze the impact of having different fractions of the training data represent facial hairstyles. We created balanced training sets using a set of identities available in Webface42M that both have clean-shaven and facial hair images. We find that, even when a face recognition model is trained with a balanced clean-shaven / facial hair training set, accuracy variation on the test data does not diminish. Next, data augmentation is employed to further investigate the effect of facial hair distribution in training data by manipulating facial hair pixels with the help of facial landmark points and a facial hair segmentation model. Our results show facial hair causes an accuracy gap between clean-shaven and facial hair images, and this impact can be significantly different between African-Americans and Caucasians. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 高次元関数の整合のためのN次元ガウス多様体
N-Dimensional Gaussians for Fitting of High Dimensional Functions ( http://arxiv.org/abs/2405.20067v1 ) ライセンス: Link先を確認 | Stavros Diolatzis, Tobias Zirr, Alexandr Kuznetsov, Georgios Kopanas, Anton Kaplanyan, | (参考訳) 高品質な3Dコンテンツを再構成し、表現するためのMLに触発された新しいアプローチが数多く導入され、近年のハイブリッドおよび明示的な表現は、有望な性能と品質特性を示す。
しかし、それらの高次元へのスケーリングは、例えば、材料特性、照明、時間といった追加のパラメータに関して動的コンテンツを説明する場合など、困難である。
本稿では,ガウス混合モデルに基づく明示的な表現のために,これらの課題に取り組む。
我々は, コンパクトなN-次元ガウス混合体を効率よく適合させ, レンダリング時の効率的な評価を可能にした: 高速なフィッティングと評価のために, 局所性感性ハッシュに着想を得たN-Dガウスを効率的に結合する高次元カリングスキームを導入する。
適応的洗練とコンパクト化を両立させるため,損失適応密度制御方式を導入し,余分な詳細に向けて追加容量の使用を漸進的に誘導する。
これらのツールを使えば、数分で最適化されミリ秒でレンダリングされるコンパクトで明示的な表現の中で、位置や視角を超えた多くの入力次元に依存する複雑な外観を初めて表現できる。
In the wake of many new ML-inspired approaches for reconstructing and representing high-quality 3D content, recent hybrid and explicitly learned representations exhibit promising performance and quality characteristics. However, their scaling to higher dimensions is challenging, e.g. when accounting for dynamic content with respect to additional parameters such as material properties, illumination, or time. In this paper, we tackle these challenges for an explicit representations based on Gaussian mixture models. With our solutions, we arrive at efficient fitting of compact N-dimensional Gaussian mixtures and enable efficient evaluation at render time: For fast fitting and evaluation, we introduce a high-dimensional culling scheme that efficiently bounds N-D Gaussians, inspired by Locality Sensitive Hashing. For adaptive refinement yet compact representation, we introduce a loss-adaptive density control scheme that incrementally guides the use of additional capacity towards missing details. With these tools we can for the first time represent complex appearance that depends on many input dimensions beyond position or viewing angle within a compact, explicit representation optimized in minutes and rendered in milliseconds. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 機械学習と不確かさ定量化による股関節骨折のリスク予測
A Staged Approach using Machine Learning and Uncertainty Quantification to Predict the Risk of Hip Fracture ( http://arxiv.org/abs/2405.20071v1 ) ライセンス: Link先を確認 | Anjum Shaik, Kristoffer Larsen, Nancy E. Lane, Chen Zhao, Kuan-Jui Su, Joyce H. Keyak, Qing Tian, Qiuying Sha, Hui Shen, Hong-Wen Deng, Weihua Zhou, | (参考訳) 医療の進歩にもかかわらず、股関節骨折は個人や医療システムに重大な負担を課している。
本研究は, 転倒・骨質の低下が主な要因である高齢者および中高年者における股関節骨折リスクの予測に焦点をあてる。
本稿では,高度な画像と臨床データを組み合わせて予測性能を向上させる新しいステージドモデルを提案する。
CNNを用いて股関節DXA画像の特徴と臨床変数,形状計測,テクスチャ特徴を抽出することにより,骨折のリスクを評価するための総合的な枠組みを提供する。
2つのアンサンブルモデル: Ensemble 1 (クリニカル変数のみ) と Ensemble 2 (クリニカル変数とDXAイメージング機能) である。
この段階的なアプローチは、さらなる予測にDXAの特徴が必要であるかどうかを決定するために、Ensemble 1からの不確実性定量化を使用した。
アンサンブル2は最高性能を示し、AUCは0.9541、精度は0.9195、感度は0.8078、特異度は0.9427であった。
また、AUC 0.8486、精度 0.8611、感度 0.5578、特異性 0.9249、AUC 0.5549、精度 0.7239、感度 0.1956、特異性 0.8343 も良好に動作した。
さらに、ステージドモデルでは、54.49%の患者がDXAスキャンを必要としていないことが示唆された。
DXAデータ取得が常に可能とは限らない場合に、堅牢なソリューションを提供する。
統計的テストにより、モデル間で大きな違いが確認され、高度なモデリング戦略の利点が強調された。
我々の段階的なアプローチは、高い精度で個人を特定できるが、不要なDXAスキャンを減らすことができる。
費用と放射線を減らして股関節骨折を予防するための介入を導くことは、非常に有望である。
Despite advancements in medical care, hip fractures impose a significant burden on individuals and healthcare systems. This paper focuses on the prediction of hip fracture risk in older and middle-aged adults, where falls and compromised bone quality are predominant factors. We propose a novel staged model that combines advanced imaging and clinical data to improve predictive performance. By using CNNs to extract features from hip DXA images, along with clinical variables, shape measurements, and texture features, our method provides a comprehensive framework for assessing fracture risk. A staged machine learning-based model was developed using two ensemble models: Ensemble 1 (clinical variables only) and Ensemble 2 (clinical variables and DXA imaging features). This staged approach used uncertainty quantification from Ensemble 1 to decide if DXA features are necessary for further prediction. Ensemble 2 exhibited the highest performance, achieving an AUC of 0.9541, an accuracy of 0.9195, a sensitivity of 0.8078, and a specificity of 0.9427. The staged model also performed well, with an AUC of 0.8486, an accuracy of 0.8611, a sensitivity of 0.5578, and a specificity of 0.9249, outperforming Ensemble 1, which had an AUC of 0.5549, an accuracy of 0.7239, a sensitivity of 0.1956, and a specificity of 0.8343. Furthermore, the staged model suggested that 54.49% of patients did not require DXA scanning. It effectively balanced accuracy and specificity, offering a robust solution when DXA data acquisition is not always feasible. Statistical tests confirmed significant differences between the models, highlighting the advantages of the advanced modeling strategies. Our staged approach could identify individuals at risk with a high accuracy but reduce the unnecessary DXA scanning. It has great promise to guide interventions to prevent hip fractures with reduced cost and radiation. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 心の顔:11,427人の青年期における顔表情による精神状態の回復
Faces of the Mind: Unveiling Mental Health States Through Facial Expressions in 11,427 Adolescents ( http://arxiv.org/abs/2405.20072v1 ) ライセンス: Link先を確認 | Xiao Xu, Keyin Zhou, Yan Zhang, Yang Wang, Fei Wang, Xizhe Zhang, | (参考訳) うつ病や不安などの気分障害は、しばしば表情を通して現れる。
これまでの研究では、顔の特徴と感情の関連性を検討したが、気分障害の重症度を推定する機械学習アルゴリズムは、小さなデータセットと限られた現実世界のアプリケーションによって妨げられている。
このギャップに対処するため,11,427人の参加者の顔映像を分析した。
この包括的なコレクションには、読解タスクからの標準化された表情ビデオと、うつ病、不安、ストレスを測定する詳細な心理的尺度が含まれている。
これらの感情状態間の関係を調べ、クラスタリング分析を用いて、異なる感情プロファイルを具現化した異なるサブグループを特定した。
次に、顔の特徴から感情状態を推定するために、木に基づく分類器とディープラーニングモデルを訓練した。
結果から,従来は小規模なデータセットに有効であったモデルでは,大規模なデータセットに適用した場合のパフォーマンスが低下し,データスケールの重要性が強調され,現実的な設定における過度な適合が軽減されたことが示唆された。
特に, 気分障害の潜在的な指標として, 瞳運動や視線方向の微妙な変化が認められ, 表情と精神健康の相互作用について貴重な情報を提供することができた。
この研究は、メンタルヘルスの文脈における表情の大規模かつ包括的な研究であり、この分野における将来的なデータ駆動の進歩の基盤となっている。
Mood disorders, including depression and anxiety, often manifest through facial expressions. While previous research has explored the connection between facial features and emotions, machine learning algorithms for estimating mood disorder severity have been hindered by small datasets and limited real-world application. To address this gap, we analyzed facial videos of 11,427 participants, a dataset two orders of magnitude larger than previous studies. This comprehensive collection includes standardized facial expression videos from reading tasks, along with a detailed psychological scale that measures depression, anxiety, and stress. By examining the relationships among these emotional states and employing clustering analysis, we identified distinct subgroups embodying different emotional profiles. We then trained tree-based classifiers and deep learning models to estimate emotional states from facial features. Results indicate that models previously effective on small datasets experienced decreased performance when applied to our large dataset, highlighting the importance of data scale and mitigating overfitting in practical settings. Notably, our study identified subtle shifts in pupil dynamics and gaze orientation as potential markers of mood disorders, providing valuable information on the interaction between facial expressions and mental health. This research marks the first large-scale and comprehensive investigation of facial expressions in the context of mental health, laying the groundwork for future data-driven advancements in this field. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 学生の回答予測:言語学習におけるトランスフォーマー駆動の回答選択予測
Student Answer Forecasting: Transformer-Driven Answer Choice Prediction for Language Learning ( http://arxiv.org/abs/2405.20079v1 ) ライセンス: Link先を確認 | Elena Grazia Gado, Tommaso Martorella, Luca Zunino, Paola Mejia-Domenzain, Vinitra Swamy, Jibril Frej, Tanja Käser, | (参考訳) Intelligent Tutoring Systems (ITS)は、生徒の回答を予測してパーソナライズされた学習を強化し、即時かつカスタマイズされた指導を提供する。
しかし、近年の研究は、学生の特定の回答選択に対するパフォーマンスよりも、学生の思考過程や潜在的な誤解に対する洞察を制限することに焦点を当てている。
このギャップに対処するために,大規模言語モデル(LLM)の機能を活用し,質問や回答のテキストとともに,学生の回答履歴の文脈的理解を統合する解答予測モデルMCQStudentBertを提案する。
学生が行うであろう特定の解答選択を予測することで、実践者はモデルを新しい解答選択に容易に拡張したり、モデルを再訓練することなく、同じ多重選択質問(MCQ)に対する解答選択を除去することができる。
特に,MLP,LSTM,BERT,Mistral 7Bアーキテクチャを比較し,過去のインタラクションから埋め込みを生成する。
我々は,1万人以上の学生を擁するITSから収集した言語学習MCQのデータセットにパイプラインを適用し,学生のインタラクションパターンを取り入れたMCQStudentBertの予測精度を,正解予測と従来の熟達学習機能に基づくアプローチと比較した。
この作業は、よりパーソナライズされたコンテンツ、モジュール化、そして粒度の細かいサポートへの扉を開く。
Intelligent Tutoring Systems (ITS) enhance personalized learning by predicting student answers to provide immediate and customized instruction. However, recent research has primarily focused on the correctness of the answer rather than the student's performance on specific answer choices, limiting insights into students' thought processes and potential misconceptions. To address this gap, we present MCQStudentBert, an answer forecasting model that leverages the capabilities of Large Language Models (LLMs) to integrate contextual understanding of students' answering history along with the text of the questions and answers. By predicting the specific answer choices students are likely to make, practitioners can easily extend the model to new answer choices or remove answer choices for the same multiple-choice question (MCQ) without retraining the model. In particular, we compare MLP, LSTM, BERT, and Mistral 7B architectures to generate embeddings from students' past interactions, which are then incorporated into a finetuned BERT's answer-forecasting mechanism. We apply our pipeline to a dataset of language learning MCQ, gathered from an ITS with over 10,000 students to explore the predictive accuracy of MCQStudentBert, which incorporates student interaction patterns, in comparison to correct answer prediction and traditional mastery-learning feature-based approaches. This work opens the door to more personalized content, modularization, and granular support. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 高次不整合性は因果量子ネットワークの識別性を改善する
Higher-order incompatibility improves distinguishability of causal quantum networks ( http://arxiv.org/abs/2405.20080v1 ) ライセンス: Link先を確認 | Nidhin Sudarsanan Ragini, Sk Sazim, | (参考訳) 量子テスタ(quantum testers)として知られる非互換な「高階量子論的テスト手順」は、それと互換性のある量子ネットワークよりも、因果量子ネットワークの区別が優れていることを示す。
そこで本研究では、受信機が量子コムを実装したブラックボックスを取得するタスクに基づいて、特定の2要素の量子コム識別(QCD)ゲームについて検討し、先行情報に基づいて実装するコームの判定を試みる。
互換性のないテスタに独占的にアクセスできる場合には,レシーバがゲームに勝つのがよいことを示す。
我々の研究は、POVMの不整合性は量子状態の微分可能性におけるリソースである、という以前の発見を一般化している。
また、テスタの任意の量子リソースは、リソース測度 {\em convex weight} を用いたコム排除タスクに有用であることを示す。
We show that incompatible ``higher-order quantum theoretic testing procedures", known as quantum testers, perform better in distinguishing causal quantum networks than its compatible counterparts. To demonstrate our finding, we consider a specific two-party quantum comb discrimination (QCD) game based on the task in which a receiver gets a black-box that implements a quantum comb and they attempt to determine which comb it implements based on prior information. We show that the receiver does better at winning the game when they have exclusive access to incompatible testers over compatible ones. Our investigation generalises the earlier finding that the incompatibility of POVMs is a {\em bona fide} resource in quantum state distinguishability. We also show that any quantum resource in testers is useful in comb exclusion tasks using the resource measure, {\em convex weight}. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# ノイズブースト:マルチモーダル大言語モデルに対する雑音摂動による幻覚の緩和
NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models ( http://arxiv.org/abs/2405.20081v1 ) ライセンス: Link先を確認 | Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang, | (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、大規模言語モデルに基づく視覚情報構築の強力なメカニズムに寄与する。
しかし、MLLMは幻覚に苦しむことで悪名高い。
分析の結果,幻覚は大きな言語モデル固有の要約機構に起因し,視覚情報を無視しながら言語トークンへの過度な依存につながることが明らかとなった。
本稿では,雑音特徴摂動の統合によりMLLMの幻覚を緩和する,広義かつ簡易な手法であるNossBoostを提案する。
ノイズ摂動は正規化器として機能し、視覚的および言語的トークン間の注意重みのバランスの取れた分布を促進する。
シンプルさにもかかわらず、NossBoostは教師付き微調整や強化学習を含む一般的なトレーニング戦略にわたってMLLMのパフォーマンスを継続的に向上させる。
さらに、NossBoostはMLLMの半教師付き学習を先駆的に可能にし、ラベルなしデータのパワーを解放する。
総合的な実験により、NossBoostは人間の評価によって密度の精度を8.1%向上し、ラベルのないデータをマイニングすることで、データの50%と同等の結果が得られることが示された。
コードとモデルはhttps://kaiwu5.github.io/noiseboost.comで入手できる。
Multimodal large language models (MLLMs) contribute a powerful mechanism to understanding visual information building on large language models. However, MLLMs are notorious for suffering from hallucinations, especially when generating lengthy, detailed descriptions for images. Our analysis reveals that hallucinations stem from the inherent summarization mechanism of large language models, leading to excessive dependence on linguistic tokens while neglecting vision information. In this paper, we propose NoiseBoost, a broadly applicable and simple method for alleviating hallucinations for MLLMs through the integration of noise feature perturbations. Noise perturbation acts as a regularizer, facilitating a balanced distribution of attention weights among visual and linguistic tokens. Despite its simplicity, NoiseBoost consistently enhances the performance of MLLMs across common training strategies, including supervised fine-tuning and reinforcement learning. Further, NoiseBoost pioneerly enables semi-supervised learning for MLLMs, unleashing the power of unlabeled data. Comprehensive experiments demonstrate that NoiseBoost improves dense caption accuracy by 8.1% with human evaluation and achieves comparable results with 50% of the data by mining unlabeled data. Code and models are available at https://kaiwu5.github.io/noiseboost. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# Segment, Shuffle, Stitch: 時系列表現を改善するためのシンプルなメカニズム
Segment, Shuffle, and Stitch: A Simple Mechanism for Improving Time-Series Representations ( http://arxiv.org/abs/2405.20082v1 ) ライセンス: Link先を確認 | Shivam Grover, Amin Jalali, Ali Etemad, | (参考訳) 時系列の表現を学習するための既存のアプローチでは、時間ステップの時間的配置は、元の順序が学習に最適なことを前提に、そのまま維持される。
しかし、現実の時系列の非隣接セクションには強い依存があるかもしれない。
したがって、我々は、より効果的な表現学習を可能にする、時系列の代替的なアレンジメントがあるだろうか?
そこで我々は,既存のモデルの時系列表現学習を改善するために,Segment, Shuffle, Stitch (S3) と呼ばれるシンプルなプラグアンドプレイ機構を提案する。
S3は、元のシーケンスから重複しないセグメントを生成し、それらを学習方法でシャッフルすることで、そのタスクに最も最適である。
その後、シャッフルされたセグメントを再びアタッチメントし、元の入力と学習された重み付けの和を実行し、新しくシャッフルされたシーケンスと元のシーケンスの両方をキャプチャする。
S3はモジュール化されており、さまざまな粒度を作るために積み重ねることができる。CNNやTransformerなど、計算オーバーヘッドが無視できるさまざまなタイプのニューラルアーキテクチャに追加することができる。
いくつかのデータセットと最先端のベースラインに関する広範な実験を通して、S3を組み込むことで、時系列分類と予測のタスクが大幅に改善され、特定のデータセットのパフォーマンスが最大68%向上することを示した。
また,S3では,学習のスムーズなトレーニング損失曲線と損失景観を元のベースラインと比較し,学習を安定させることを示した。
コードはhttps://github.com/shivam-grover/S3-TimeSeriesで入手できる。
Existing approaches for learning representations of time-series keep the temporal arrangement of the time-steps intact with the presumption that the original order is the most optimal for learning. However, non-adjacent sections of real-world time-series may have strong dependencies. Accordingly we raise the question: Is there an alternative arrangement for time-series which could enable more effective representation learning? To address this, we propose a simple plug-and-play mechanism called Segment, Shuffle, and Stitch (S3) designed to improve time-series representation learning of existing models. S3 works by creating non-overlapping segments from the original sequence and shuffling them in a learned manner that is the most optimal for the task at hand. It then re-attaches the shuffled segments back together and performs a learned weighted sum with the original input to capture both the newly shuffled sequence along with the original sequence. S3 is modular and can be stacked to create various degrees of granularity, and can be added to many forms of neural architectures including CNNs or Transformers with negligible computation overhead. Through extensive experiments on several datasets and state-of-the-art baselines, we show that incorporating S3 results in significant improvements for the tasks of time-series classification and forecasting, improving performance on certain datasets by up to 68\%. We also show that S3 makes the learning more stable with a smoother training loss curve and loss landscape compared to the original baseline. The code is available at https://github.com/shivam-grover/S3-TimeSeries . | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# データセット全体における人間の可能性の推定:統一された骨格とマルチ教師蒸留アプローチ
Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach ( http://arxiv.org/abs/2405.20084v1 ) ライセンス: Link先を確認 | Muhammad Saif Ullah Khan, Dhavalkumar Limbachiya, Didier Stricker, Muhammad Zeshan Afzal, | (参考訳) 人間のポーズ推定は、行動認識や対話システムといった様々な用途でコンピュータビジョンにおいて重要なタスクである。
しかしながら、さまざまなデータセットにまたがる注釈付きスケルトンにおける一貫性の欠如は、普遍的に適用可能なモデルを開発する上での課題となっている。
この課題に対処するために,多教師による知識蒸留と骨格の統一的表現を融合した新しい手法を提案する。
私たちのネットワークは、それぞれ17と16のキーポイントを含むCOCOとMPIIデータセットで共同でトレーニングされています。
我々は,21のキーポイント,4(COCO)および5(MPII)の拡張セットをオリジナルアノテーションよりも予測することで適応性を向上し,データセット間の一般化を改善した。
我々のジョイントモデルの平均精度は70.89と76.40で、1つのデータセットでトレーニングし、両方で評価すると53.79と55.78だった。
さらに、Halpeデータセット上でのAPの66.84と72.75を報告することにより、21の予測点を2つのモデルで評価する。
このことは、推定研究と応用における最も急進的な課題の1つ、骨格アノテーションの不整合に対処する我々の技術の可能性を強調します。
Human pose estimation is a key task in computer vision with various applications such as activity recognition and interactive systems. However, the lack of consistency in the annotated skeletons across different datasets poses challenges in developing universally applicable models. To address this challenge, we propose a novel approach integrating multi-teacher knowledge distillation with a unified skeleton representation. Our networks are jointly trained on the COCO and MPII datasets, containing 17 and 16 keypoints, respectively. We demonstrate enhanced adaptability by predicting an extended set of 21 keypoints, 4 (COCO) and 5 (MPII) more than original annotations, improving cross-dataset generalization. Our joint models achieved an average accuracy of 70.89 and 76.40, compared to 53.79 and 55.78 when trained on a single dataset and evaluated on both. Moreover, we also evaluate all 21 predicted points by our two models by reporting an AP of 66.84 and 72.75 on the Halpe dataset. This highlights the potential of our technique to address one of the most pressing challenges in pose estimation research and application - the inconsistency in skeletal annotations. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# セマンティックチャネル等化のための潜在空間のソフトパーティショニング
Soft Partitioning of Latent Space for Semantic Channel Equalization ( http://arxiv.org/abs/2405.20085v1 ) ライセンス: Link先を確認 | Tomás Huttebraucker, Mohamed Sana, Emilio Calvanese Strinati, | (参考訳) セマンティックチャネル等化は、マルチユーザセマンティックコミュニケーションにおける言語ミスマッチの解決法として登場した。
このアプローチは、共同で訓練されていないエンコーダとデコーダの潜在空間をアライメントすることを目的としており、セマンティックな意味に基づくセマンティック(ラテント)空間の原子への分割に依存している。
本研究では,タスク構造が意味空間と行動空間を1対1でマッピングするシナリオにおける意味空間分割の役割について検討する。
このようなシナリオでは、ハード推論に基づくパーティショニングは、等化性能を低下させる情報の損失をもたらす。
本稿では, ソフトデコーダの出力を利用して, セマンティック空間の構造をより包括的に理解する分割の原子を導出するソフトな基準を提案する。
実験的な検証により,ソフトパーティショニングにより空間のより記述的で規則的なパーティショニングが得られ,結果として等化アルゴリズムの性能が向上することを示した。
Semantic channel equalization has emerged as a solution to address language mismatch in multi-user semantic communications. This approach aims to align the latent spaces of an encoder and a decoder which were not jointly trained and it relies on a partition of the semantic (latent) space into atoms based on the the semantic meaning. In this work we explore the role of the semantic space partition in scenarios where the task structure involves a one-to-many mapping between the semantic space and the action space. In such scenarios, partitioning based on hard inference results results in loss of information which degrades the equalization performance. We propose a soft criterion to derive the atoms of the partition which leverages the soft decoder's output and offers a more comprehensive understanding of the semantic space's structure. Through empirical validation, we demonstrate that soft partitioning yields a more descriptive and regular partition of the space, consequently enhancing the performance of the equalization algorithm. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# マルチターゲット線形縮合共分散推定器の解析
Analysis of a multi-target linear shrinkage covariance estimator ( http://arxiv.org/abs/2405.20086v1 ) ライセンス: Link先を確認 | Benoit Oriol, | (参考訳) マルチターゲット線形収縮は、共分散推定のための標準単一ターゲット線形収縮の拡張である。
いくつかの定数行列(ターゲット)とサンプル共分散行列を結合する。
我々は、正確な経験的平均を持つオラクルとマルチターゲット線形収縮推定器を導出する。
どちらの設定でも、コルモゴロフ漸近論の下では、神託への収束が証明された。
最後に,様々な状況において,他の標準推定値よりも優れていることを示す。
Multi-target linear shrinkage is an extension of the standard single-target linear shrinkage for covariance estimation. We combine several constant matrices - the targets - with the sample covariance matrix. We derive the oracle and a \textit{bona fide} multi-target linear shrinkage estimator with exact and empirical mean. In both settings, we proved its convergence towards the oracle under Kolmogorov asymptotics. Finally, we show empirically that it outperforms other standard estimators in various situations. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 微調整パラドックス:LLM能力を犠牲にすることなく翻訳品質を高める
The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities ( http://arxiv.org/abs/2405.20089v1 ) ライセンス: Link先を確認 | David Stap, Eva Hasler, Bill Byrne, Christof Monz, Ke Tran, | (参考訳) 機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
しかし、ステアビリティ、本質的な文書レベルの翻訳能力、リテラルの少ない翻訳能力など、ニューラルネットワーク翻訳モデルに存在しない望ましいLCM動作に微調整が与える影響は明らかでない。
モデルサイズは70億から65億のパラメータまで様々である。
その結果, 微調整によりLLMの翻訳品質は向上するが, いくつかの能力は低下することがわかった。
特に、フォーマルなステアリングを行う能力の低下、少数例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
一方,並列データに微調整を施した後のリテラルの減少が観察された。
細調整データの一部として単言語データを含めることで,全体の翻訳品質を同時に向上しながら能力を維持することができることを示す。
本研究は,機械翻訳におけるLLMの利点を保った微調整戦略の必要性を強調した。
Fine-tuning large language models (LLMs) for machine translation has shown improvements in overall translation quality. However, it is unclear what is the impact of fine-tuning on desirable LLM behaviors that are not present in neural machine translation models, such as steerability, inherent document-level translation abilities, and the ability to produce less literal translations. We perform an extensive translation evaluation on the LLaMA and Falcon family of models with model size ranging from 7 billion up to 65 billion parameters. Our results show that while fine-tuning improves the general translation quality of LLMs, several abilities degrade. In particular, we observe a decline in the ability to perform formality steering, to produce technical translations through few-shot examples, and to perform document-level translation. On the other hand, we observe that the model produces less literal translations after fine-tuning on parallel data. We show that by including monolingual data as part of the fine-tuning data we can maintain the abilities while simultaneously enhancing overall translation quality. Our findings emphasize the need for fine-tuning strategies that preserve the benefits of LLMs for machine translation. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# タイポグラフィーはセマンティックな多様性を導く:マルチモーダルな大言語モデル間での逆転の可能性を増幅する
Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models ( http://arxiv.org/abs/2405.20090v1 ) ライセンス: Link先を確認 | Hao Cheng, Erjia Xiao, Jiahang Cao, Le Yang, Kaidi Xu, Jindong Gu, Renjing Xu, | (参考訳) 大規模モデルの人工知能(AI)時代が到来すると、視覚とテキスト間の相互モーダルな相互作用を理解する能力を持つマルチモーダル大言語モデル(MLLM)が注目されるようになった。
人間の知覚できない摂動の逆の例は、伝達可能性と呼ばれる特性を持っていることが示され、つまり、あるモデルによって生成された摂動は、別の異なるモデルも誤解させる可能性がある。
入力データの多様性を高めることは、敵の転送可能性を高めるための最も重要な方法の1つである。
この方法はブラックボックス条件下での脅威の影響を著しく拡大する方法として認定されている。
研究は、MLLMがホワイトボックスシナリオの逆例を生成するために利用されることも示している。
しかし、このような摂動の逆転性は非常に限られており、異なるモデルにまたがる効果的なブラックボックス攻撃を達成できなかった。
本稿では,(1)MLLMが意味レベルの情報を処理する傾向があること,(2)Typographic Attackは,MLLMが捉えた視覚情報を効果的に妨害することができること,にインスパイアされた,Typographic-based Semantic Transfer Attack (TSTA)を提案する。
有害な単語挿入と重要な情報保護のシナリオでは、TSTAは優れた性能を示します。
Following the advent of the Artificial Intelligence (AI) era of large models, Multimodal Large Language Models (MLLMs) with the ability to understand cross-modal interactions between vision and text have attracted wide attention. Adversarial examples with human-imperceptible perturbation are shown to possess a characteristic known as transferability, which means that a perturbation generated by one model could also mislead another different model. Augmenting the diversity in input data is one of the most significant methods for enhancing adversarial transferability. This method has been certified as a way to significantly enlarge the threat impact under black-box conditions. Research works also demonstrate that MLLMs can be exploited to generate adversarial examples in the white-box scenario. However, the adversarial transferability of such perturbations is quite limited, failing to achieve effective black-box attacks across different models. In this paper, we propose the Typographic-based Semantic Transfer Attack (TSTA), which is inspired by: (1) MLLMs tend to process semantic-level information; (2) Typographic Attack could effectively distract the visual information captured by MLLMs. In the scenarios of Harmful Word Insertion and Important Information Protection, our TSTA demonstrates superior performance. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# オンライン学習における視覚的注意分析
Visual Attention Analysis in Online Learning ( http://arxiv.org/abs/2405.20091v1 ) ライセンス: Link先を確認 | Navarro Miriam, Becerra Álvaro, Daza Roberto, Cobos Ruth, Morales Aythami, Fierrez Julian, | (参考訳) 本稿では,マルチモーダル学習分析分野におけるアプローチを提案する。
本手法では,オンライン授業における学習セッション中に収集した眼球運動データを可視化・解析するツールを開発した。
このツールはVAAD(Visual Attention Analysis Dashboardの頭字語)と名付けられた。
これらの眼球運動データは、アイトラッカーを用いて収集され、その後、解釈のために処理され、可視化される。
本ツールの目的は、可視化を容易にし、様々な学習者間での違いや学習パターンを識別できるようにすることにより、データの記述的分析を行うことである。
さらに、学習セッション中に学習者の活動を予測することができる予測モジュールを統合する。
その結果、VAADは記述的視点と予測的視点の両方から、オンライン学習行動に関する貴重な洞察を提供する可能性を秘めている。
In this paper, we present an approach in the Multimodal Learning Analytics field. Within this approach, we have developed a tool to visualize and analyze eye movement data collected during learning sessions in online courses. The tool is named VAAD (an acronym for Visual Attention Analysis Dashboard). These eye movement data have been gathered using an eye-tracker and subsequently processed and visualized for interpretation. The purpose of the tool is to conduct a descriptive analysis of the data by facilitating its visualization, enabling the identification of differences and learning patterns among various learner populations. Additionally, it integrates a predictive module capable of anticipating learner activities during a learning session. Consequently, VAAD holds the potential to offer valuable insights into online learning behaviors from both descriptive and predictive perspectives. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# Divide-and-Conquerがコンセンサスに - コード生成における関数のパワーの解放
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation ( http://arxiv.org/abs/2405.20092v1 ) ライセンス: Link先を確認 | Jingchang Chen, Hongxuan Tang, Zheng Chu, Qianglong Chen, Zekun Wang, Ming Liu, Bing Qin, | (参考訳) コード生成における大きな言語モデルによる最近の進歩にもかかわらず、複雑な要件を満たすプログラムに苦戦している。
最近の研究は、計画と解決の分解を利用して複雑さを減らし、自己テストを利用して生成されたプログラムを洗練している。
しかし、事前の奥深い要件の計画は困難であり、自己改善を達成するためにはテストが正確である必要がある。
そこで我々はFunCoderを提案する。FunCoderは関数型コンセンサスに分割・コンセンサスを組み込んだコード生成フレームワークである。
具体的には、FunCoderはコード生成時に小さな目標として、木階層で表現されたサブ関数を再帰的に分岐する。
これらの部分函数は、より複雑な目的を達成するために合成される。
さらに,プログラム動作の類似性を識別し,エラーの伝播を緩和するコンセンサスを用いて関数を指定する。
FunCoderは、HumanEval、MBPP、xCodeEval、MATHにおいて、GPT-3.5とGPT-4で、最先端のメソッドを平均で+9.8%上回る。
FunCoderでは、StableCode-3bはGPT-3.5を+18.6%超え、HumanEval上でのGPT-4のパフォーマンスの97.7%を達成した。
さらに解析した結果,提案する動的関数分解は複雑な要求を処理できることがわかった。
Despite recent progress made by large language models in code generation, they still struggle with programs that meet complex requirements. Recent work utilizes plan-and-solve decomposition to decrease the complexity and leverage self-tests to refine the generated program. Yet, planning deep-inside requirements in advance can be challenging, and the tests need to be accurate to accomplish self-improvement. To this end, we propose FunCoder, a code generation framework incorporating the divide-and-conquer strategy with functional consensus. Specifically, FunCoder recursively branches off sub-functions as smaller goals during code generation, represented by a tree hierarchy. These sub-functions are then composited to attain more complex objectives. Additionally, we designate functions via a consensus formed by identifying similarities in program behavior, mitigating error propagation. FunCoder outperforms state-of-the-art methods by +9.8% on average in HumanEval, MBPP, xCodeEval and MATH with GPT-3.5 and GPT-4. Moreover, our method demonstrates superiority on smaller models: With FunCoder, StableCode-3b surpasses GPT-3.5 by +18.6% and achieves 97.7% of GPT-4's performance on HumanEval. Further analysis reveals that our proposed dynamic function decomposition is capable of handling complex requirements, and the functional consensus prevails over self-testing in correctness evaluation. | 翻訳日:2024-05-31 14:08:52 公開日:2024-05-30 |
# 時間リモートセンシングデータを用いた自己監督学習による高速山火事ホットスポット検出
Rapid Wildfire Hotspot Detection Using Self-Supervised Learning on Temporal Remote Sensing Data ( http://arxiv.org/abs/2405.20093v1 ) ライセンス: Link先を確認 | Luca Barco, Angelica Urbanelli, Claudio Rossi, | (参考訳) 迅速な検出と適切な介入は、山火事の影響を軽減するために不可欠である。
衛星ネットワークや高度なAIモデルからリモートセンシングされたデータを活用して、ホットスポット(アクティブファイアによる熱異常)を自動的に検出することは、山火事モニタリングシステムを構築する効果的な方法である。
本研究では,欧州の火災イベントに関連するリモートセンシングデータの時系列を含む新しいデータセットと,多時期データを解析し,潜在的にリアルタイムにホットスポットを識別できる自己監視学習(SSL)モデルを提案する。
我々は、我々のデータセットといくつかの火災イベントを含む熱異常のデータセットであるThrawsを用いて、モデルの性能を訓練し、評価し、F1スコア63.58を得る。
Rapid detection and well-timed intervention are essential to mitigate the impacts of wildfires. Leveraging remote sensed data from satellite networks and advanced AI models to automatically detect hotspots (i.e., thermal anomalies caused by active fires) is an effective way to build wildfire monitoring systems. In this work, we propose a novel dataset containing time series of remotely sensed data related to European fire events and a Self-Supervised Learning (SSL)-based model able to analyse multi-temporal data and identify hotspots in potentially near real time. We train and evaluate the performance of our model using our dataset and Thraws, a dataset of thermal anomalies including several fire events, obtaining an F1 score of 63.58. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# ボルテラ過程の条件則の低次元近似:非正曲率アプローチ
Low-dimensional approximations of the conditional law of Volterra processes: a non-positive curvature approach ( http://arxiv.org/abs/2405.20094v1 ) ライセンス: Link先を確認 | Reza Arabpour, John Armstrong, Luca Galimberti, Anastasis Kratsios, Giulia Livieri, | (参考訳) 確率的ボラティリティを伴うボルテラ過程の条件付き進化を予測することは、数学的な財政において重要な課題である。
ディープニューラルネットワークモデルは、そのようなプロセスの条件法則を近似する約束を提供するが、それらの効果は、これらの問題の無限次元性と非滑らかな性質によって引き起こされる次元性の呪いによって妨げられる。
そこで本研究では,2段階の解法を提案する。
まず,Volterra過程の法則を非正断面曲率の低次元統計多様体に投影する安定次元縮小法を開発する。
次に、多様体の幾何に合わせた逐次的に深層学習モデルを導入し、ボルテラ過程の予測条件則を近似することができることを示す。
我々のモデルは、内部パラメータを動的に更新するために補助的なハイパーネットワークを活用し、Volterraプロセスの非定常力学を符号化し、各専門家が特定の時点で専門化されている専門家モデルの混合において、ゲーティング機構として解釈することができる。
ハイパーネットワークにより、非常に大きなネットワークでのみ可能と思われる近似率を達成することができます。
Predicting the conditional evolution of Volterra processes with stochastic volatility is a crucial challenge in mathematical finance. While deep neural network models offer promise in approximating the conditional law of such processes, their effectiveness is hindered by the curse of dimensionality caused by the infinite dimensionality and non-smooth nature of these problems. To address this, we propose a two-step solution. Firstly, we develop a stable dimension reduction technique, projecting the law of a reasonably broad class of Volterra process onto a low-dimensional statistical manifold of non-positive sectional curvature. Next, we introduce a sequentially deep learning model tailored to the manifold's geometry, which we show can approximate the projected conditional law of the Volterra process. Our model leverages an auxiliary hypernetwork to dynamically update its internal parameters, allowing it to encode non-stationary dynamics of the Volterra process, and it can be interpreted as a gating mechanism in a mixture of expert models where each expert is specialized at a specific point in time. Our hypernetwork further allows us to achieve approximation rates that would seemingly only be possible with very large networks. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# Few-Photon SUPER:2つの非共鳴光子モードによる量子エミッタインバージョン
Few-Photon SUPER: Quantum emitter inversion via two off-resonant photon modes ( http://arxiv.org/abs/2405.20095v1 ) ライセンス: Link先を確認 | Quentin W. Richter, Jan M. Kaspari, Thomas K. Bracht, Leonid Yatsenko, Vollrath Martin Axt, Arno Rauschenbeutel, Doris E. Reiter, | (参考訳) 制御量子系の実現により、共鳴の場合以外の励起の探索が新たな可能性を開く。
本研究では、2つの光子モードを量子エミッタに非共鳴的に結合する拡張Jaynes-Cummingsモデルについて検討する。
これにより、外部共鳴光子を1つのモードから別のモードに移動させながら、エミッタの完全な反転につながる少数の光子散乱機構を特定できる。
この挙動は、2レベルのエミッタが2つの非共鳴光子を同時に散乱する最近の測定と結びついている。
さらに、この結果は、最近開発された量子EmitteR(SUPER)のSwing-UPとして知られる非共鳴量子制御スキームの量子化アナログとして理解することができる。
我々の直感的な定式化は、2レベルエミッタと非共鳴光モードとの相互作用と新しいフォトニック応用の可能性について深い洞察を与える。
With the realization of controlled quantum systems, exploring excitations beyond the resonant case opens new possibilities. We investigate an extended Jaynes-Cummings model where two photon modes are coupled off-resonantly to a quantum emitter. This allows us to identify few-photon scattering mechanisms that lead to a full inversion of the emitter while transferring off-resonant photons from one mode to another. This behaviour connects to recent measurements of a two-level emitter scattering two off-resonant photons simultaneously. Furthermore, our results can be understood as quantized analogue of the recently developed off-resonant quantum control scheme known as Swing-UP of quantum EmitteR (SUPER). Our intuitive formalism gives a deeper insight into the interaction of a two-level emitter with off-resonant light modes with the prospect of novel photonic applications. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# SNAILを用いたトラベリングウェーブパラメトリック増幅器におけるポンプ高調波発生の検討
Investigating pump harmonics generation in a SNAIL-based Traveling Wave Parametric Amplifier ( http://arxiv.org/abs/2405.20096v1 ) ライセンス: Link先を確認 | A. Yu. Levochkina, H. G. Ahmad, P. Mastrovito, I. Chantarjee, G. Serpico, L. Di Palma, R. Ferroiuolo, R. Satariano, P. Darvehi, A. Ranadive, G. Cappelli, G. Le Gal, L. Planat, D. Montemurro, D. Massarotti, F. Tafuri, N. Roch, G. P. Pepe, M. Esposito, | (参考訳) トラベリングウェーブパラメトリック増幅器(TWPA)は、非常に望ましい量子制限特性とブロードバンド特性のために弱いマイクロ波信号を含む実験に広く用いられている。
しかし、TWPAsのブロードバンド特性は、増幅性能を低下させる可能性のあるハーモニクス生成のような急激な非線形過程の活性化を認めるという欠点がある。
本稿では,SNAIL(Superconducting Nonly Asymmetric Inductive Element)ベースのユニットセルを用いたジョセフソンTWPAデバイスを,ポンプの第2および第3高調波の発生とともに増幅挙動に着目して実験的に検討した。
実験結果を過渡数値シミュレーションと比較することにより、ジョセフソン接合の不完全性が高調波の発生および利得挙動に及ぼす影響を実証する。
Traveling Wave Parametric Amplifiers (TWPAs) are extensively employed in experiments involving weak microwave signals for their highly desirable quantum-limited and broadband characteristics. However, TWPAs' broadband nature comes with the disadvantage of admitting the activation of spurious nonlinear processes, such as harmonics generation, that can potentially degrade amplification performance. Here we experimentally investigate a Josephson TWPA device with SNAIL (Superconducting Nonlinear Asymmetric Inductive Element)-based unit cells focusing on the amplification behaviour along with the generation of second and third harmonics of the pump. By comparing experimental results with transient numerical simulations, we demonstrate the influence of Josephson junctions' fabrication imperfections on the occurrence of harmonics and on the gain behaviour. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# ジェイルブレイク攻撃に対するLLMのロバストかつ解釈可能な防御策
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks ( http://arxiv.org/abs/2405.20099v1 ) ライセンス: Link先を確認 | Chen Xiong, Xiangyu Qi, Pin-Yu Chen, Tsung-Yi Ho, | (参考訳) 安全性、セキュリティ、コンプライアンスは、大きな言語モデル(LLM)を調整する上で必須の要件である。
しかし、一見整列したLSMの多くは、すぐにジェイルブレイク攻撃の影響を受けやすいことが示されている。
これらの攻撃は、悪意のあるクエリにjailbreakプロンプトを導入することによって、モデルの安全ガードレールとセキュリティメカニズムを回避することを目的としている。
これらの課題に対応するために,本論文では,LDMをこのような高度なジェイルブレイク戦略から守るために設計された,新しいプロンプトベースの防御機構であるDPPを導入する。
安全のためにしばしばモデルの有用性を損なう従来のアプローチとは異なり、DPPはLLMの高機能を維持しながら最小の攻撃成功率(ASR)を達成するように設計されている。
提案手法は戦略的に設計された解釈可能な接尾辞プロンプトを用いて,幅広い標準および適応ジェイルブレイクテクニックを効果的に抑制する。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルで実施された実験結果から,DSPの堅牢性と適応性が確認された。
我々のアプローチは、安全性と機能のバランスをとる既存の防衛戦略を上回るだけでなく、様々なLLMプラットフォームに適用可能なスケーラブルで解釈可能なソリューションも提供します。
Safety, security, and compliance are essential requirements when aligning large language models (LLMs). However, many seemingly aligned LLMs are soon shown to be susceptible to jailbreak attacks. These attacks aim to circumvent the models' safety guardrails and security mechanisms by introducing jailbreak prompts into malicious queries. In response to these challenges, this paper introduces Defensive Prompt Patch (DPP), a novel prompt-based defense mechanism specifically designed to protect LLMs against such sophisticated jailbreak strategies. Unlike previous approaches, which have often compromised the utility of the model for the sake of safety, DPP is designed to achieve a minimal Attack Success Rate (ASR) while preserving the high utility of LLMs. Our method uses strategically designed interpretable suffix prompts that effectively thwart a wide range of standard and adaptive jailbreak techniques. Empirical results conducted on LLAMA-2-7B-Chat and Mistral-7B-Instruct-v0.2 models demonstrate the robustness and adaptability of DPP, showing significant reductions in ASR with negligible impact on utility. Our approach not only outperforms existing defense strategies in balancing safety and functionality, but also provides a scalable and interpretable solution applicable to various LLM platforms. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 自己教師型表現学習とニューラルオーディオ合成を組み合わせた音声塗装
Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting ( http://arxiv.org/abs/2405.20101v1 ) ライセンス: Link先を確認 | Ihab Asaad, Maxime Jacquelin, Olivier Perrotin, Laurent Girin, Thomas Hueber, | (参考訳) ほとんどの音声自己教師型学習(SSL)モデルは、入力信号の欠落部分、将来のセグメント(因果予測)または入力内のどこにでも隠蔽されたセグメント(因果予測)を予測するプリテキストタスクで訓練される。
学習された音声表現は、下流のタスク(例えば、自動音声認識や話者認識)に効率的に転送できる。
本研究では,音声信号の欠落部分をその周囲の文脈から再構築する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
特に,HuBERT出力とHiFiGAN入力とを一致させ,一方を凍結して他方を微調整し,その逆の2つの解を提案する。
両手法の性能は,視覚的評価,視覚的評価,視覚的評価,視覚的評価,視覚的評価の両面から評価した。
両ソリューションが200msまで(場合によっては400msまで)信号部分の正確な再構築を許すならば、SSLエンコーダの微調整は単一スピーカの設定ケースでより正確な信号再構成を提供すると同時に、それを凍結する(代わりにニューラルボコーダを訓練する)ことが、マルチスピーカデータを扱う際のより良い戦略であることを示している。
Most speech self-supervised learning (SSL) models are trained with a pretext task which consists in predicting missing parts of the input signal, either future segments (causal prediction) or segments masked anywhere within the input (non-causal prediction). Learned speech representations can then be efficiently transferred to downstream tasks (e.g., automatic speech or speaker recognition). In the present study, we investigate the use of a speech SSL model for speech inpainting, that is reconstructing a missing portion of a speech signal from its surrounding context, i.e., fulfilling a downstream task that is very similar to the pretext task. To that purpose, we combine an SSL encoder, namely HuBERT, with a neural vocoder, namely HiFiGAN, playing the role of a decoder. In particular, we propose two solutions to match the HuBERT output with the HiFiGAN input, by freezing one and fine-tuning the other, and vice versa. Performance of both approaches was assessed in single- and multi-speaker settings, for both informed and blind inpainting configurations (i.e., the position of the mask is known or unknown, respectively), with different objective metrics and a perceptual evaluation. Performances show that if both solutions allow to correctly reconstruct signal portions up to the size of 200ms (and even 400ms in some cases), fine-tuning the SSL encoder provides a more accurate signal reconstruction in the single-speaker setting case, while freezing it (and training the neural vocoder instead) is a better strategy when dealing with multi-speaker data. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# FMARS:基礎モデルを用いた災害管理のためのリモートセンシング画像の注釈付け
FMARS: Annotating Remote Sensing Images for Disaster Management using Foundation Models ( http://arxiv.org/abs/2405.20109v1 ) ライセンス: Link先を確認 | Edoardo Arnaudo, Jacopo Lungo Vaschetti, Lorenzo Innocenti, Luca Barco, Davide Lisi, Vanina Fissore, Claudio Rossi, | (参考訳) 超高解像度(VHR)リモートセンシング画像はますますアクセスしやすくなっているが、効果的な機械学習アプリケーションのためのアノテーションが欠けていることが多い。
GroundingDINOやSegment Anything(SAM)といった最近の基盤モデルは、アノテーションを自動的に生成する機会を提供する。
本研究では,FMARS(Foundation Model Annotations in Remote Sensing)について紹介する。
我々は災害管理に重点を置いており、Maxar Open Dataイニシアチブから派生した19の災害イベントに関する事前イベントの画像から得られたラベル付き大規模データセットを提供する。
実世界のシナリオへの転送可能性を高めるために、Unsupervised Domain Adaptation (UDA) 技術を用いて、生成されたラベルのセグメンテーションモデルをトレーニングする。
本研究は, リモートセンシングデータの自動アノテートに基礎モデルを活用することの有効性を実証し, 重要なアプリケーションにロバストな下流モデルを実現することを目的とする。
コードとデータセットは \url{https://github.com/links-ads/igarss-fmars} で公開されている。
Very-High Resolution (VHR) remote sensing imagery is increasingly accessible, but often lacks annotations for effective machine learning applications. Recent foundation models like GroundingDINO and Segment Anything (SAM) provide opportunities to automatically generate annotations. This study introduces FMARS (Foundation Model Annotations in Remote Sensing), a methodology leveraging VHR imagery and foundation models for fast and robust annotation. We focus on disaster management and provide a large-scale dataset with labels obtained from pre-event imagery over 19 disaster events, derived from the Maxar Open Data initiative. We train segmentation models on the generated labels, using Unsupervised Domain Adaptation (UDA) techniques to increase transferability to real-world scenarios. Our results demonstrate the effectiveness of leveraging foundation models to automatically annotate remote sensing data at scale, enabling robust downstream models for critical applications. Code and dataset are available at \url{https://github.com/links-ads/igarss-fmars}. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# RIGID:ロバストAI生成画像検出のためのトレーニング不要でモデルに依存しないフレームワーク
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection ( http://arxiv.org/abs/2405.20112v1 ) ライセンス: Link先を確認 | Zhiyuan He, Pin-Yu Chen, Tsung-Yi Ho, | (参考訳) 生成型AIモデルの急速な進歩は、任意のコンテンツを持つ非常にリアルなイメージの作成を促進し、Deepfakesのような潜在的な誤用や害に対する懸念を高めている。
現在の研究は、生成された画像の大きなデータセットを使用して検出器を訓練することに焦点を当てている。
しかし、これらのトレーニングベースのソリューションは、しばしば計算コストが高く、生成しない画像に対して限定的な一般化を示す。
本稿では,実画像とAI画像とを区別する学習自由度手法を提案する。
まず、視覚基礎モデルの表現空間におけるAI生成画像よりも、実画像が小さなノイズ摂動に対して頑健であることが観察された。
そこで本研究では,堅牢なAI生成画像検出のためのトレーニング不要かつモデルに依存しないRIGIDを提案する。
RIGIDは、画像がAI生成されているかどうかを、オリジナルとノイズの混同した表現の類似性を比較することで識別する、シンプルで効果的なアプローチである。
多様なAI生成画像とベンチマークに対する評価は、RIGIDが既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っていることを示している。
特に、RIGIDの平均性能は、現在の最高のトレーニングフリーメソッドを25%以上上回っている。
重要な点として、RIGIDは画像生成方法にまたがる強力な一般化と、画像の破損に対する堅牢性を示す。
The rapid advances in generative AI models have empowered the creation of highly realistic images with arbitrary content, raising concerns about potential misuse and harm, such as Deepfakes. Current research focuses on training detectors using large datasets of generated images. However, these training-based solutions are often computationally expensive and show limited generalization to unseen generated images. In this paper, we propose a training-free method to distinguish between real and AI-generated images. We first observe that real images are more robust to tiny noise perturbations than AI-generated images in the representation space of vision foundation models. Based on this observation, we propose RIGID, a training-free and model-agnostic method for robust AI-generated image detection. RIGID is a simple yet effective approach that identifies whether an image is AI-generated by comparing the representation similarity between the original and the noise-perturbed counterpart. Our evaluation on a diverse set of AI-generated images and benchmarks shows that RIGID significantly outperforms existing trainingbased and training-free detectors. In particular, the average performance of RIGID exceeds the current best training-free method by more than 25%. Importantly, RIGID exhibits strong generalization across different image generation methods and robustness to image corruptions. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 量子多体スカーの相転移
Phase Transitions in Quantum Many-Body Scars ( http://arxiv.org/abs/2405.20113v1 ) ライセンス: Link先を確認 | Peter Græns Larsen, Anne E. B. Nielsen, | (参考訳) 我々は、量子多体系における相転移の一種を提案し、これは高励起の量子多体散乱状態において起こるが、残りのスペクトルはほとんど影響を受けない。
このようなスカー状態の相転移は、親ハミルトニアンの熱スペクトルにスカー状態として、相転移を経る行列積状態(英語版)を埋め込むことで実現できる。
その結果,スカー状態遷移のメカニズムは,相転移点近傍のスカー状態に類似したエネルギー下での低エントロピー状態の形成や存在を伴うことがわかった。
We propose a type of phase transition in quantum many-body systems, which occurs in highly excited quantum many-body scar states, while the rest of the spectrum is largely unaffected. Such scar state phase transitions can be realized by embedding a matrix product state, known to undergo a phase transition, as a scar state into the thermal spectrum of a parent Hamiltonian. We find numerically that the mechanism for the scar state phase transition involves the formation or presence of low-entropy states at energies similar to the scar state in the vicinity of the phase transition point. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 圧縮とモーメントトラッキングによる最適分散最適化
Near Optimal Decentralized Optimization with Compression and Momentum Tracking ( http://arxiv.org/abs/2405.20114v1 ) ライセンス: Link先を確認 | Rustem Islamov, Yuan Gao, Sebastian U. Stich, | (参考訳) 分散およびフェデレートされた設定における大規模分散機械学習アプリケーションの主なボトルネックと考えられているため、通信効率に大きな注目を集めている。
この体制では、クライアントは通信グラフを介して少量の量子化された情報を隣人に送信することに制限される。
分散化された非凸最適化問題に対する圧縮通信を用いたアルゴリズムを開発することで、この問題に多くの取り組みがなされている。
かなりの努力にもかかわらず、現在の結果は、クライアント数での非スケーリング性、大規模なバッチの要件、境界勾配の仮定など、さまざまな問題に悩まされている。
本稿では,モメンタムトラッキングやエラーフィードバックと通信圧縮を統合した新しい手法であるMoTEFを紹介する。
分析の結果,MoTEFは所望の特性のほとんどを達成し,任意のデータ不均一性の下で既存手法よりも大幅に優れていることがわかった。
理論的知見を検証し,MoTEFの実用的優位性を確認するための数値実験を行った。
Communication efficiency has garnered significant attention as it is considered the main bottleneck for large-scale decentralized Machine Learning applications in distributed and federated settings. In this regime, clients are restricted to transmitting small amounts of quantized information to their neighbors over a communication graph. Numerous endeavors have been made to address this challenging problem by developing algorithms with compressed communication for decentralized non-convex optimization problems. Despite considerable efforts, the current results suffer from various issues such as non-scalability with the number of clients, requirements for large batches, or bounded gradient assumption. In this paper, we introduce MoTEF, a novel approach that integrates communication compression with Momentum Tracking and Error Feedback. Our analysis demonstrates that MoTEF achieves most of the desired properties, and significantly outperforms existing methods under arbitrary data heterogeneity. We provide numerical experiments to validate our theoretical findings and confirm the practical superiority of MoTEF. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 多部情報因果関係からの非局所性のモノガミー
Monogamy of nonlocality from multipartite information causality ( http://arxiv.org/abs/2405.20115v1 ) ライセンス: Link先を確認 | Lucas Pollyceno, Anubhav Chaturvedi, Chithra Raj, Pedro R. Dieguez, Marcin Pawłowski, | (参考訳) 非局所性のモノガミーは、量子論の最も興味深く、暗号学的に重要な予測の一つである。
情報因果性の物理的原理は、量子論の抽象的な数学的形式論を呼び起こすことなく非局所性を理解し、制限する有望な手段を提供する。
本稿では,情報因果関係のもともとの2部構成が非自明な一夫一婦制関係を示唆できないことを実証し,従って以前の主張を否定する。
しかし,最近提案された情報因果関係の多部的定式化は,一夫一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻
我々はこれらのモノガミー関係を利用して、情報因果性に制約された無信号の盗聴者に対するデバイス非依存の量子鍵分布の安全性を高める。
The monogamy of nonlocality is one the most intriguing and cryptographically significant predictions of quantum theory. The physical principle of information causality offers a promising means to understand and restrict the extent of nonlocality without invoking the abstract mathematical formalism of quantum theory. In this article, we demonstrate that the original bipartite formulation of information causality cannot imply non-trivial monogamy relations, thereby refuting the previous claims. Nevertheless, we show that the recently proposed multipartite formulation of information causality implies stronger-than-no-signaling monogamy relations. We use these monogamy relations to enhance the security of device-independent quantum key distribution against a no-signaling eavesdropper constrained by information causality. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 無限3次元ランドマーク:連続2次元顔ランドマーク検出の改善
Infinite 3D Landmarks: Improving Continuous 2D Facial Landmark Detection ( http://arxiv.org/abs/2405.20117v1 ) ライセンス: Link先を確認 | Prashanth Chandran, Gaspard Zoss, Paulo Gotardo, Derek Bradley, | (参考訳) 本稿では,最先端の顔ランドマーク検出器の実用化における3つの重要な課題について検討し,その精度と時間的安定性を直接的に向上させる方法について述べる。
まず、多くの顔ランドマーク検出器は、前処理のステップとして顔の正規化を必要とし、入力画像の顔をトリミングし、再サイズする、個別に訓練されたニューラルネットワークによって達成される。
この事前学習ネットワークがランドマーク検出のための最適な顔正規化を行う保証はない。
そこで我々は,非教師付きでランドマーク検出器とともに訓練された空間トランスフォーマーネットワークの利用を分析し,最適な顔正規化とランドマーク検出を共同で学習する。
第2に、3次元標準空間におけるランドマークを推定するためにランドマーク予測器の出力ヘッドを変更することにより、精度が向上することを示した。
予測された3Dランドマークをスクリーン空間に変換するために,入力画像からカメラ固有の特徴と頭部ポーズを予測する。
副次的な利点として、これによって与えられた画像から2Dランドマークのみを使用して3Dの顔の形を予測することができる。
最後に、複数のデータセット上でランドマーク検出を同時にトレーニングする場合、データセット間のアノテーションの不整合は、ネットワークに最適な平均値を生成するように強制する。
本稿では,この問題に対処する意味的訂正ネットワークを提案する。
この追加の軽量ニューラルネットワークは、追加の監視を必要とせず、ランドマーク検出器と共に訓練される。
この論文の洞察は、ほとんどのランドマーク検出器に適用できるが、我々は最近提案された連続2Dランドマーク検出器をターゲットとし、これらの追加が標準ベンチマークの最先端よりも有意義な改善をもたらすことを実証する。
In this paper, we examine 3 important issues in the practical use of state-of-the-art facial landmark detectors and show how a combination of specific architectural modifications can directly improve their accuracy and temporal stability. First, many facial landmark detectors require face normalization as a preprocessing step, which is accomplished by a separately-trained neural network that crops and resizes the face in the input image. There is no guarantee that this pre-trained network performs the optimal face normalization for landmark detection. We instead analyze the use of a spatial transformer network that is trained alongside the landmark detector in an unsupervised manner, and jointly learn optimal face normalization and landmark detection. Second, we show that modifying the output head of the landmark predictor to infer landmarks in a canonical 3D space can further improve accuracy. To convert the predicted 3D landmarks into screen-space, we additionally predict the camera intrinsics and head pose from the input image. As a side benefit, this allows to predict the 3D face shape from a given image only using 2D landmarks as supervision, which is useful in determining landmark visibility among other things. Finally, when training a landmark detector on multiple datasets at the same time, annotation inconsistencies across datasets forces the network to produce a suboptimal average. We propose to add a semantic correction network to address this issue. This additional lightweight neural network is trained alongside the landmark detector, without requiring any additional supervision. While the insights of this paper can be applied to most common landmark detectors, we specifically target a recently-proposed continuous 2D landmark detector to demonstrate how each of our additions leads to meaningful improvements over the state-of-the-art on standard benchmarks. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 車両軌道予測のための構造対応レーングラフ変換器モデル
A Structure-Aware Lane Graph Transformer Model for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2405.20121v1 ) ライセンス: Link先を確認 | Sun Zhanbo, Dong Caiyin, Ji Ang, Zhao Ruibin, Zhao Yu, | (参考訳) 周辺車両の将来の軌道の正確な予測は、自動運転車の安全な運転に不可欠である。
本研究では,構造認識機能を備えた Lane Graph Transformer (LGT) モデルを提案する。
その重要な貢献は、地図トポロジー構造を注意機構に符号化することにある。
異なる方向からのレーン情報の変化に対処するために、マップトポロジ構造の局所的な詳細を捉えるために、4つの相対位置エンコーディング(RPE)行列を導入する。
さらに、2つの最短経路距離(SPD)行列を用いて、2つのアクセス可能な車線間の距離情報をキャプチャする。
数値計算の結果,提案したLGTモデルにより,Argoverse 2データセット上での予測性能が大幅に向上することが示唆された。
具体的には、minFDE$_6$メトリックをArgoverse 2ベースラインモデル(Nearest Neighbor)と比較して60.73%削減し、b-minFDE$_6$メトリックをLaneGCNモデルと比較して2.65%削減した。
さらに、アブレーション実験により、地図トポロジー構造の考慮により、b-minFDE$_6$の計量が4.24%低下し、このモデルの有効性が検証された。
Accurate prediction of future trajectories for surrounding vehicles is vital for the safe operation of autonomous vehicles. This study proposes a Lane Graph Transformer (LGT) model with structure-aware capabilities. Its key contribution lies in encoding the map topology structure into the attention mechanism. To address variations in lane information from different directions, four Relative Positional Encoding (RPE) matrices are introduced to capture the local details of the map topology structure. Additionally, two Shortest Path Distance (SPD) matrices are employed to capture distance information between two accessible lanes. Numerical results indicate that the proposed LGT model achieves a significantly higher prediction performance on the Argoverse 2 dataset. Specifically, the minFDE$_6$ metric was decreased by 60.73% compared to the Argoverse 2 baseline model (Nearest Neighbor) and the b-minFDE$_6$ metric was reduced by 2.65% compared to the baseline LaneGCN model. Furthermore, ablation experiments demonstrated that the consideration of map topology structure led to a 4.24% drop in the b-minFDE$_6$ metric, validating the effectiveness of this model. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 分布ロバストな共分散推定器の幾何学的統一:あいまいさ集合を膨らませてスペクトルを削る
A Geometric Unification of Distributionally Robust Covariance Estimators: Shrinking the Spectrum by Inflating the Ambiguity Set ( http://arxiv.org/abs/2405.20124v1 ) ライセンス: Link先を確認 | Man-Chung Yue, Yves Rychener, Daniel Kuhn, Viet Anh Nguyen, | (参考訳) 高次元共分散行列を推定するための最先端手法は、すべてサンプル共分散行列の固有値をデータ不感な縮小ターゲットに向けて縮小する。
根底にある収縮変換は、説得力のある理論的な正当化なしにヒューリスティックに選択されるか、あるいは制限的な分布仮定の観点から最適に選択される。
本稿では,制約的な仮定を伴わずに共分散推定器を構築するための原理的手法を提案する。
すなわち、分布の近さを共分散行列の空間上のばらつきによって測定する、名目分布に近いすべてのデータ分布に対して、最悪のケースであるフロベニウス誤差を最小限に抑えるような、分布的に堅牢な共分散推定問題を考察する。
得られた最小値が縮小推定器を表すこの分散条件について軽度な条件を同定する。
対応する縮退変換は、基礎となる発散の幾何学的性質と密接に関連していることを示す。
また、我々の頑健な推定器は効率よく計算可能で漸近的に一貫したものであり、有限サンプル性能の保証を享受できることを証明した。
我々は,Kulback-Leibler,Fisher-Rao,Wassersteinの発散によって引き起こされる明示的推定器を合成することによって,我々の一般的な方法論を実証する。
合成および実データに基づく数値実験により、我々の頑健な推定器は最先端の推定器と競合していることが示された。
The state-of-the-art methods for estimating high-dimensional covariance matrices all shrink the eigenvalues of the sample covariance matrix towards a data-insensitive shrinkage target. The underlying shrinkage transformation is either chosen heuristically - without compelling theoretical justification - or optimally in view of restrictive distributional assumptions. In this paper, we propose a principled approach to construct covariance estimators without imposing restrictive assumptions. That is, we study distributionally robust covariance estimation problems that minimize the worst-case Frobenius error with respect to all data distributions close to a nominal distribution, where the proximity of distributions is measured via a divergence on the space of covariance matrices. We identify mild conditions on this divergence under which the resulting minimizers represent shrinkage estimators. We show that the corresponding shrinkage transformations are intimately related to the geometrical properties of the underlying divergence. We also prove that our robust estimators are efficiently computable and asymptotically consistent and that they enjoy finite-sample performance guarantees. We exemplify our general methodology by synthesizing explicit estimators induced by the Kullback-Leibler, Fisher-Rao, and Wasserstein divergences. Numerical experiments based on synthetic and real data show that our robust estimators are competitive with state-of-the-art estimators. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# 画像解析に基づくがん検出のためのフェデレーション・トランスファー学習
Federated and Transfer Learning for Cancer Detection Based on Image Analysis ( http://arxiv.org/abs/2405.20126v1 ) ライセンス: Link先を確認 | Amine Bechar, Youssef Elmir, Yassine Himeur, Rafik Medjoudj, Abbes Amira, | (参考訳) 本稿では,画像解析に基づくがん検出におけるフェデレートラーニング(FL)とトランスファーラーニング(TL)の役割について論じる。
機械学習を利用したこれらの2つの戦略は、がん検出における機械学習技術の重要性の高まりを踏まえて、がん診断の精度と有効性を高める可能性から、多くの注目を集めている。
FLは、集中的なデータ共有を必要とせずに、複数のサイトに分散したデータ上で機械学習モデルのトレーニングを可能にし、TLは、あるタスクから別のタスクへの知識の転送を可能にする。
強みと弱みを含む2つの手法を総合的に評価する。
今後,癌検出への応用について検討し,今後の可能性についても検討する。
最後に,画像ベース癌検出におけるTLとFLの機能について概説する。
著者らはまた、この急速に発展している領域におけるさらなる研究について、洞察に富んだ提案をしている。
This review article discusses the roles of federated learning (FL) and transfer learning (TL) in cancer detection based on image analysis. These two strategies powered by machine learning have drawn a lot of attention due to their potential to increase the precision and effectiveness of cancer diagnosis in light of the growing importance of machine learning techniques in cancer detection. FL enables the training of machine learning models on data distributed across multiple sites without the need for centralized data sharing, while TL allows for the transfer of knowledge from one task to another. A comprehensive assessment of the two methods, including their strengths, and weaknesses is presented. Moving on, their applications in cancer detection are discussed, including potential directions for the future. Finally, this article offers a thorough description of the functions of TL and FL in image-based cancer detection. The authors also make insightful suggestions for additional study in this rapidly developing area. | 翻訳日:2024-05-31 13:58:47 公開日:2024-05-30 |
# SPAM:非凸クロスデバイス・フェデレーション学習におけるモメンタム可変化を用いた確率的近点法
SPAM: Stochastic Proximal Point Method with Momentum Variance Reduction for Non-convex Cross-Device Federated Learning ( http://arxiv.org/abs/2405.20127v1 ) ライセンス: Link先を確認 | Avetik Karagulyan, Egor Shulgin, Abdurakhmon Sadiev, Peter Richtárik, | (参考訳) デバイス間のトレーニングは、何十億にも達するクライアントの数に到達可能な、連邦学習の重要なサブフィールドである。
標準的なアプローチとローカルメソッドは、クライアントのドリフトやデータ類似性への敏感さといった問題を起こしやすい。
本研究では,非凸損失を持つクロスデバイス・フェデレーション学習のための新しいアルゴリズム (SPAM) を提案する。
本稿では,2次(ヘッセン)類似性の下での鋭い解析について述べる。
さらに,選択したクライアントのコホートが各通信ラウンドでサーバと通信する部分的な参加設定にまで結果を拡張する。
本手法は, 目的の滑らかさを必要とせず, 類似したデータを持つクライアントのメリットを実証する。
Cross-device training is a crucial subfield of federated learning, where the number of clients can reach into the billions. Standard approaches and local methods are prone to issues such as client drift and insensitivity to data similarities. We propose a novel algorithm (SPAM) for cross-device federated learning with non-convex losses, which solves both issues. We provide sharp analysis under second-order (Hessian) similarity, a condition satisfied by a variety of machine learning problems in practice. Additionally, we extend our results to the partial participation setting, where a cohort of selected clients communicate with the server at each communication round. Our method is the first in its kind, that does not require the smoothness of the objective and provably benefits from clients having similar data. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# Rydberg-dressed extended Bose Hubbard モデルの実現
Realization of a Rydberg-dressed extended Bose Hubbard model ( http://arxiv.org/abs/2405.20128v1 ) ライセンス: Link先を確認 | Pascal Weckesser, Kritsana Srakaew, Tizian Blatz, David Wei, Daniel Adler, Suchita Agrawal, Annabelle Bohrdt, Immanuel Bloch, Johannes Zeiher, | (参考訳) 量子多体系における異なる長さスケールの競合は、相関力学や非局所秩序の出現を含む様々な新しい現象を引き起こす。
反復格子型量子シミュレータにおけるそのような効果にアクセスし、調査するために、オフ共振型光カップリングを用いたチューナブルな拡張範囲相互作用をライドバーグ状態に導入することを提案した。
しかし、そのような「ライドバーグ・ドレッシング」の実験的な実現は、これまでは動きのないスピン系に集中してきた。
本稿では,従来の作業を制限する多くの実験課題を克服し,実効的な1次元拡張Bose-Hubbardモデル(eBHM)を実現する。
量子ガス顕微鏡を用いて,低充填時の長距離反発結合対と半充填時の運動的に拘束された「ハードロッド」の相関平衡ダイナミクスを探索した。
平衡付近では、拡張範囲の相互作用を断熱的にオンにすると密度秩序が観測される。
本研究は,光格子型量子シミュレータにおけるRydbergドレッシングの汎用性を実証し,新しい光制御型拡張レンジ量子多体系の実現への道を開くものである。
The competition of different length scales in quantum many-body systems leads to various novel phenomena, including the emergence of correlated dynamics or non-local order. To access and investigate such effects in an itinerant lattice-based quantum simulator, it has been proposed to introduce tunable extended-range interactions using off-resonant optical coupling to Rydberg states. However, experimental realizations of such "Rydberg dressing" have so far mostly concentrated on spin systems without motion. Here, we overcome a number of experimental challenges limiting previous work and realize an effective one-dimensional extended Bose-Hubbard model (eBHM). Harnessing our quantum gas microscope, we probe the correlated out-of-equilibrium dynamics of extended-range repulsively-bound pairs at low filling, and kinetically-constrained "hard rods" at half filling. Near equilibrium, we observe density ordering when adiabatically turning on the extended-range interactions. Our results demonstrate the versatility of Rydberg dressing in engineering itinerant optical lattice-based quantum simulators and pave the way to realizing novel light-controlled extended-range interacting quantum many-body systems. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 言語モデルには帰納的バイアスが必要である
Language Models Need Inductive Biases to Count Inductively ( http://arxiv.org/abs/2405.20131v1 ) ライセンス: Link先を確認 | Yingshan Chang, Yonatan Bisk, | (参考訳) カウントは一般化の基本的な例であり、ピアーノの公理の数学的レンズを通して自然数を定義するか、子どもが数えることを学ぶための認知科学の文献を見るかのどちらかである。
この議論は、両方の場合において、学習が数えられるということは無限に数えられるということを意味する。
数える最も単純なケースにトランスフォーマーの「推論」を蒸留しようとする論文はほとんどないが、長さの一般化の調査は文学全体を通して行われる。
NLP の "train short, test long" パラダイムでは、長さは訓練文の長さを指す。
形式言語認識では、長さは入力シーケンスの長さ、またはプッシュダウンオートマトンによって誘導される最大スタックサイズを指す。
一般の問題解決において、長さ(英: length)とは、帰納的推論鎖のホップ数または再帰深さを指す。
すべてのケースにおいて、カウントはタスクの成功の中心です。
そして重要なのは、カウントをインダクティブに一般化することが、OODインスタンスの成功の中心であることだ。
この研究は、数えられるようなトレーニング言語モデルに関する広範な経験的な結果を提供する。
我々は、RNN、Transformer、State-Space Models、RWKVといったアーキテクチャを実験する。
我々は, OOD-position や OOD-vocabulary による一般化の限界を回避するために, 慎重に設計されたタスク形式, 補助タスク, 位置埋め込みを提案する。
従来のRNNは帰納的カウントを自明に達成するが、トランスフォーマーはドメイン外カウントに位置埋め込みを頼らなければならない。
数値化がトランスフォーマーの表現性に関する多くの議論の基盤となっているため、我々はコミュニティに対して、形式的特徴付けで定義されたプリミティブ関数の適用範囲を再検討するよう求めている。
最後に、現代のRNNは数え上げをインダクティブに一般化する上で、従来のRNNよりも性能が劣っている。
本稿では,現代のRNNの並列学習を可能にする設計選択が,再帰的特性のメリットを損なう理由について論じる。
Counting is a fundamental example of generalization, whether viewed through the mathematical lens of Peano's axioms defining the natural numbers or the cognitive science literature for children learning to count. The argument holds for both cases that learning to count means learning to count infinitely. While few papers have tried to distill transformer "reasoning" to the simplest case of counting, investigating length generalization does occur throughout the literature. In the "train short, test long" paradigm of NLP, length refers to the training sentence length. In formal language recognition, length refers to the input sequence length, or the maximum stack size induced by a pushdown automata. In general problem solving, length refers to the number of hops in a deductive reasoning chain or the recursion depth. For all cases, counting is central to task success. And crucially, generalizing counting inductively is central to success on OOD instances. This work provides extensive empirical results on training language models to count. We experiment with architectures ranging from RNNs, Transformers, State-Space Models and RWKV. We present carefully-designed task formats, auxiliary tasks and positional embeddings to avoid limitations in generalization with OOD-position and OOD-vocabulary. We find that while traditional RNNs trivially achieve inductive counting, Transformers have to rely on positional embeddings to count out-of-domain. As counting is the basis for many arguments concerning the expressivity of Transformers, our finding calls for the community to reexamine the application scope of primitive functions defined in formal characterizations. Finally, modern RNNs also largely underperform traditional RNNs in generalizing counting inductively. We discuss how design choices that enable parallelized training of modern RNNs cause them to lose merits of a recurrent nature. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# LLaMEA:メタヒューリスティックスの自動生成のための大規模言語モデル進化アルゴリズム
LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics ( http://arxiv.org/abs/2405.20132v1 ) ライセンス: Link先を確認 | Niki van Stein, Thomas Bäck, | (参考訳) GPT-4のような大規模言語モデル(LLM)は、自然言語を理解し、複雑なコードスニペットを生成する能力を示している。
本稿では,アルゴリズムの自動生成と改良にGPTモデルを活用する,新しいLarge Language Model Evolutionary Algorithm (LLaMEA) フレームワークを提案する。
一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは実行時評価からパフォーマンスメトリクスとフィードバックに基づいてアルゴリズムを反復的に生成し、変更し、選択する。
このフレームワークは、高度な事前の専門知識を必要とせず、最適化されたアルゴリズムを生成するためのユニークなアプローチを提供する。
我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。
LLaMEAは5次元ブラックボックス最適化ベンチマーク(BBOB)で最先端の最適化アルゴリズム(共分散行列適応進化戦略と微分進化)を上回る複数のアルゴリズムを生成する。
その結果,LLMによるアルゴリズムの自動生成と最適化のためのフレームワークの実現可能性を示し,今後の方向性を明らかにした。
Large Language Models (LLMs) such as GPT-4 have demonstrated their ability to understand natural language and generate complex code snippets. This paper introduces a novel Large Language Model Evolutionary Algorithm (LLaMEA) framework, leveraging GPT models for the automated generation and refinement of algorithms. Given a set of criteria and a task definition (the search space), LLaMEA iteratively generates, mutates and selects algorithms based on performance metrics and feedback from runtime evaluations. This framework offers a unique approach to generating optimized algorithms without requiring extensive prior expertise. We show how this framework can be used to generate novel black-box metaheuristic optimization algorithms automatically. LLaMEA generates multiple algorithms that outperform state-of-the-art optimization algorithms (Covariance Matrix Adaptation Evolution Strategy and Differential Evolution) on the five dimensional black box optimization benchmark (BBOB). The results demonstrate the feasibility of the framework and identify future directions for automated generation and optimization of algorithms via LLMs. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 間欠性認知症高齢者のマルチモーダル・危険な状態認識と早期警戒システム
A Multimodal Dangerous State Recognition and Early Warning System for Elderly with Intermittent Dementia ( http://arxiv.org/abs/2405.20136v1 ) ライセンス: Link先を確認 | Liyun Deng, Lei Jin, Guangcheng Wang, Quan Shi, Han Wang, | (参考訳) 中国で高齢化が進んでいるため、高齢の脆弱なグループが欠落する傾向にある社会問題に対して、私たちのチームは、人工知能とIoT技術を使って、間欠的な認知症を抱える高齢者に対して、ウェアラブルなアンチロスデバイスとインテリジェント早期警戒システムを開発した。
このシステムは、アンチロススマートヘルメット、クラウドコンピューティングモジュール、および介護者のモバイルデバイス上のインテリジェント早期警告アプリケーションを含む。
このスマートヘルメットは、ミニチュアカメラモジュール、GPSモジュール、および5G通信モジュールを統合し、高齢者のファーストパーソン画像と位置情報を収集する。
データは5G、FTP、TCPプロトコルを介してリモートで送信される。
クラウドコンピューティングモジュールにおいて、私たちのチームは、高齢者が行方不明になるリスクを正確に評価するために、シーン情報と位置情報に基づくマルチモーダルな危険な状態認識ネットワークを初めて提案しました。
最後に、介護者のモバイルデバイス用に設計されたアプリケーションソフトウェアインタフェースは、複数レベルの早期警告を実装している。
本研究チームが開発したシステムでは,高齢者の操作や対応を必要とせず,完全自動的環境認識,リスク評価,積極的に警報を行う。
これにより、アクティブな操作と応答を必要とする従来の監視装置の限界を克服し、高齢者のデジタル分割の問題を回避することができる。
認知症高齢者の事故や潜在的な危険を効果的に防ぐ。
In response to the social issue of the increasing number of elderly vulnerable groups going missing due to the aggravating aging population in China, our team has developed a wearable anti-loss device and intelligent early warning system for elderly individuals with intermittent dementia using artificial intelligence and IoT technology. This system comprises an anti-loss smart helmet, a cloud computing module, and an intelligent early warning application on the caregiver's mobile device. The smart helmet integrates a miniature camera module, a GPS module, and a 5G communication module to collect first-person images and location information of the elderly. Data is transmitted remotely via 5G, FTP, and TCP protocols. In the cloud computing module, our team has proposed for the first time a multimodal dangerous state recognition network based on scene and location information to accurately assess the risk of elderly individuals going missing. Finally, the application software interface designed for the caregiver's mobile device implements multi-level early warnings. The system developed by our team requires no operation or response from the elderly, achieving fully automatic environmental perception, risk assessment, and proactive alarming. This overcomes the limitations of traditional monitoring devices, which require active operation and response, thus avoiding the issue of the digital divide for the elderly. It effectively prevents accidental loss and potential dangers for elderly individuals with dementia. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 形状制約のないAND-OR木上の平衡不等式の分離と崩壊
Separation and Collapse of Equilibria Inequalities on AND-OR Trees without Shape Constraints ( http://arxiv.org/abs/2405.20138v1 ) ライセンス: Link先を確認 | Fuki Ito, Toshio Suzuki, | (参考訳) 本稿では, 木根のブール値を求めるアルゴリズムに様々な制約を課し, 木の形態に制約を加えることなく, 最悪の入力に対して最小のコストであるランダム化複雑性について検討する。
木がその対称性に関する一定の条件を満たすとき、Saks and Wigderson (1986) によって提唱された方向アルゴリズム、特別なランダム化アルゴリズムはランダム化複雑性を達成するために知られている。
さらに、不均衡な木の例が知られているので、無作為化複雑性を達成する指向性アルゴリズムは存在しない(Vereshchagin 1998)。
本研究では,一般的なランダム化ブール決定木と,その特別な場合である指向性アルゴリズムとの偏差が生じるかを明らかにすることを目的とする。
本稿では,任意のAND-OR木に対して,指向性アルゴリズムと比較して広いクラスを形成するランダム化深度優先アルゴリズムが,指向性アルゴリズムと同じ平衡を持つことを示す。
したがって、任意のAND-OR木を保持する平衡不等式で崩壊結果を得る。
これは、たとえ深さ優先のアルゴリズムでも最も速くならない場合があり、平衡不等式における分離結果をもたらすことを意味する。
さらに,分離結果を証明するための重要な概念として,新しいアルゴリズムが導入された。
Herein, we investigate the randomized complexity, which is the least cost against the worst input, of AND-OR tree computation by imposing various restrictions on the algorithm to find the Boolean value of the root of that tree and no restrictions on the tree shape. When a tree satisfies a certain condition regarding its symmetry, directional algorithms proposed by Saks and Wigderson (1986), special randomized algorithms, are known to achieve the randomized complexity. Furthermore, there is a known example of a tree that is so unbalanced that no directional algorithm achieves the randomized complexity (Vereshchagin 1998). In this study, we aim to identify where deviations arise between the general randomized Boolean decision tree and its special case, directional algorithms. In this paper, we show that for any AND-OR tree, randomized depth-first algorithms, which form a broader class compared with directional algorithms, have the same equilibrium as that of the directional algorithms. Thus, we get the collapse result on equilibria inequalities that holds for an arbitrary AND-OR tree. This implies that there exists a case where even depth-first algorithms cannot be the fastest, leading to the separation result on equilibria inequality. Additionally, a new algorithm is introduced as a key concept for proof of the separation result. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# GNN-RAG:大規模言語モデル推論のためのグラフニューラル検索
GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning ( http://arxiv.org/abs/2405.20139v1 ) ライセンス: Link先を確認 | Costas Mavromatis, George Karypis, | (参考訳) 知識グラフ(きゅうグラフ、英: Knowledge Graphs、KG)は、人造の事実知識を三つ子(頭、関係、尾)の形で表し、グラフを構成する。
KGsに関する質問回答(KGQA)は、KGが提供する情報に基づく自然な質問に答えるタスクである。
大規模言語モデル(LLM)は、自然言語を理解する能力に優れたため、QAタスクの最先端モデルである。
一方、グラフニューラルネットワーク(GNN)は、KGに格納された複雑なグラフ情報を処理できるため、KGQAに広く使われている。
本稿では,LLMの言語理解能力とGNNの推論能力とを,検索強化世代(RAG)スタイルで組み合わせた新しい手法であるGNN-RAGを紹介する。
まず、GNNは、与えられた質問に対する回答候補を取得するために、密度の高いKGサブグラフを理由付けます。
第2に、質問エンティティと回答候補を接続するKGの最短経路を抽出し、KG推論経路を表す。
抽出された経路は言語化され、RAGを用いたLLM推論の入力として与えられる。
我々のGNN-RAGフレームワークでは、GNNはグラフ情報を抽出するために高密度なサブグラフ推論器として機能し、LLMはその自然言語処理能力を究極のKGQAに活用する。
さらに、GNN-RAGを用いてKGQA性能をさらに向上させる検索拡張(RA)技術を開発した。
実験結果から, GNN-RAGはWebQSPとCWQの2つのKGQAベンチマークにおいて, 7B 調整 LLM で GPT-4 のパフォーマンスを上回り, 整合性を実現していることがわかった。
さらに、GNN-RAGはマルチホップとマルチエンタリティの質問に優れ、F1で8.9~15.5%の差で競合するアプローチを上回っている。
Knowledge Graphs (KGs) represent human-crafted factual knowledge in the form of triplets (head, relation, tail), which collectively form a graph. Question Answering over KGs (KGQA) is the task of answering natural questions grounding the reasoning to the information provided by the KG. Large Language Models (LLMs) are the state-of-the-art models for QA tasks due to their remarkable ability to understand natural language. On the other hand, Graph Neural Networks (GNNs) have been widely used for KGQA as they can handle the complex graph information stored in the KG. In this work, we introduce GNN-RAG, a novel method for combining language understanding abilities of LLMs with the reasoning abilities of GNNs in a retrieval-augmented generation (RAG) style. First, a GNN reasons over a dense KG subgraph to retrieve answer candidates for a given question. Second, the shortest paths in the KG that connect question entities and answer candidates are extracted to represent KG reasoning paths. The extracted paths are verbalized and given as input for LLM reasoning with RAG. In our GNN-RAG framework, the GNN acts as a dense subgraph reasoner to extract useful graph information, while the LLM leverages its natural language processing ability for ultimate KGQA. Furthermore, we develop a retrieval augmentation (RA) technique to further boost KGQA performance with GNN-RAG. Experimental results show that GNN-RAG achieves state-of-the-art performance in two widely used KGQA benchmarks (WebQSP and CWQ), outperforming or matching GPT-4 performance with a 7B tuned LLM. In addition, GNN-RAG excels on multi-hop and multi-entity questions outperforming competing approaches by 8.9--15.5% points at answer F1. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# OpenDAS: Open-Vocabulary Segmentationのためのドメイン適応
OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2405.20141v1 ) ライセンス: Link先を確認 | Gonca Yilmaz, Songyou Peng, Francis Engelmann, Marc Pollefeys, Hermann Blum, | (参考訳) 視覚言語モデル(VLM)の出現は、画像理解をクローズドセットの分類から動的画像言語相互作用に転換し、オープン語彙のセグメンテーションを可能にした。
このような柔軟性にもかかわらず、VLMは曖昧な画像キャプションへの依存とドメイン固有の知識の欠如により、クローズドセットの分類器の精度に遅れることが多い。
そこで我々はオープン語彙セグメンテーションのための新しいタスクドメイン適応を導入し,そのオープン語彙の性質を保ちながら,ドメイン固有のプリエントでVLMを強化した。
既存の適応手法では、セグメンテーションタスクに適用すると、訓練クエリのパフォーマンスが向上するが、ゼロショットテキスト入力におけるVLMの性能は低下する。
この問題に対処するために,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この戦略は、視覚領域に適応しながら、オープン語彙の一般化を強化するように設計されている。
本研究は,屋内および屋外のデータセットを対象としたオープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
特に、ゼロショットクエリで元のVLMを一貫して上回るアプローチは、我々のアプローチだけである。
我々の適応VLMは既存のオープン語彙セグメンテーションパイプラインにプラグイン・アンド・プレイできるため、ADE20KではOV-Segを+6.0% mIoU、ScanNet++ Officeでは+4.1% APでOpenMask3Dを+4.1%改善できる。
The advent of Vision Language Models (VLMs) transformed image understanding from closed-set classifications to dynamic image-language interactions, enabling open-vocabulary segmentation. Despite this flexibility, VLMs often fall behind closed-set classifiers in accuracy due to their reliance on ambiguous image captions and lack of domain-specific knowledge. We, therefore, introduce a new task domain adaptation for open-vocabulary segmentation, enhancing VLMs with domain-specific priors while preserving their open-vocabulary nature. Existing adaptation methods, when applied to segmentation tasks, improve performance on training queries but can reduce VLM performance on zero-shot text inputs. To address this shortcoming, we propose an approach that combines parameter-efficient prompt tuning with a triplet-loss-based training strategy. This strategy is designed to enhance open-vocabulary generalization while adapting to the visual domain. Our results outperform other parameter-efficient adaptation strategies in open-vocabulary segment classification tasks across indoor and outdoor datasets. Notably, our approach is the only one that consistently surpasses the original VLM on zero-shot queries. Our adapted VLMs can be plug-and-play integrated into existing open-vocabulary segmentation pipelines, improving OV-Seg by +6.0% mIoU on ADE20K, and OpenMask3D by +4.1% AP on ScanNet++ Offices without any changes to the methods. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# MSSC-BiMamba:多モード睡眠ステージ分類と双方向マンバによる睡眠障害早期診断
MSSC-BiMamba: Multimodal Sleep Stage Classification and Early Diagnosis of Sleep Disorders with Bidirectional Mamba ( http://arxiv.org/abs/2405.20142v1 ) ライセンス: Link先を確認 | Chao Zhanga, Weirong Cuia, Jingjing Guo, | (参考訳) 背景と目的:睡眠状態のモニタリングは、睡眠状態の評価と睡眠障害の診断に不可欠である。
従来の手動演出法は時間を要するだけでなく、主観的判断の対象にもなり、矛盾した結果をもたらす。
本研究では、深層学習技術を用いた自動睡眠ステージングと睡眠障害分類モデルを構築し、診断精度と効率を向上させることを目的とした。
方法:PSG(Polysomnography)マルチリード睡眠モニタリングの特徴を考慮し,効率的なチャネル注意(ECA)機構と双方向状態空間モデル(BSSM)を組み合わせた睡眠状態分類モデルMSSC-BiMambaを設計した。
ECAモジュールは、異なるセンサーチャネルからのデータ重み付けを可能にし、多様なセンサー入力の影響を増幅する。
さらに、mambaの実装により、PSGデータの多次元的特徴と長距離依存関係を効果的にキャプチャできる。
結果: 発達型モデルでは, 睡眠段階分類作業において顕著な性能を示した。
さらに、ISRUCとSleep-EDFを組み合わせたデータセットを用いて、睡眠状態予測のための0.952の精度を示した。
結論:我々のモデルは,PSGデータを用いた睡眠ステージングに双方向のマンバを適用した最初のモデルであり,従来のトランスフォーマー型モデルよりも計算効率とメモリ効率が大幅に向上したことを示す。
この方法は、健康モニタリングをよりアクセスしやすくするだけでなく、高度な医療のリーチを広げ、革新的な技術で睡眠管理を強化する。
Background and Objectives: Monitoring sleep states is crucial for assessing sleep quality and diagnosing sleep disorders. Traditional manual staging methods are not only time-consuming but also subject to subjective judgment, leading to inconsistent results. This study developed an automated sleep staging and sleep disorder classification model through deep learning technology, aimed at improving diagnostic accuracy and efficiency. Methods: Considering the characteristics of polysomnography (PSG) multi-lead sleep monitoring, we designed a sleep state classification model, MSSC-BiMamba, that combines an Efficient Channel Attention (ECA) mechanism with a Bidirectional State Space Model (BSSM). The ECA module allows for weighting data from different sensor channels, thereby amplifying the influence of diverse sensor inputs. Additionally, the implementation of mamba enables the model to effectively capture the multidimensional features and long-range dependencies of PSG data. Results: The developed model demonstrated impressive performance on sleep stage classification tasks. Furthermore, the model exhibited an accuracy of 0.952 for sleep health prediction when evaluated on a combined dataset consisting of ISRUC and Sleep-EDF. Conclusion: Our model is the first to apply the bidirectional Mamba to sleep staging with complex PSG data, showing substantial gains in computational and memory efficiency over traditional Transformer-style models. This method not only makes health monitoring more accessible but also broadens the reach of advanced healthcare, thereby enhancing sleep health management with innovative technology. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# ミンコフスキー時空における物理学者と自然のゲームとしての量子論の解釈について
On the interpretation of quantum theory as games between physicists and nature played in Minkowski spacetime ( http://arxiv.org/abs/2405.20143v1 ) ライセンス: Link先を確認 | Ghislain Fourny, | (参考訳) 2019年、ミンコフスキー時空におけるゲームは、ゲーム理論の一般化として、通常形式(空間的分離)のゲームと広範な形式(時間的分離)のゲームを仮定する特殊相対性理論を導入した。
ナッシュ平衡を含む多くの概念は自然に時空ゲームに拡張される。
また、ベル実験などの量子実験をモデル化する上で、これらのゲームの重要性を強調した。
その後の研究は、戦略前処理の観点から、そのようなゲームの特別なケースを形式化することを示唆した。
測度が独自の因果ブリッジを持ち、自然被覆が取られる場合、両者が互いに同型であることを示し、相補的な視点を提供する。
時空ゲームは、視覚的かつ直感的なフレームワークを提供し、共同実験と一方的な実験の区別を捉え、それらがその因果構造に十分に富み、対応する因果的文脈性シナリオの自然な覆いを暗示する。
本研究は,時空ゲームにおける純粋な戦略(およびその制限)に基づいて,その戦略プレシーフを直接定義することを提案する。
議論は比較的単純で、フラットケースのイベントシーブと似ている。
最後に、戦略分布プレシーブにおけるせん断特性の失敗が、ナッシュゲーム理論が量子物理学と相容れないというこれまでの議論とどのように一致しているかを説明する。
このことは、この2つのフレームワークの洞察が、量子基礎の分野の発展に肯定的な貢献をすることを示している。
In 2019, we introduced games in Minkowski spacetime as a generalization of game theory to special relativity that subsumes games in normal form (spacelike separation) and games in extensive form (timelike separation). Many concepts including Nash equilibria naturally extend to spacetime games. We also emphasized the importance of these games to model quantum experiments such as Bell experiments and more generally any adaptive measurements. Subsequent work suggested to formalize a special case of such games in terms of strategy presheaves. In the case that measurements have a unique causal bridge and if a natural cover is taken, we show that the two frameworks are isomorphic to each other and provide complementary perspectives. Spacetime games provide a visual and intuitive framework that also captures the distinction between joint experiments and either-or experiments, so that they are rich enough in their causal structure to imply a natural cover for the corresponding causal contextuality scenario. Based on this observation, we suggest to define the strategy presheaf directly based on the pure strategies (and restrictions thereof) of the spacetime game, and we show that the sheaf property obtains for the games at hand. The argument is rather simple and similar to event sheaves for the flat case. Finally, we explain how, in the other direction, the failure of the sheaf property on strategy distribution presheaves is consistent with our previous argument that Nash game theory is not compatible with quantum physics. This shows that the insights of the two frameworks, taken together, can contribute positively to the advancement of the field of quantum foundations. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# Heidelberg-Boston @SIGTYP 2024共有タスク: 文字対応階層型トランスフォーマーによる低リソース言語分析の強化
Heidelberg-Boston @ SIGTYP 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers ( http://arxiv.org/abs/2405.20145v1 ) ライセンス: Link先を確認 | Frederick Riemenschneider, Kevin Krahn, | (参考訳) 歴史的言語はNLPコミュニティに固有の課題を示しており、その1つの顕著なハードルは、閉じたコーパスで利用可能な限られたリソースである。
本稿では,13の歴史的言語に対するPoSタグ付け,形態的タグ付け,および補題化に着目し,SIGTYP 2024共有タスクの制約されたサブタスクへの提案について述べる。
PoSおよび形態的タグ付けでは、Sun et al (2023) からの階層的トークン化手法を適用し、DeBERTa-V3アーキテクチャの利点と組み合わせることで、トレーニングデータのすべての文字から効率的に学習することができる。
また,文字レベルT5モデルの有効性を示す。
制限されたデータでスクラッチからトレーニングされた私たちのモデルは、制約されたサブタスクで1位を獲得し、制約のないタスクの勝者のパフォーマンスレベルにほぼ到達しました。
私たちのコードはhttps://github.com/bowphs/SIGTYP-2024-hierarchical-transformersで利用可能です。
Historical languages present unique challenges to the NLP community, with one prominent hurdle being the limited resources available in their closed corpora. This work describes our submission to the constrained subtask of the SIGTYP 2024 shared task, focusing on PoS tagging, morphological tagging, and lemmatization for 13 historical languages. For PoS and morphological tagging we adapt a hierarchical tokenization method from Sun et al. (2023) and combine it with the advantages of the DeBERTa-V3 architecture, enabling our models to efficiently learn from every character in the training data. We also demonstrate the effectiveness of character-level T5 models on the lemmatization task. Pre-trained from scratch with limited data, our models achieved first place in the constrained subtask, nearly reaching the performance levels of the unconstrained task's winner. Our code is available at https://github.com/bowphs/SIGTYP-2024-hierarchical-transformers | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 量子ウォークにおける繰り返し測定とランダム散乱
Repeated measurements and random scattering in quantum walks ( http://arxiv.org/abs/2405.20151v1 ) ライセンス: Link先を確認 | Klaus Ziegler, | (参考訳) 量子ウォークにおけるランダム散乱の効果を有限グラフ上で検討し, 繰り返し測定の結果と比較した。
この目的のために、構成的アプローチは、基礎となるヒルベルト空間に対して局所的で非局所化された基底を導入することによって採用される。
これにより、固有ベクトルが局所化または非局所化されるハミルトニアンを設計することができる。
いくつかの具体例を示して、固有ベクトルの局所化がグラフ上の遷移確率を制限し、監視された進化において暗黒状態をもたらすことを示した。
繰り返し測定とランダム散乱は、量子ウォークを制御するための効率的なツールを提供すると結論付けている。
We study the effect of random scattering in quantum walks on a finite graph and compare it with the effect of repeated measurements. To this end, a constructive approach is employed by introducing a localized and a delocalized basis for the underlying Hilbert space. This enables us to design Hamiltonians whose eigenvectors are either localized or delocalized. By presenting some specific examples we demonstrate that the localization of eigenvectors restricts the transition probabilities on the graph and leads to dark states in the monitored evolution. We conclude that repeated measurements as well as random scattering provide efficient tools for controlling quantum walks. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 大規模視覚言語モデルにおける非現実的バイアスの発見
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals ( http://arxiv.org/abs/2405.20152v1 ) ライセンス: Link先を確認 | Phillip Howard, Kathleen C. Fraser, Anahita Bhiwandiwalla, Svetlana Kiritchenko, | (参考訳) LVLM(Large Vision-Language Models)は,LVLM(Large Vision-Language Models)を視覚的入力で拡張するために提案されている。
このようなモデル条件は入力画像とテキストプロンプトの両方にテキストを生成し、視覚的質問応答やマルチモーダルチャットなどのさまざまなユースケースを可能にする。
以前の研究では、LLMが生成するテキストに含まれる社会的バイアスについて検討されてきたが、この話題はLVLMでは比較的研究されていない。
LVLMの社会的偏見を調べることは、テキストや視覚的モダリティに含まれる情報によって引き起こされる偏見の相違により特に困難である。
この課題に対処するため,異なるLVLMによって生成されたテキストを,入力画像の反実的変化下で大規模に研究する。
具体的には、異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提示する。それぞれのセットは、共通の対象(例えば、医師)の描写とほとんど同一であるが、交叉的な社会的属性(例えば、人種、性別)の点でのみ異なる画像を含む。
我々は,この逆ファクト生成設定の下で異なるモデルによって生成されたテキストを包括的に評価し,一般的なLVLMから5700万以上の応答を生成する。
多次元分析により,入力画像に描かれた人種,性別,身体的特徴などの社会的特性が,有毒な内容の生成,有能な関連語,有害なステレオタイプ,人物の数値的評価に著しく影響を及ぼすことが明らかとなった。
また,LVLMにおける社会的バイアスとそれに対応するLLMとの関係,およびバイアスを軽減するための推論時戦略についても検討する。
With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images. Specifically, we present LVLMs with identical open-ended text prompts while conditioning on images from different counterfactual sets, where each set contains images which are largely identical in their depiction of a common subject (e.g., a doctor), but vary only in terms of intersectional social attributes (e.g., race and gender). We comprehensively evaluate the text produced by different models under this counterfactual generation setting at scale, producing over 57 million responses from popular LVLMs. Our multi-dimensional analysis reveals that social attributes such as race, gender, and physical characteristics depicted in input images can significantly influence the generation of toxic content, competency-associated words, harmful stereotypes, and numerical ratings of depicted individuals. We additionally explore the relationship between social bias in LVLMs and their corresponding LLMs, as well as inference-time strategies to mitigate bias. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# デコヒーレンス支援量子鍵分布
Decoherence-assisted quantum key distribution ( http://arxiv.org/abs/2405.20153v1 ) ライセンス: Link先を確認 | Daniel R. Sabogal, Daniel F. Urrego, Juan Rafael Álvarez, Andrés F. Herrera, Juan P. Torres, Alejandra Valencia, | (参考訳) 本稿では,制御可能なデコヒーレンス支援量子鍵分布法に関する理論的,実験的研究を行う。
本手法は,光の空間的自由度を用いて,偏光量子ビットに制御可能なデコヒーレンスを導入する可能性に基づく。
本手法により, BB84プロトコルで盗聴者が取得できる情報量を削減することができることを示す。
我々は、BB84プロトコルの伝送チャネルに大量のデコヒーレンスが存在するにもかかわらず、AliceとBobが量子ビット誤り率の低い値を与える方式に合意できることを実験的に実証した。
We present a theoretical and experimental study of a controllable decoherence-assisted quantum key distribution scheme. Our method is based on the possibility of introducing controllable decoherence to polarization qubits using the spatial degree of freedom of light. We show that our method reduces the amount of information that an eavesdropper can obtain in the BB84 protocol under the entangling probe attack. We demonstrate experimentally that Alice and Bob can agree on a scheme to that gives low values of the quantum bit error rate, despite the presence of a large amount of decoherence in the transmission channel of the BB84 protocol. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# MotionDreamer:ビデオ拡散モデルによるゼロショット3Dメッシュアニメーション
MotionDreamer: Zero-Shot 3D Mesh Animation from Video Diffusion Models ( http://arxiv.org/abs/2405.20155v1 ) ライセンス: Link先を確認 | Lukas Uzolas, Elmar Eisemann, Petr Kellnhofer, | (参考訳) アニメーション技術はデジタル3Dの世界とキャラクターを生き返らせる。
しかし、手動アニメーションは面倒で、自動化技術は狭い形状のクラスに特化していることが多い。
本研究では,ビデオ拡散モデルから抽出した動きに基づいて,任意の3次元形状を自動アニメーションする手法を提案する。
既存の4D生成方法とは異なり、動作のみに集中し、既存のコンピュータグラフィックスパイプラインと互換性のある明示的なメッシュベースの表現を活用する。
さらに, 拡散特性の有効利用により, 運動適合の精度が向上する。
アニメーションフィッティングにおけるこれらの特徴の有効性を解析し、2つの異なる拡散モデルと4つのアニメーションモデルに対するアプローチを実験的に検証する。
最後に, 時間効率のゼロショット法は, ユーザスタディにおける既存手法と比較して, 多様な3次元形状の集合を再アニメーションする上で, 優れた性能を達成できることを実証した。
プロジェクトのWebサイトはhttps://lukas.uzolas.com/MotionDreamerにある。
Animation techniques bring digital 3D worlds and characters to life. However, manual animation is tedious and automated techniques are often specialized to narrow shape classes. In our work, we propose a technique for automatic re-animation of arbitrary 3D shapes based on a motion prior extracted from a video diffusion model. Unlike existing 4D generation methods, we focus solely on the motion, and we leverage an explicit mesh-based representation compatible with existing computer-graphics pipelines. Furthermore, our utilization of diffusion features enhances accuracy of our motion fitting. We analyze efficacy of these features for animation fitting and we experimentally validate our approach for two different diffusion models and four animation models. Finally, we demonstrate that our time-efficient zero-shot method achieves a superior performance re-animating a diverse set of 3D shapes when compared to existing techniques in a user study. The project website is located at https://lukas.uzolas.com/MotionDreamer. | 翻訳日:2024-05-31 13:48:54 公開日:2024-05-30 |
# 変化検出によるセンチネル2画像からの地すべりマッピング
Landslide mapping from Sentinel-2 imagery through change detection ( http://arxiv.org/abs/2405.20161v1 ) ライセンス: Link先を確認 | Tommaso Monopoli, Fabio Montello, Claudio Rossi, | (参考訳) 地すべりは、最も重要で破壊的なジオハザードの1つである。
人的活動と居住地の広範な発展と気候変動が天候に与える影響が組み合わさって、地すべりの発生頻度と破壊力が増加し、人命と経済に大きな脅威となる。
本稿では,Sentinel-2画像を用いた地すべりのマッピング手法について検討する。
提案するすべてのアプローチは、地すべりトリガーイベントの前後で、一対のSentinel-2画像のみを必要とする、双方向の時間変化検出問題としてフレーム化されている。
さらに,DEM(Digital Elevation Model)データとSentinel-2バイテンポラル画像ペアを融合する新たなディープラーニングアーキテクチャを導入する。
並列タスクとして、世界の異質なエコリージョン上のオープンアクセス地すべり在庫を手動で検証する新しいジオデータベースを作成することで、既存のデータセットの制限に対処する。
コードとデータセットの両方をオープンソースライセンスでリリースしています。
Landslides are one of the most critical and destructive geohazards. Widespread development of human activities and settlements combined with the effects of climate change on weather are resulting in a high increase in the frequency and destructive power of landslides, making them a major threat to human life and the economy. In this paper, we explore methodologies to map newly-occurred landslides using Sentinel-2 imagery automatically. All approaches presented are framed as a bi-temporal change detection problem, requiring only a pair of Sentinel-2 images, taken respectively before and after a landslide-triggering event. Furthermore, we introduce a novel deep learning architecture for fusing Sentinel-2 bi-temporal image pairs with Digital Elevation Model (DEM) data, showcasing its promising performances w.r.t. other change detection models in the literature. As a parallel task, we address limitations in existing datasets by creating a novel geodatabase, which includes manually validated open-access landslide inventories over heterogeneous ecoregions of the world. We release both code and dataset with an open-source license. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# LLMの概念に関する推論:矛盾が多々ある
Reasoning about concepts with LLMs: Inconsistencies abound ( http://arxiv.org/abs/2405.20163v1 ) ライセンス: Link先を確認 | Rosario Uceda-Sosa, Karthikeyan Natesan Ramamurthy, Maria Chang, Moninder Singh, | (参考訳) 知識を抽象的な概念にまとめ、整理する能力は、学習と推論の鍵となる。
多くの産業アプリケーションは、特に決定クリティカルな知識を扱う際に、一貫した、体系的な概念の使用に依存している。
しかし,大規模言語モデル(LLM)は,体系的に疑問を呈する場合には,その知識に重大な矛盾をしばしば示し示す。
計算学的には、与えられた領域の概念化の基本的な側面は知識グラフ(KG)やオントロジーのIs-A階層として表すことができ、またいくつかの性質や公理も容易に推論できる。
単純なオントロジーでも,複数のLSMにまたがる概念的矛盾を明らかにすることができることを示す。
また,様々な規模のLLMにおいて,ドメインエキスパートが重要なドメイン概念のカバレッジを評価・改善するために利用できる戦略を提案する。
特に,簡単な知識グラフ(KG)に基づくプロンプト戦略を用いて,様々な大きさのLCMの性能を大幅に向上させることができた。
The ability to summarize and organize knowledge into abstract concepts is key to learning and reasoning. Many industrial applications rely on the consistent and systematic use of concepts, especially when dealing with decision-critical knowledge. However, we demonstrate that, when methodically questioned, large language models (LLMs) often display and demonstrate significant inconsistencies in their knowledge. Computationally, the basic aspects of the conceptualization of a given domain can be represented as Is-A hierarchies in a knowledge graph (KG) or ontology, together with a few properties or axioms that enable straightforward reasoning. We show that even simple ontologies can be used to reveal conceptual inconsistencies across several LLMs. We also propose strategies that domain experts can use to evaluate and improve the coverage of key domain concepts in LLMs of various sizes. In particular, we have been able to significantly enhance the performance of LLMs of various sizes with openly available weights using simple knowledge-graph (KG) based prompting strategies. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# 多項ロジスティック関数近似を用いた強化学習のためのランダム化探索
Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation ( http://arxiv.org/abs/2405.20165v1 ) ライセンス: Link先を確認 | Wooseong Cho, Taehyun Hwang, Joongkyu Lee, Min-hwan Oh, | (参考訳) 我々は,マルコフ決定過程(MDP)の基底となる遷移確率核が,状態と動作の特徴を持つ未知の遷移コアによってパラメータ化されるような,MNL関数近似を用いた強化学習について検討した。
不均質な状態遷移を伴う有限地平線エピソディクス設定に対しては、頻繁な後悔の保証を有するランダムな探索を伴う確率的に効率的なアルゴリズムを提案する。
最初のアルゴリズムである$\texttt{RRL-MNL}$に対して、推定値関数の楽観性を十分な周波数で確保するために楽観的サンプリングを適用し、$\texttt{RRL-MNL}$が統計的かつ計算的に効率的であることを証明し、$\tilde{O}(\kappa^{-1} d^{\frac{3}{2}} H^{\frac{3}{2}} \sqrt{T})$ 頻繁な後悔を1回当たりの計算コストに限定する。
ここで、$d$は遷移コアの次元、$H$は地平線の長さ、$T$はステップの総数、$\kappa$は問題依存定数である。
$\texttt{RRL-MNL}$の単純さと実用性にもかかわらず、その後悔は$\kappa^{-1}$とスケールする。
MNL遷移モデルの局所勾配情報を用いて値関数を推定する$\texttt{ORRL-MNL}$を提案する。
頻繁な後悔境界は$\tilde{O}(d^{\frac{3}{2}} H^{\frac{3}{2}} \sqrt{T} + \kappa^{-1} d^2 H^2)$であることを示す。
我々の知る限り、これらは計算効率と統計効率の両方を達成するMNL遷移モデルのための最初のランダム化RLアルゴリズムである。
数値実験により提案アルゴリズムの優れた性能を示す。
We study reinforcement learning with multinomial logistic (MNL) function approximation where the underlying transition probability kernel of the Markov decision processes (MDPs) is parametrized by an unknown transition core with features of state and action. For the finite horizon episodic setting with inhomogeneous state transitions, we propose provably efficient algorithms with randomized exploration having frequentist regret guarantees. For our first algorithm, $\texttt{RRL-MNL}$, we adapt optimistic sampling to ensure the optimism of the estimated value function with sufficient frequency and establish that $\texttt{RRL-MNL}$ is both statistically and computationally efficient, achieving a $\tilde{O}(\kappa^{-1} d^{\frac{3}{2}} H^{\frac{3}{2}} \sqrt{T})$ frequentist regret bound with constant-time computational cost per episode. Here, $d$ is the dimension of the transition core, $H$ is the horizon length, $T$ is the total number of steps, and $\kappa$ is a problem-dependent constant. Despite the simplicity and practicality of $\texttt{RRL-MNL}$, its regret bound scales with $\kappa^{-1}$, which is potentially large in the worst case. To improve the dependence on $\kappa^{-1}$, we propose $\texttt{ORRL-MNL}$, which estimates the value function using local gradient information of the MNL transition model. We show that its frequentist regret bound is $\tilde{O}(d^{\frac{3}{2}} H^{\frac{3}{2}} \sqrt{T} + \kappa^{-1} d^2 H^2)$. To the best of our knowledge, these are the first randomized RL algorithms for the MNL transition model that achieve both computational and statistical efficiency. Numerical experiments demonstrate the superior performance of the proposed algorithms. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# 説明可能な音声感情認識のための反復的特徴増強
Iterative Feature Boosting for Explainable Speech Emotion Recognition ( http://arxiv.org/abs/2405.20172v1 ) ライセンス: Link先を確認 | Alaa Nfissi, Wassim Bouachir, Nizar Bouguila, Brian Mishara, | (参考訳) 音声感情認識(SER)では、その実用的重要性を考慮せずに事前定義された特徴を用いることで、冗長で無関係な情報を含む高次元データセットが生成される可能性がある。
その結果、高次元学習はしばしば計算複雑性を増大させながらモデルの精度を低下させる。
本研究は,効率的なSERシステムを構築するために,特徴を慎重に検討し,分析することの重要性を浮き彫りにしている。
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
これは機能評価ループを通じて反復的に実行され、Shapley値を使用して機能選択を強化し、フレームワーク全体のパフォーマンスを改善する。
このアプローチによって、モデルパフォーマンスと透明性のメリットのバランスが取れます。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
In speech emotion recognition (SER), using predefined features without considering their practical importance may lead to high dimensional datasets, including redundant and irrelevant information. Consequently, high-dimensional learning often results in decreasing model accuracy while increasing computational complexity. Our work underlines the importance of carefully considering and analyzing features in order to build efficient SER systems. We present a new supervised SER method based on an efficient feature engineering approach. We pay particular attention to the explainability of results to evaluate feature relevance and refine feature sets. This is performed iteratively through feature evaluation loop, using Shapley values to boost feature selection and improve overall framework performance. Our approach allows thus to balance the benefits between model performance and transparency. The proposed method outperforms human-level performance (HLP) and state-of-the-art machine learning methods in emotion recognition on the TESS dataset. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# Eclipse Qrisp QAOA: Qiskitとの説明と予備比較
Eclipse Qrisp QAOA: description and preliminary comparison with Qiskit counterparts ( http://arxiv.org/abs/2405.20173v1 ) ライセンス: Link先を確認 | Eneko Osaba, Matic Petrič, Izaskun Oregi, Raphael Seidel, Alejandra Ruiz, Michail-Alexandros Kourtis, | (参考訳) 本稿では,高レベルの量子プログラミング言語であるEclipse Qrispのプレゼンテーションと評価に焦点をあてる。
提案するフレームワークは量子アルゴリズムの開発とコンパイルに用いられ,量子近似最適化アルゴリズム(QAOA)モジュールの実装における効率の点で測定される。
我々はこの効率を計測し、IBMのQiskitツールキットを用いて2つの代替QAOAアルゴリズムの実装と比較する。
評価プロセスは、よく知られた最大カット問題の15例からなるベンチマークで実施されている。
この予備的な実験を通じて、Eclipse Qrispは有望な結果を示し、結果の品質と回路の複雑さの両バージョンを上回りました。
This paper focuses on the presentation and evaluation of the high-level quantum programming language Eclipse Qrisp. The presented framework, used for developing and compiling quantum algorithms, is measured in terms of efficiency for its implementation of the Quantum Approximation Optimization Algorithm (QAOA) Module. We measure this efficiency and compare it against two alternative QAOA algorithm implementations using IBM's Qiskit toolkit. The evaluation process has been carried out over a benchmark composed of 15 instances of the well-known Maximum Cut Problem. Through this preliminary experimentation, Eclipse Qrisp demonstrated promising results, outperforming both versions of its counterparts in terms of results quality and circuit complexity. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# ニューラルネットワークの熱帯表現性
Tropical Expressivity of Neural Networks ( http://arxiv.org/abs/2405.20174v1 ) ライセンス: Link先を確認 | Shiv Bhatia, Yueqi Cao, Paul Lezeau, Anthea Monod, | (参考訳) 本稿では線形活性化ニューラルネットワークの表現性を研究するための代数幾何学的枠組みを提案する。
ディープラーニングの分野で活発に研究されている特定の量は線形領域の数であり、アーキテクチャの情報容量を推定する。
情報容量と表現性について研究し評価するために、我々は熱帯幾何学(代数幾何学の組合せ的および多面的変種)の設定に取り組んでおり、熱帯有理写像とフィードフォワードニューラルネットワークの間には既知の関係がある。
私たちの研究は、ニューラルネットワークの様々なアーキテクチャ的側面を特徴づけ、研究するために、熱帯幾何学の豊かな理論を活かすために、この関係を構築し、拡張します。
線形領域間でサンプリングドメインを選択するための新しい熱帯幾何学的アプローチ、対称性を持つネットワークアーキテクチャにおけるサンプリングドメインのガイド付き制限を可能にする代数的結果、ニューラルネットワークを熱帯のPuiseux有理写像として解析するオープンソースライブラリを提供する。
本稿では,ネットワークの表現性特性に関する知見を明らかにするために,熱帯の幾何学的理論を応用できるニューラルネットワークアーキテクチャの広さを実証する,概念実証実験の総合的なセットを提供する。
我々の研究は、計算熱帯幾何学や記号計算から深層学習まで、理論と既存のソフトウェアの両方を適応するための基盤を提供する。
We propose an algebraic geometric framework to study the expressivity of linear activation neural networks. A particular quantity that has been actively studied in the field of deep learning is the number of linear regions, which gives an estimate of the information capacity of the architecture. To study and evaluate information capacity and expressivity, we work in the setting of tropical geometry -- a combinatorial and polyhedral variant of algebraic geometry -- where there are known connections between tropical rational maps and feedforward neural networks. Our work builds on and expands this connection to capitalize on the rich theory of tropical geometry to characterize and study various architectural aspects of neural networks. Our contributions are threefold: we provide a novel tropical geometric approach to selecting sampling domains among linear regions; an algebraic result allowing for a guided restriction of the sampling domain for network architectures with symmetries; and an open source library to analyze neural networks as tropical Puiseux rational maps. We provide a comprehensive set of proof-of-concept numerical experiments demonstrating the breadth of neural network architectures to which tropical geometric theory can be applied to reveal insights on expressivity characteristics of a network. Our work provides the foundations for the adaptation of both theory and existing software from computational tropical geometry and symbolic computation to deep learning. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# InstructionCP: 大規模言語モデルをターゲット言語に変換するための高速なアプローチ
InstructionCP: A fast approach to transfer Large Language Models into target language ( http://arxiv.org/abs/2405.20175v1 ) ライセンス: Link先を確認 | Kuang-Ming Chen, Hung-yi Lee, | (参考訳) 近年の大規模言語モデル(LLM)の急速な発展は、主に英語に焦点を合わせており、結果として、英語でのみ応答するモデルが生み出されている。
これらのモデルを他の言語に適応させるためには、連続事前学習(CP)がよく用いられ、続いて、会話能力を維持するために教師付き微調整(SFT)が用いられる。
しかし、CPとSFTは有害なコンテンツをフィルタリングするモデルの能力を減らすことができる。
Instruction Continual Pre-training (InsCP)を提案する。これはCPプロセスに命令タグを統合することで、新しい言語を習得しながら会話能力の喪失を防止する。
実験の結果,InsCPはヒューマンフィードバック(RLHF)による会話・強化学習の能力を維持していることがわかった。
言語アライメント、信頼性、知識ベンチマークに関する実証的な評価により、InsCPの有効性が確認された。
特に、このアプローチでは、高品質な命令フォローデータに0.1億のトークンしか必要とせず、それによってリソース消費が減少する。
The rapid development of large language models (LLMs) in recent years has largely focused on English, resulting in models that respond exclusively in English. To adapt these models to other languages, continual pre-training (CP) is often employed, followed by supervised fine-tuning (SFT) to maintain conversational abilities. However, CP and SFT can reduce a model's ability to filter harmful content. We propose Instruction Continual Pre-training (InsCP), which integrates instruction tags into the CP process to prevent loss of conversational proficiency while acquiring new languages. Our experiments demonstrate that InsCP retains conversational and Reinforcement Learning from Human Feedback (RLHF) abilities. Empirical evaluations on language alignment, reliability, and knowledge benchmarks confirm the efficacy of InsCP. Notably, this approach requires only 0.1 billion tokens of high-quality instruction-following data, thereby reducing resource consumption. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# Hammersteinアーキテクチャに基づく回路の非侵入的データ駆動モデルオーダー削減
Non-intrusive data-driven model order reduction for circuits based on Hammerstein architectures ( http://arxiv.org/abs/2405.20178v1 ) ライセンス: Link先を確認 | Joshua Hanson, Biliana Paskaleva, Pavel Bochev, | (参考訳) 我々は、マイクロエレクトロニクスにおいて重要な構成要素である共通回路に対して、データ駆動型システム識別技術が、効果的で非侵襲的なモデルオーダー削減(MOR)の基盤となることを実証した。
我々のアプローチは、これらの回路の実用的な操作によって動機付けられ、標準的なハマースタインアーキテクチャを利用する。
このアプローチを実証するために、非線形CMOS差動増幅器のための擬似ハマースタインモデルを開発した。
我々は, 直流(DC)と過渡スパイス(Xyce)回路シミュレーションデータの組み合わせを用いて, モデルの静的非線形および線形動的部分を特定するための新しい逐次戦略を用いて, このモデルを訓練する。
シミュレーションの結果,ハマースタインモデルは,幅広い動作点と入力周波数の挙動を高精度かつ効率的に再現するディファレンシャルアンプ回路の効果的なサロゲートであることがわかった。
We demonstrate that data-driven system identification techniques can provide a basis for effective, non-intrusive model order reduction (MOR) for common circuits that are key building blocks in microelectronics. Our approach is motivated by the practical operation of these circuits and utilizes a canonical Hammerstein architecture. To demonstrate the approach we develop a parsimonious Hammerstein model for a non-linear CMOS differential amplifier. We train this model on a combination of direct current (DC) and transient Spice (Xyce) circuit simulation data using a novel sequential strategy to identify the static nonlinear and linear dynamical parts of the model. Simulation results show that the Hammerstein model is an effective surrogate for the differential amplifier circuit that accurately and efficiently reproduces its behavior over a wide range of operating points and input frequencies. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# Robo-Instruct: CodeLLMのためのシミュレータ拡張型インストラクションアライメント
Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs ( http://arxiv.org/abs/2405.20179v1 ) ライセンス: Link先を確認 | Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas, | (参考訳) 大規模言語モデル(LLM)は、ドメイン固有のロボットアプリケーションプログラミングインタフェース(API)が与えられた自然言語からロボットプログラムを生成することを非常に約束している。
しかし、プロプライエタリなLLMとより小さなオープンウェイトなLLMの間の性能差は依然として広いままである。
ドメイン固有のロボットプログラムを生成するために、より小さなオープンウェイト LLM を微調整して、プロプライエタリ LLM のパフォーマンスギャップを埋めることができるか?
Self-Instructは、多様なトレーニングデータを生成することで有望なソリューションであるが、これらのプログラムの正確性を検証することはできない。
対照的に、明確に定義された世界を持つロボットシミュレータは、実行エラーを特定することができるが、検証可能なプログラムの多様性を制限することができる。
シミュレータベースのチェックの正確性を提供しながら、セルフインストラクトの多様性を促進します。
Robo-InstructはRoboSimを導入して、チェック中のプログラムに関連するプロパティを推論し、それに従ってアクションをシミュレートすることで、一貫した世界状態をオンザフライで合成する。
さらに、Self-Instructによって生成された命令やプログラムは微妙に矛盾する可能性がある。
Robo-Instructは、生成したプログラムの実際の結果を反映するようにタスク命令を更新する命令-プログラムアライメント手順であるInstAlignで、さらにこの問題に対処する。
いくつかのシードタスク記述とロボットAPIを与えられたRobo-Instructは、小さなオープンウェイトモデルのみを使用してトレーニングデータセットを生成することができる。
このデータセットは、小さなオープンウェイト言語モデルを微調整するために使用することができ、GPT-3.5-TurboやGemini-Proなど、いくつかのプロプライエタリなLLMのパフォーマンスにマッチまたは超えることができる。
Large language models (LLMs) have shown great promise at generating robot programs from natural language given domain-specific robot application programming interfaces (APIs). However, the performance gap between proprietary LLMs and smaller open-weight LLMs remains wide. This raises a question: Can we fine-tune smaller open-weight LLMs for generating domain-specific robot programs to close the performance gap with proprietary LLMs? While Self-Instruct is a promising solution by generating a diverse set of training data, it cannot verify the correctness of these programs. In contrast, a robot simulator with a well-defined world can identify execution errors but limits the diversity of programs that it can verify. In this work, we introduce Robo-Instruct, which brings the best of both worlds -- it promotes the diversity of Self-Instruct while providing the correctness of simulator-based checking. Robo-Instruct introduces RoboSim to synthesize a consistent world state on the fly by inferring properties relevant to the program being checked, and simulating actions accordingly. Furthermore, the instructions and programs generated by Self-Instruct may be subtly inconsistent -- such as the program missing a step implied by the instruction. Robo-Instruct further addresses this with InstAlign, an instruction-program alignment procedure that revises the task instruction to reflect the actual results of the generated program. Given a few seed task descriptions and the robot APIs, Robo-Instruct is capable of generating a training dataset using only a small open-weight model. This dataset can then be used to fine-tune small open-weight language models, enabling them to match or even exceed the performance of several proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# 物理世界モデリングのための変圧器とスロット符号化
Transformers and Slot Encoding for Sample Efficient Physical World Modelling ( http://arxiv.org/abs/2405.20180v1 ) ライセンス: Link先を確認 | Francesco Petri, Luigi Asprino, Aldo Gangemi, | (参考訳) 世界モデリング、すなわち、その進化を予測するために世界を支配する規則の表現を構築することは、物理的世界と相互作用するあらゆるエージェントにとって必須の能力である。
ビデオ入力からの世界モデリング問題へのトランスフォーマーアーキテクチャの最近の応用は、サンプル効率の顕著な改善を示している。
しかし、既存のアプローチは画像レベルでのみ機能するため、環境が相互に相互作用するオブジェクトで構成されていることを無視する傾向にある。
本稿では,世界モデリングのためのトランスフォーマーとスロットアテンションパラダイムを組み合わせたアーキテクチャを提案する。
得られたニューラルアーキテクチャについて述べるとともに、既存のソリューションよりも、サンプル効率とトレーニング例よりも性能の変動を低減できることを示す実験結果を報告する。
アーキテクチャと実験のコードはhttps://github.com/torchipeppo/transformers-and-slot-encoding-for-wmで公開されている。
World modelling, i.e. building a representation of the rules that govern the world so as to predict its evolution, is an essential ability for any agent interacting with the physical world. Recent applications of the Transformer architecture to the problem of world modelling from video input show notable improvements in sample efficiency. However, existing approaches tend to work only at the image level thus disregarding that the environment is composed of objects interacting with each other. In this paper, we propose an architecture combining Transformers for world modelling with the slot-attention paradigm, an approach for learning representations of objects appearing in a scene. We describe the resulting neural architecture and report experimental results showing an improvement over the existing solutions in terms of sample efficiency and a reduction of the variation of the performance over the training examples. The code for our architecture and experiments is available at https://github.com/torchipeppo/transformers-and-slot-encoding-for-wm | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# 大規模言語モデルを用いたプログラミング演習生成技術の現状に関する調査研究
A Survey Study on the State of the Art of Programming Exercise Generation using Large Language Models ( http://arxiv.org/abs/2405.20183v1 ) ライセンス: Link先を確認 | Eduard Frankford, Ingo Höhn, Clemens Sauerwein, Ruth Breu, | (参考訳) 本稿では,Large Language Models (LLM) のプログラミング演習生成能力について分析する。
調査研究を通じて、最先端技術を定義し、その強度と弱点を抽出し、最終的に評価行列を提案し、研究者や教育者がプログラミング演習生成ユースケースに最適なLCMを決定するのに役立てた。
また、複数のLLMが有用なプログラミング演習を作成可能であることも判明した。
それでも、LLMがLLMによって生成されたエクササイズを解決することの容易さのような課題がある。
本稿では,LLMの教育における統合に関する議論の継続に寄与する。
This paper analyzes Large Language Models (LLMs) with regard to their programming exercise generation capabilities. Through a survey study, we defined the state of the art, extracted their strengths and weaknesses and finally proposed an evaluation matrix, helping researchers and educators to decide which LLM is the best fitting for the programming exercise generation use case. We also found that multiple LLMs are capable of producing useful programming exercises. Nevertheless, there exist challenges like the ease with which LLMs might solve exercises generated by LLMs. This paper contributes to the ongoing discourse on the integration of LLMs in education. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# SPARE:ロバストな非デジタル登録のためのSPARE
SPARE: Symmetrized Point-to-Plane Distance for Robust Non-Rigid Registration ( http://arxiv.org/abs/2405.20188v1 ) ライセンス: Link先を確認 | Yuxin Yao, Bailin Deng, Junhui Hou, Juyong Zhang, | (参考訳) 既存の最適化に基づく非剛性登録法は、典型的には、ソース表面上の対応する点対とターゲット表面との間の点対距離または点対距離に基づくアライメント誤差距離を最小化する。
しかし、これらの指標は収束が遅く、詳細が失われる可能性がある。
本稿では,SPAREを提案する。SPARE,SPARE,SPARE,SPARE,SPARE,SPARE。
対称化された点-平面間距離は対応する点の位置と正規度に依存するため、基礎となる幾何学をより正確に近似することができ、既存の方法よりも高い精度が得られる。
この最適化問題を効率的に解くために,最大化最小化戦略を用いた交代最小化解法を提案する。
さらに, この解法を効果的に初期化するために, 変形グラフに基づく粗いアライメントを組み込んで, 登録品質と効率を向上する。
実験の結果,提案手法は厳密でない登録問題の精度を大幅に向上し,比較的高い解効率を維持していることがわかった。
コードはhttps://github.com/yaoyx689/spare.comで公開されている。
Existing optimization-based methods for non-rigid registration typically minimize an alignment error metric based on the point-to-point or point-to-plane distance between corresponding point pairs on the source surface and target surface. However, these metrics can result in slow convergence or a loss of detail. In this paper, we propose SPARE, a novel formulation that utilizes a symmetrized point-to-plane distance for robust non-rigid registration. The symmetrized point-to-plane distance relies on both the positions and normals of the corresponding points, resulting in a more accurate approximation of the underlying geometry and can achieve higher accuracy than existing methods. To solve this optimization problem efficiently, we propose an alternating minimization solver using a majorization-minimization strategy. Moreover, for effective initialization of the solver, we incorporate a deformation graph-based coarse alignment that improves registration quality and efficiency. Extensive experiments show that the proposed method greatly improves the accuracy of non-rigid registration problems and maintains relatively high solution efficiency. The code is publicly available at https://github.com/yaoyx689/spare. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# Nadine: LLM駆動の知的社会ロボット
Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory ( http://arxiv.org/abs/2405.20189v1 ) ライセンス: Link先を確認 | Hangyeol Kang, Maher Ben Moussa, Nadia Magnenat-Thalmann, | (参考訳) 本研究では,ナディン型社会ロボットプラットフォームのためのインテリジェントでロバストな社会ロボットシステムを開発するためのアプローチについて述べる。
我々は、Large Language Models(LLM)を統合し、これらのモデルの強力な推論と命令追従能力を活用して、高度な人間のような感情的・認知能力を実現する。
このアプローチは、人間のような長期記憶や洗練された感情評価を実装しない、現在最先端のLCMベースのエージェントと比較して、斬新である。
複数のモジュールから構成されるソーシャルロボットの自然性は、システムの各コンポーネントのパフォーマンスと能力と、コンポーネントのシームレスな統合に大きく依存する。
我々は,マルチモーダル入力処理によって適切な動作を生成できる社会ロボットシステムを構築し,認識されたユーザに応じてエピソード記憶を持ち込み,人間のパートナーとのインタラクションによって引き起こされるロボットの感情状態をシミュレートした。
特に,社会ロボットのためのLLMエージェントフレームであるSoR-ReActを導入し,システム内のインタラクションモジュールのコアコンポーネントとして機能する。
このデザインは社会ロボットの進歩をもたらし、人間とロボットの相互作用の質を高めることを目的としている。
In this work, we describe our approach to developing an intelligent and robust social robotic system for the Nadine social robot platform. We achieve this by integrating Large Language Models (LLMs) and skilfully leveraging the powerful reasoning and instruction-following capabilities of these types of models to achieve advanced human-like affective and cognitive capabilities. This approach is novel compared to the current state-of-the-art LLM-based agents which do not implement human-like long-term memory or sophisticated emotional appraisal. The naturalness of social robots, consisting of multiple modules, highly depends on the performance and capabilities of each component of the system and the seamless integration of the components. We built a social robot system that enables generating appropriate behaviours through multimodal input processing, bringing episodic memories accordingly to the recognised user, and simulating the emotional states of the robot induced by the interaction with the human partner. In particular, we introduce an LLM-agent frame for social robots, SoR-ReAct, serving as a core component for the interaction module in our system. This design has brought forth the advancement of social robots and aims to increase the quality of human-robot interaction. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# TAIA: 大規模言語モデルはアウト・オブ・ディストリビューションデータ学習者
TAIA: Large Language Models are Out-of-Distribution Data Learners ( http://arxiv.org/abs/2405.20192v1 ) ライセンス: Link先を確認 | Shuyang Jiang, Yusheng Liao, Ya Zhang, Yu Wang, Yanfeng Wang, | (参考訳) タスク固有の質問応答ペアの微調整は、下流タスクにおける命令調整された大規模言語モデル(LLM)の性能を向上させる主要な方法である。
しかし、医療や無害コンテンツ生成のような特定の専門分野においては、下流の分布にマッチする大量の高品質なデータを得ることはほとんど不可能である。
ドメインミスデータを用いたデータスカース領域におけるLCMの性能向上のために、Transformerアーキテクチャを再評価し、微調整中のパラメータ更新がダウンストリーム性能に肯定的な貢献をするわけではないことを発見した。
分析の結果, 自己注意ネットワークとフィードフォワードネットワークでは, トレーニングセットの分布がテストセットと完全に一致しない場合, 微調整された注意パラメータのみが特に有用であることが判明した。
そこで本研究では, 実効的な推論時間介入法を提案する。 パラメーターは \uline{A}ll であるが, \uline{A}ttention (\trainallInfAttn) のみを仮定した \uline{I}nferring を提案する。
そこで我々は,2つの一般的な指導訓練データセットを用いて,異なるパラメータサイズと微調整手法のLLMをまたいで,数学,推論,知識理解を含む7つの下流タスクにおいて,実験的に \trainallInfAttn の評価を行った。
包括的実験により, 完全微調整モデルとベースモデルの両方と比較して, 性能が大幅に向上し, 優れた性能向上が得られた。
データミスマッチに対する \trainallInfAttn の高い耐性は、jailbreaking チューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
Fine-tuning on task-specific question-answer pairs is a predominant method for enhancing the performance of instruction-tuned large language models (LLMs) on downstream tasks. However, in certain specialized domains, such as healthcare or harmless content generation, it is nearly impossible to obtain a large volume of high-quality data that matches the downstream distribution. To improve the performance of LLMs in data-scarce domains with domain-mismatched data, we re-evaluated the Transformer architecture and discovered that not all parameter updates during fine-tuning contribute positively to downstream performance. Our analysis reveals that within the self-attention and feed-forward networks, only the fine-tuned attention parameters are particularly beneficial when the training set's distribution does not fully align with the test set. Based on this insight, we propose an effective inference-time intervention method: \uline{T}raining \uline{A}ll parameters but \uline{I}nferring with only \uline{A}ttention (\trainallInfAttn). We empirically validate \trainallInfAttn using two general instruction-tuning datasets and evaluate it on seven downstream tasks involving math, reasoning, and knowledge understanding across LLMs of different parameter sizes and fine-tuning techniques. Our comprehensive experiments demonstrate that \trainallInfAttn achieves superior improvements compared to both the fully fine-tuned model and the base model in most scenarios, with significant performance gains. The high tolerance of \trainallInfAttn to data mismatches makes it resistant to jailbreaking tuning and enhances specialized tasks using general data. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# ゆらぎ幾何学としての時空重ね合わせ
Space-time superpositions as fluctuating geometries ( http://arxiv.org/abs/2405.20193v1 ) ライセンス: Link先を確認 | Kallan Berglund, Martin Bojowald, Aurora Colter, Manuel Diaz, | (参考訳) ブラックホールの重ね合わせは、時空状態と量子状態に対する標準的定式化を組み合わせて幾何学的に記述することができる。
ここでは、計量成分の量子揺らぎを含む以前に導入されたブラックホールモデルを示し、量子補正を伴う適切な直線要素の観点から、弱場重力の対応する時空幾何学に完全なアクセスを与える。
これらの結果は、重畳中のブラックホールの分布によってもたらされる重力の共変定式化として解釈できる。
それらは、単一のブラックホールの重ね合わせにおける量子物質成分の分布とも解釈できる。
弱体限界の詳細な解析は、一般的な半古典状態におけるニュートンポテンシャルに対する量子補正と、通常の不確実性原理ではなく共分散条件によって示唆される量子揺らぎに関する新しい境界を明らかにする。
これらの結果は、ニュートンポテンシャルにおける量子効果のさらなる制御を提供し、観測と比べられる幅広い予測に使用できる。
Superpositions of black holes can be described geometrically using a combined canonical formulation for space-time and quantum states. A previously introduced black-hole model that includes quantum fluctuations of metric components is shown here to give full access to the corresponding space-time geometry of weak-field gravity in terms of suitable line elements with quantum corrections. These results can be interpreted as providing covariant formulations of the gravitational force implied by a distribution of black holes in superposition. They can also be understood as a distribution of quantum matter constituents in superposition for a single black hole. A detailed analysis in the weak-field limit reveals quantum corrections to Newton's potential in generic semiclassical states, as well as new bounds on quantum fluctuations, implied by the covariance condition, rather than the usual uncertainty principle. These results provide additional control on quantum effects in Newton's potential that can be used in a broad range of predictions to be compared with observations. | 翻訳日:2024-05-31 13:39:08 公開日:2024-05-30 |
# Occam Gradient Descent
Occam Gradient Descent ( http://arxiv.org/abs/2405.20194v1 ) ライセンス: Link先を確認 | B. N. Kausik, | (参考訳) ディープラーニングニューラルネットワークモデルは、問題領域に適応するのに十分な大きさでなければならないが、勾配降下時のトレーニングデータの過度な適合を回避するには十分である。
これらの競合する要求のバランスをとるために、トランスフォーマーのような過剰な予測されたディープラーニングモデルは、大きなデータセット上で1つのエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。
これらの非効率性に対応するために、我々は学習理論を利用してOccam Gradient Descentを導出する。Occam Gradient Descentはモデルサイズを適応的に減少させ、一般化誤差を最小限に抑えるアルゴリズムである。
対照的に、従来の勾配降下は、一般化誤差によらず、嵌合誤差を極度に最小化する。
提案アルゴリズムは, ニューラルネットワークの重み空間とトポロジカルサイズを同時に下降させるとともに, 従来の勾配勾配よりも精度, 計算, モデル圧縮に優れる。
Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification, and is effective in our experiments in outperforming traditional gradient descent with or without post-train pruning in accuracy, compute and model compression. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# 機械学習モデルにおける統一的説明:摂動アプローチ
Unified Explanations in Machine Learning Models: A Perturbation Approach ( http://arxiv.org/abs/2405.20200v1 ) ライセンス: Link先を確認 | Jacob Dineen, Don Kridel, Daniel Dolk, David Castillo, | (参考訳) 近年,説明可能な人工知能(XAI)への高速パラダイムシフトが出現している。
非常に複雑な機械学習(ML)モデルは知性の多くのタスクで栄えており、質問は従来の妥当性の指標からより深いものへとシフトし始めた。
XAIとモデリング技術の不整合は、これらの説明可能性アプローチの有効性に疑念を投げかけるという望ましくない効果をもたらす可能性がある。
これらの問題に対処するために、XAI, SHapley Additive exPlanations (Shap) において、一般的なモデルに依存しない手法に対する体系的摂動に基づく解析を提案する。
我々は、一般的な機械学習とディープラーニングの手法のスイートと、静的ケースホールドで生成された説明の正確さを定量化するためのメトリクスの中で、動的推論の設定において、相対的な特徴重要度を生成するアルゴリズムを考案した。
本稿では,特徴重要度方法論の分類法,アライメントの測定,および複数のデータセット間の説明モデル間の定量的類似性を観察する。
A high-velocity paradigm shift towards Explainable Artificial Intelligence (XAI) has emerged in recent years. Highly complex Machine Learning (ML) models have flourished in many tasks of intelligence, and the questions have started to shift away from traditional metrics of validity towards something deeper: What is this model telling me about my data, and how is it arriving at these conclusions? Inconsistencies between XAI and modeling techniques can have the undesirable effect of casting doubt upon the efficacy of these explainability approaches. To address these problems, we propose a systematic, perturbation-based analysis against a popular, model-agnostic method in XAI, SHapley Additive exPlanations (Shap). We devise algorithms to generate relative feature importance in settings of dynamic inference amongst a suite of popular machine learning and deep learning methods, and metrics that allow us to quantify how well explanations generated under the static case hold. We propose a taxonomy for feature importance methodology, measure alignment, and observe quantifiable similarity amongst explanation models across several datasets. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# ALLのための1つのQuantLLM: 効率的なデプロイのための微調整量子化LDM
One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments ( http://arxiv.org/abs/2405.20202v1 ) ライセンス: Link先を確認 | Ke Yi, Yuhui Xu, Heng Chang, Chen Tang, Yuan Meng, Tong Zhang, Jia Li, | (参考訳) 大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
量子化はLLMの可能性を示してきたが、現在の手法は量子化損失による性能劣化を軽減するために、通常、長い訓練を必要とする。
しかし、サーバやパーソナルコンピュータといったリソース制約の異なる様々なシナリオにLLMをデプロイするには、アプリケーション毎に繰り返しトレーニングする必要があるため、長いトレーニング問題を増幅する。
これを踏まえると、ワンショットトレーニングにより下流アプリケーションに多様な最適なサブネットを得ることができる、一度限りの(OFA)スーパーネットをトレーニングすることが有利である。
それでも、現在の言語モデルのスケールは効率を阻害し、サブネット間の重み共有からの干渉を増幅する。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
具体的には、共有重みを分離して干渉を排除し、訓練効率を高めるためにローランドアダプタを組み込む。
さらに,従来の均一サンプリングからトレーニングリソースの不均衡を観察する。
非パラメトリックスケジューラを導入し、各量子化構成のサンプリング率を調整し、要求に応じてサブネット間でよりバランスの取れたアロケーションを実現する。
LLaMA2ファミリに対するアプローチを検証するとともに,ダウンストリーム評価により,複数のシナリオに直面するデプロイメント時間を大幅に削減しつつ,高いパフォーマンスを維持する能力が確認される。
Large Language Models (LLMs) have advanced rapidly but face significant memory demands. While quantization has shown promise for LLMs, current methods typically require lengthy training to alleviate the performance degradation from quantization loss. However, deploying LLMs across diverse scenarios with different resource constraints, e.g., servers and personal computers, requires repeated training per application, which amplifies the lengthy training problem. Given that, it is advantageous to train a once-for-all (OFA) supernet capable of yielding diverse optimal subnets for downstream applications through one-shot training. Nonetheless, the scale of current language models impedes efficiency and amplifies interference from weight sharing between subnets. We make an initial attempt to extend the once-for-all framework to large language models. Specifically, we decouple shared weights to eliminate the interference and incorporate Low-Rank adapters for training efficiency. Furthermore, we observe the imbalance allocation of training resources from the traditional uniform sampling. A non-parametric scheduler is introduced to adjust the sampling rate for each quantization configuration, achieving a more balanced allocation among subnets with varying demands. We validate the approach on LLaMA2 families, and downstream evaluation confirms our ability to maintain high performance while significantly reducing deployment time faced with multiple scenarios. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# Jina CLIP:あなたのCLIPモデルもテキストレトリバー
Jina CLIP: Your CLIP Model Is Also Your Text Retriever ( http://arxiv.org/abs/2405.20204v1 ) ライセンス: Link先を確認 | Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao, | (参考訳) Contrastive Language-Image Pretraining (CLIP) は、一般的な埋め込み空間における画像とテキストを固定サイズのベクトルにマッピングすることで、モデルをトレーニングするために広く使われている。
これらのモデルは、マルチモーダル情報検索および関連するタスクの鍵となる。
しかし、CLIPモデルは、通常、特殊なテキストモデルに比べてテキストのみのタスクではパフォーマンスが劣る。
これにより、テキストのみのタスクとマルチモーダルタスクの別々の埋め込みとモデルを保持する情報検索システムの非効率性が生じる。
本稿では,この問題に対処する新しいマルチタスクコントラストトレーニング手法を提案し,テキスト画像とテキストテキスト検索の両タスクにおける最先端性能を実現するために,jina-clip-v1モデルをトレーニングするために使用する。
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# 選択ひずみを有するダイヤモンド膜におけるキャビティによる色中心の発光と吸収
Cavity-Enhanced Emission and Absorption of Color Centers in a Diamond Membrane With Selectable Strain ( http://arxiv.org/abs/2405.20205v1 ) ライセンス: Link先を確認 | Robert Berghaus, Selene Sachero, Gregor Bayer, Julia Heupel, Tobias Herzig, Florian Feuchtmayr, Jan Meijer, Cyril Popov, Alexander Kubanek, | (参考訳) ダイヤモンド中のIV族色中心は、強い光遷移と長いスピンコヒーレンスを持つ最も有望な光学活性スピン系の一つである。
中心の基底状態分裂は、コヒーレンス限界フォノンとの相互作用を抑制するために特に重要であり、コヒーレンス特性を改善し、運転温度の上限を設定する。
負の電荷を持つシリコン空孔中心は48GHzの通常の基底状態分裂しか持たないため、1つのケルビンより低い温度が要求されるが、これは希釈冷凍機でしか達成できない。
ここでは,単結晶ダイヤモンド膜における誘起ひずみにより,基底状態の分裂を最大で1等級に増大させる。
さらに,Fabry-Perotマイクロキャビティのモードに対して,エミッタアンサンブルと選択可能なひずみを結合させることによりキャビティアシスト分光を実現できることを示す。
吸収断面積の計算は$\sigma_{ens} = 4.9*10^-11 cm^2 となる。
パーセルによるエミッター寿命の1ns未満の2倍の減少と合わせて、この系は4Kの適度な温度で有望なスピン光子界面となる。
Group IV color centers in diamond are among the most promising optically active spin systems with strong optical transitions and long spin coherences. The ground-state splitting of the center is particularly important to suppress the interaction with coherence-limiting phonons, which improves the coherence properties and sets the upper limit for the operating temperature. Negatively charged silicon-vacancy centers have an ordinary ground-state splitting of only 48GHz, resulting in required temperatures below one Kelvin, which can only be achieved by dilution refrigerators. Here, we increase the ground-state splitting by up to an order of magnitude by induced strain in a single-crystal diamond membrane. Furthermore, we demonstrate cavity-assisted spectroscopy enabled by coupling the emitter ensemble with a selectable strain to the mode of a Fabry-Perot microcavity. Calculation of the absorption cross-section yields $\sigma_{ens} = $4.9*10^-11 cm^2. Together with the Purcell-enhanced twofold reduction in emitter lifetime below 1ns, this makes the system a promising spin-photon interface at moderate temperatures of 4K. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# PostDoc: ディープサブモジュール最適化を用いた長期マルチモーダル文書からのポスター生成
PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization ( http://arxiv.org/abs/2405.20213v1 ) ライセンス: Link先を確認 | Vijay Jaisankar, Sambaran Bandyopadhyay, Kalp Vyas, Varre Chaitanya, Shwetha Somasundaram, | (参考訳) 長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。
長いドキュメントをポスターに自動変換するのは、あまり研究されていないが難しい作業だ。
入力文書の内容の要約とテンプレート生成と調和を伴う。
そこで本研究では,文書からマルチモーダルコンテンツを抽出し,テキストや画像の良好なカバレッジ,多様性,アライメントを確実にする,新たなサブモーダル関数を提案する。
次に, LLM ベースのパラフレーズを用いて, 入力内容に様々な設計要素を付加したテンプレートを生成する。
我々は、広範囲な自動化と人的評価を通じて、我々のアプローチのメリットを示す。
A poster from a long input document can be considered as a one-page easy-to-read multimodal (text and images) summary presented on a nice template with good design elements. Automatic transformation of a long document into a poster is a very less studied but challenging task. It involves content summarization of the input document followed by template generation and harmonization. In this work, we propose a novel deep submodular function which can be trained on ground truth summaries to extract multimodal content from the document and explicitly ensures good coverage, diversity and alignment of text and images. Then, we use an LLM based paraphraser and propose to generate a template with various design aspects conditioned on the input content. We show the merits of our approach through extensive automated and human evaluations. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# TS-Align:大規模言語モデルのスケーラブル反復微調整のための教師学習協調フレームワーク
TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models ( http://arxiv.org/abs/2405.20215v1 ) ライセンス: Link先を確認 | Chen Zhang, Chengguang Tang, Dading Chong, Ke Shi, Guohua Tang, Feng Jiang, Haizhou Li, | (参考訳) 大規模言語モデル(LLM)の整合性に対する主流のアプローチは、特に定期的な更新を必要とする場合、人間の好みデータに大きく依存する。
LLMを反復的にアライメントするための標準的なプロセスは、更新毎に新しい人間のフィードバックを集めることである。
しかし、データ収集プロセスはコストが高く、スケールが難しい。
この問題に対処するため、我々は「TS-Align」フレームワークを導入し、このフレームワークは、その出力から自動的に抽出されたペアワイズフィードバックデータを用いてポリシーモデルを微調整する。
この自動マイニングは,大規模教師モデルと小規模学生モデルとの協調によって効率的に行われる。
政策微調整プロセスは、提案した教師と学生の協調的な枠組みの中で、政治上の世代を用いて反復的に繰り返すことができる。
広範な実験を通じて、我々の最終整合ポリシーは、7つの会話または指示追従データセットで平均69.7%の勝利率で基本方針モデルを上回っていることを実証した。
さらに,教師のランク付け能力は,我々のパイプラインを通じて学生に効果的に蒸留され,政策モデルアライメントのための小規模かつ効果的な報酬モデルがもたらされることを示す。
Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involves collecting new human feedback for each update. However, the data collection process is costly and challenging to scale. To address this issue, we introduce the "TS-Align" framework, which fine-tunes a policy model using pairwise feedback data automatically mined from its outputs. This automatic mining process is efficiently accomplished through the collaboration between a large-scale teacher model and a small-scale student model. The policy fine-tuning process can be iteratively repeated using on-policy generations within our proposed teacher-student collaborative framework. Through extensive experiments, we demonstrate that our final aligned policy outperforms the base policy model with an average win rate of 69.7% across seven conversational or instruction-following datasets. Furthermore, we show that the ranking capability of the teacher is effectively distilled into the student through our pipeline, resulting in a small-scale yet effective reward model for policy model alignment. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# AIフィードバックによる直接選好最適化による独自の画像生成モデルの構築
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback ( http://arxiv.org/abs/2405.20216v1 ) ライセンス: Link先を確認 | Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee, | (参考訳) テキスト・ツー・イメージ(T2I)法による高品質な人体画像の生成は,重要な課題である。
一般的な画像生成とは別として、人間の画像合成は人間のポーズ、解剖学、テキストのプロンプトとの整合性に関する厳密な基準を満たさなければならないため、現実的な結果を達成することは特に困難である。
拡散モデルに基づくT2I生成の最近の進歩は将来性を示しているが、人間固有の嗜好を満たす上での課題は残る。
本稿では,DPO(Direct Preference Optimization)を利用した画像生成に特化した新しい手法を提案する。
具体的には、コストのかかる人的フィードバックを必要とせずに、人間の画像生成モデルを訓練するための特殊なDPOデータセットを構築するための効率的な方法を提案する。
また,アーチファクトの最小化と画像の忠実度の向上により,DPOトレーニングプロセスを改善する改良された損失関数を提案する。
本手法は,画像のパーソナライズ・テキスト・ツー・イメージ生成など,画像生成の汎用性と有効性を示す。
包括的評価により,本手法は人間の画像生成の状態を著しく向上させ,自然な解剖,ポーズ,テキスト画像のアライメントの面で優れた結果が得られることを示す。
The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# ESG-FTSE:ESG関連ラベル付きニュース記事コーパスとユースケース
ESG-FTSE: A corpus of news articles with ESG relevance labels and use cases ( http://arxiv.org/abs/2405.20218v1 ) ライセンス: Link先を確認 | Mariya Pavlova, Bernard Casey, Miaosen Wang, | (参考訳) 環境・社会・ガバナンス(ESG)関連アノテーションによるニュース記事からなる最初のコーパスであるESG-FTSEについて述べる。
近年、投資家や規制当局が気候変動の緊急性のためにESGへの投資を主流に押し出している。
これによりESGスコアが上昇し、投資の資格を社会的責任として評価するに至った。
ESGスコアの需要は高いが、品質は大きく異なる。
量的手法はESGのスコアを改善するために適用することができ、そのため、責任ある投資を行うことができる。
ESGと金融テキストマイニングの資源構築に貢献するため,ESG-FTSEコーパスの先駆者となった。
さらに、その種類のESGアノテーションスキーマの最初のものを示す。
レベルは、バイナリ分類(関連ニュース記事と関係のないニュース記事)、ESG分類(ESG関連ニュース記事)、ターゲット会社である。
ESG関連度検出のための教師付き学習実験と教師なし学習実験の両方を行い、異なる環境でコーパスを用いてESGの正確な予測を導出できることを実証した。
キーワード:コーパスアノテーション、ESGラベル、アノテーションスキーマ、ニュース記事、自然言語処理
We present ESG-FTSE, the first corpus comprised of news articles with Environmental, Social and Governance (ESG) relevance annotations. In recent years, investors and regulators have pushed ESG investing to the mainstream due to the urgency of climate change. This has led to the rise of ESG scores to evaluate an investment's credentials as socially responsible. While demand for ESG scores is high, their quality varies wildly. Quantitative techniques can be applied to improve ESG scores, thus, responsible investing. To contribute to resource building for ESG and financial text mining, we pioneer the ESG-FTSE corpus. We further present the first of its kind ESG annotation schema. It has three levels: a binary classification (relevant versus irrelevant news articles), ESG classification (ESG-related news articles), and target company. Both supervised and unsupervised learning experiments for ESG relevance detection were conducted to demonstrate that the corpus can be used in different settings to derive accurate ESG predictions. Keywords: corpus annotation, ESG labels, annotation schema, news article, natural language processing | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# BeerReview: ブロックチェーン対応のピアレビュープラットフォーム
BeerReview: A Blockchain-enabled Peer Review Platform ( http://arxiv.org/abs/2405.20220v1 ) ライセンス: Link先を確認 | Guodong Jin, Zihan Zhou, Wenzheng Tang, Kanglei Yu, Hao Xu, Erwu Liu, | (参考訳) 知的財産権に関する懸念が高まる中で、従来のピアレビューシステムは、盗用、悪意ある攻撃、不正なデータアクセスといった課題に直面している。
ブロックチェーン対応のピアレビュープラットフォームであるBeerReviewは、堅牢なソリューションを提供し、専門家や学者が、盗用やセキュリティ上の脅威を心配することなく、レビュープロセスに積極的に参加できるようにする。
アルファテストの完了に続いて、BeerReviewはデプロイメントの拡張の可能性を示した。
このプラットフォームは、オープンソースイニシアチブによるピアレビュープロセスにおける利便性の向上と、より堅牢な知的財産保護を提供する。
In an era of increasing concerns over intellectual property rights, traditional peer review systems face challenges including plagiarism, malicious attacks, and unauthorized data access. BeerReview, a blockchain-enabled peer review platform, offers a robust solution, enabling experts and scholars to participate actively in the review process without concerns about plagiarism or security threats. Following the completion of its alpha testing, BeerReview demonstrates the potential for expanded deployment. This platform offers improved convenience and more robust intellectual property protection within the peer review process with open source initiative. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# MOFA-Video:凍結画像-映像拡散モデルにおける生成運動場適応による制御可能な画像アニメーション
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model ( http://arxiv.org/abs/2405.20222v1 ) ライセンス: Link先を確認 | Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng, | (参考訳) 提案するMOFA-Videoは,人間のランドマーク参照や手動軌跡,さらには提供されるビデオなど,さまざまな制御可能な信号を用いて,所定の画像から映像を生成する,高度な制御可能な画像アニメーション手法である。
これは、特定の運動領域でしか動作できない、あるいは拡散前の弱い制御能力を示す従来の方法とは異なる。
この目的を達成するために、ビデオ生成パイプラインで生成された動きを制御するために複数のドメイン対応モーションフィールドアダプタ (\ie, MOFA-Adapters) を設計する。
MOFA-Adapters では,映像の時間的動きの整合性を考慮し,まず所定のスパース制御条件から濃密な動きの流れを発生させ,その画像のマルチスケール特徴を安定した映像拡散生成のためのガイド機能としてラップする。
我々は手動の軌跡と人間のランドマークの2つのモーションアダプタを個別に訓練する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできます。
We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# 量子ランダムアクセスメモリのための新しいオラクル構造
Novel oracle constructions for quantum random access memory ( http://arxiv.org/abs/2405.20225v1 ) ライセンス: Link先を確認 | Ákos Nagy, Cindy Zhang, | (参考訳) 量子辞書エンコーダ(quantum dictionary encoder)やデータアクセスオラクル( data access oracles)としても知られる量子(ランダムアクセス)メモリを設計する新しい方法を提案する。
より正確には、函数 $f : \mathbb{F}_2^n \rightarrow \mathbb{F}_2^d$ が与えられたとき、プロパティ $\mathcal{O}_f |x\rangle_n |0\rangle_d = |x\rangle_n |f(x)\rangle_d$ が成立する。
我々の構成は、整数値関数と見なされるウォルシュ・アダマール変換(英語版)に基づいており、一般に、我々の方法の複雑さはウォルシュ・アダマール変換の空間性と共にスケールし、その空間性は$f$ではなく、二進最適化問題や低次ウォルシュ・アダマール変換を持つ関数のような場合により好ましい構成をもたらす。
私たちのデザインには、サイズに応じて深さを交換できる調整可能な量のアンシラが付属しています。
アンシラのない設計では、これらのオラクルは$\epsilon$-approximatedなので、Clifford $+$T$ depth is $O \left( \left( n + \log_2\left( \tfrac{d}{\epsilon} \right) \right) \mathcal{W}_f \right)$, where $\mathcal{W}_f$ is the number of nonzero components in the Walsh-Hadamard Transformである。
最も浅い設計の深さは$O \left( \mathcal{W}_f \right) + \log_2 \left( \tfrac{d}{\epsilon} \right)$, using $n + d \mathcal{W}_f$ qubitsである。
We present novel ways of designing quantum (random access) memory, also known as quantum dictionary encoders or data-access oracles. More precisely, given a function, $f : \mathbb{F}_2^n \rightarrow \mathbb{F}_2^d$, we construct oracles, $\mathcal{O}_f$, with the property $\mathcal{O}_f |x\rangle_n |0\rangle_d = |x\rangle_n |f(x)\rangle_d$. Our constructions are based on the Walsh--Hadamard transform of $f$, viewed as an integer valued function. In general, the complexity of our method scales with the sparsity of the Walsh--Hadamard transform and not the sparsity of $f$, yielding more favorable constructions in cases such as binary optimization problems and function with low-degree Walsh--Hadamard Transforms. Our design comes with a tuneable amount of ancillas that can trade depth for size. In the ancillas-free design, these oracles can be $\epsilon$-approximated so that the Clifford $+$ $T$ depth is $O \left( \left( n + \log_2\left( \tfrac{d}{\epsilon} \right) \right) \mathcal{W}_f \right)$, where $\mathcal{W}_f$ is the number of nonzero components in the Walsh--Hadamard Transform. The depth of the shallowest design is $O \left( \log_2 \left( \mathcal{W}_f \right) + \log_2 \left( \tfrac{d}{\epsilon} \right) \right)$, using $n + d \mathcal{W}_f$ qubits. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# ニューラルパラメータ対称性の実証的影響, あるいはその欠落
The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof ( http://arxiv.org/abs/2405.20231v1 ) ライセンス: Link先を確認 | Derek Lim, Moe Putterman, Robin Walters, Haggai Maron, Stefanie Jegelka, | (参考訳) ディープラーニングにおける多くのアルゴリズムと観察された現象は、基礎となるニューラルネットワーク機能を変えないニューラルネットワークパラメータの変換であるパラメータ対称性の影響を受けているように見える。
これには線形モード接続、モデルマージ、ベイジアンニューラルネットワーク推論、メタネットワーク、その他いくつかの最適化や損失ランドスケープの特徴が含まれている。
しかし、パラメータ空間対称性とこれらの現象の関係の理論解析は困難である。
本研究では,パラメータ空間対称性を低減した新しいニューラルネットワークアーキテクチャを導入することにより,ニューラルネットワークのパラメータ対称性の影響を実証的に検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
これらの手法により,パラメータ対称性の除去効果を評価するために,複数のタスクからなる総合的な実験を行った。
例えば、重み空間のアライメントを伴わずにネットワーク間の線形モード接続を観測し、ネットワークがより高速で効果的なベイズニューラルネットワークトレーニングを可能にすることを発見した。
Many algorithms and observed phenomena in deep learning appear to be affected by parameter symmetries -- transformations of neural network parameters that do not change the underlying neural network function. These include linear mode connectivity, model merging, Bayesian neural network inference, metanetworks, and several other characteristics of optimization or loss-landscapes. However, theoretical analysis of the relationship between parameter space symmetries and these phenomena is difficult. In this work, we empirically investigate the impact of neural parameter symmetries by introducing new neural network architectures that have reduced parameter space symmetries. We develop two methods, with some provable guarantees, of modifying standard neural networks to reduce parameter space symmetries. With these new methods, we conduct a comprehensive experimental study consisting of multiple tasks aimed at assessing the effect of removing parameter symmetries. Our experiments reveal several interesting observations on the empirical impact of parameter symmetries; for instance, we observe linear mode connectivity between our networks without alignment of weight spaces, and we find that our networks allow for faster and more effective Bayesian neural network training. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# Grokfast: Slow Gradientを増幅することで、グローキングを加速する
Grokfast: Accelerated Grokking by Amplifying Slow Gradients ( http://arxiv.org/abs/2405.20233v1 ) ライセンス: Link先を確認 | Jaerin Lee, Bong Gyun Kang, Kihoon Kim, Kyoung Mu Lee, | (参考訳) グラッキングと呼ばれる機械学習のファズリングアーティファクトのひとつは、トレーニングデータにほぼ完全にオーバーフィットした後、遅れた一般化が10倍のイテレーションで達成されることだ。
機械学習の実践者に代わって、長い遅れ自体に焦点をあてて、グラッキング現象下でのモデルの一般化を加速させることを目標としています。
時間とともに繰り返しを訓練する際のパラメータの勾配をランダムな信号として扱うことで、勾配降下の下でパラメータの軌道をスペクトル的に2つの成分に分解することができる。
この分析により、勾配の遅い成分を増幅する数行のコードだけで、$\times 50$以上のグルーキング現象を加速することができる。
実験により,本アルゴリズムは画像,言語,グラフを含む多種多様なタスクに適用され,突発的一般化のこの特異な成果物の実用化が可能となった。
私たちのコードは \url{https://github.com/ironjr/grokfast} で利用可能です。
One puzzling artifact in machine learning dubbed grokking is where delayed generalization is achieved tenfolds of iterations after near perfect overfitting to the training data. Focusing on the long delay itself on behalf of machine learning practitioners, our goal is to accelerate generalization of a model under grokking phenomenon. By regarding a series of gradients of a parameter over training iterations as a random signal over time, we can spectrally decompose the parameter trajectories under gradient descent into two components: the fast-varying, overfitting-yielding component and the slow-varying, generalization-inducing component. This analysis allows us to accelerate the grokking phenomenon more than $\times 50$ with only a few lines of code that amplifies the slow-varying components of gradients. The experiments show that our algorithm applies to diverse tasks involving images, languages, and graphs, enabling practical availability of this peculiar artifact of sudden generalization. Our code is available at \url{https://github.com/ironjr/grokfast}. | 翻訳日:2024-05-31 13:29:24 公開日:2024-05-30 |
# 大規模言語モデルにおける文脈注入攻撃
Context Injection Attacks on Large Language Models ( http://arxiv.org/abs/2405.20234v1 ) ライセンス: Link先を確認 | Cheng'an Wei, Kai Chen, Yue Zhao, Yujia Gong, Lu Xiang, Shenchen Zhu, | (参考訳) ChatGPT や Llama-2 のような大規模言語モデル (LLM) は、現実のアプリケーションで広く普及し、テキスト生成性能が著しく向上している。
LLMは、入力データが静的であり、明確な構造を持たないシナリオから基本的に開発されている。
LLMベースのチャットシステムは、時間とともに対話的に振る舞うためには、事前に定義された構造に従って、追加のコンテキスト情報(チャット履歴)を入力に組み込む必要がある。
本稿では,そのような統合が,信頼できないソースから誤解を招くコンテキストにLLMを公開し,システムとユーザ入力の区別に失敗し,ユーザがコンテキストを注入できるようにする方法について述べる。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
これは違法行為、不適切なコンテンツ、テクノロジーの誤用につながる可能性がある。
我々のコンテキスト作成戦略、受け入れ誘導、および単語匿名化は、悪意のあるユーザーメッセージを通じてインジェクションを達成し、攻撃者がカスタマイズしたプロンプトテンプレートで構造化できる誤解を招くコンテキストを効果的に生成する。
ChatGPT や Llama-2 のような実世界の LLM に関する総合的な評価は、提案された攻撃の有効性を確認し、成功率は 97% に達した。
また、攻撃検知やより安全なモデル開発に応用できる可能性についても論じる。
本研究は,対話型・構造化データシナリオにおけるLLMの現実的展開に関わる課題について考察した。
Large Language Models (LLMs) such as ChatGPT and Llama-2 have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and lacks a clear structure. To behave interactively over time, LLM-based chat systems must integrate additional contextual information (i.e., chat history) into their inputs, following a pre-defined structure. This paper identifies how such integration can expose LLMs to misleading context from untrusted sources and fail to differentiate between system and user inputs, allowing users to inject context. We present a systematic methodology for conducting context injection attacks aimed at eliciting disallowed responses by introducing fabricated context. This could lead to illegal actions, inappropriate content, or technology misuse. Our context fabrication strategies, acceptance elicitation and word anonymization, effectively create misleading contexts that can be structured with attacker-customized prompt templates, achieving injection through malicious user messages. Comprehensive evaluations on real-world LLMs such as ChatGPT and Llama-2 confirm the efficacy of the proposed attack with success rates reaching 97%. We also discuss potential countermeasures that can be adopted for attack detection and developing more secure models. Our findings provide insights into the challenges associated with the real-world deployment of LLMs for interactive and structured data scenarios. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# 連続学習における課題類似性の影響の解消と軽減
Disentangling and Mitigating the Impact of Task Similarity for Continual Learning ( http://arxiv.org/abs/2405.20236v1 ) ライセンス: Link先を確認 | Naoki Hiratani, | (参考訳) 部分的に類似したタスクの継続的な学習は、タスク類似性が知識伝達の機会と干渉のリスクと破滅的な忘れのリスクの両方を示すため、人工知能ニューラルネットワークにとって課題となる。
しかし、入力特徴と読み出しパターンのタスク類似性が知識伝達や忘れに及ぼす影響や、継続学習のための共通アルゴリズムとどのように相互作用するかは、まだ不明である。
そこで我々は,潜在構造を持つ線形教師学生モデルを開発し,高い入力特徴類似性と低読み出し類似性は,知識伝達と保持の両方において破滅的であることを解析的に示す。
逆に、反対のシナリオは比較的良性である。
さらに,タスク依存的活動ゲーティングは,伝達を犠牲にして知識保持を改善する一方で,タスク依存的塑性ゲーティングは,過パラメータ化限界における保持や伝達性能に影響を与えないことを明らかにした。
対照的に、フィッシャー情報量に基づく重み規則化は、伝達性能を損なうことなく、タスクの類似性にかかわらず、保持性を著しく改善する。
それでも、ユークリッド空間における対角近似と正則化は、タスク類似性に対してはるかに堅牢ではない。
我々は、潜伏変数を持つ不変なMNISTタスクにおいて、一貫した結果を示す。
全体として、この研究は、継続的学習が難しい時期と、それを緩和する方法に関する洞察を提供する。
Continual learning of partially similar tasks poses a challenge for artificial neural networks, as task similarity presents both an opportunity for knowledge transfer and a risk of interference and catastrophic forgetting. However, it remains unclear how task similarity in input features and readout patterns influences knowledge transfer and forgetting, as well as how they interact with common algorithms for continual learning. Here, we develop a linear teacher-student model with latent structure and show analytically that high input feature similarity coupled with low readout similarity is catastrophic for both knowledge transfer and retention. Conversely, the opposite scenario is relatively benign. Our analysis further reveals that task-dependent activity gating improves knowledge retention at the expense of transfer, while task-dependent plasticity gating does not affect either retention or transfer performance at the over-parameterized limit. In contrast, weight regularization based on the Fisher information metric significantly improves retention, regardless of task similarity, without compromising transfer performance. Nevertheless, its diagonal approximation and regularization in the Euclidean space are much less robust against task similarity. We demonstrate consistent results in a permuted MNIST task with latent variables. Overall, this work provides insights into when continual learning is difficult and how to mitigate it. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# トレーニング効率の高い密度量子機械学習
Training-efficient density quantum machine learning ( http://arxiv.org/abs/2405.20237v1 ) ライセンス: Link先を確認 | Brian Coyle, El Amine Cherrat, Nishant Jain, Natansh Mathur, Snehal Raj, Skander Kazdaghli, Iordanis Kerenidis, | (参考訳) 量子機械学習は、挑戦的な問題を解決するのに成功するために、強力で柔軟で効率的にトレーニング可能なモデルを必要とする。
本研究では、トレーニング可能なユニタリの集合にランダム化を組み込んだ学習モデルである密度量子ニューラルネットワークを提案する。
これらのモデルは、パラメータ化された量子回路を用いて量子ニューラルネットワークを一般化し、特に量子ハードウェア上で、表現可能性と効率的な訓練性の間のトレードオフを可能にする。
最近提案された2つのモデルファミリに適用することで、形式主義の柔軟性を実証する。
1つは通勤ブロック量子ニューラルネットワーク(QNN)で、効率よく訓練できるが、表現性には制限がある。
2つ目は直交(ハミング重保存)量子ニューラルネットワークで、データに対して明確に定義された解釈可能な変換を提供するが、量子デバイス上で大規模にトレーニングすることは困難である。
密度通勤QNNは、最小の勾配複雑性オーバーヘッドでキャパシティを向上し、密度直交ニューラルネットワークは、2次からコンスタントな勾配クエリの利点を認め、性能損失は最小か無である。
我々は,ハイパーパラメータ最適化による合成翻訳不変データとMNIST画像データに関する数値実験を行った。
最後に、変分後の量子ニューラルネットワーク、計測に基づく量子機械学習、およびドロップアウト機構との関係について論じる。
Quantum machine learning requires powerful, flexible and efficiently trainable models to be successful in solving challenging problems. In this work, we present density quantum neural networks, a learning model incorporating randomisation over a set of trainable unitaries. These models generalise quantum neural networks using parameterised quantum circuits, and allow a trade-off between expressibility and efficient trainability, particularly on quantum hardware. We demonstrate the flexibility of the formalism by applying it to two recently proposed model families. The first are commuting-block quantum neural networks (QNNs) which are efficiently trainable but may be limited in expressibility. The second are orthogonal (Hamming-weight preserving) quantum neural networks which provide well-defined and interpretable transformations on data but are challenging to train at scale on quantum devices. Density commuting QNNs improve capacity with minimal gradient complexity overhead, and density orthogonal neural networks admit a quadratic-to-constant gradient query advantage with minimal to no performance loss. We conduct numerical experiments on synthetic translationally invariant data and MNIST image data with hyperparameter optimisation to support our findings. Finally, we discuss the connection to post-variational quantum neural networks, measurement-based quantum machine learning and the dropout mechanism. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# 量子的可観測性を持つ離散化ミンコフスキー格子上の相対論的統計場理論
A relativistic statistical field theory on a discretized Minkowski lattice with quantum-like observables ( http://arxiv.org/abs/2405.20238v1 ) ライセンス: Link先を確認 | Brenden McDearmon, | (参考訳) 離散化ミンコフスキー格子上の揺らぎ複素数値スカラー場に対して相対論的統計場理論を構築する。
可観測物のヒルベルト空間は、変動する複素数値スカラー場の函数から構成され、内部積は函数の期待値によって定義される。
すると、ヒルベルト空間からボソニック・フォック空間が構成され、フォック空間に作用する生成と消滅作用素が定義される。
生成および消滅演算子は、場演算子を定義するために用いられる。
これらの場の作用素はいくつかの興味深い量子的性質を持つ。
例えば、場作用素は一般に可換ではないし、自由体論の特定の場合において、微小因果性条件を満たすように示せる。
A relativistic statistical field theory is constructed for a fluctuating complex-valued scalar field on a discretized Minkowski lattice. A Hilbert space of observables is then constructed from functionals of the fluctuating complex-valued scalar field with an inner product defined in terms of expectation values of the functionals. A bosonic Fock space is then constructed from the Hilbert space and creation and annihilation operators that act on the Fock space are defined. The creation and annihilation operators are used to define field operators. These field operators have some interesting quantum-like properties. For example, the field operators do not commute in general and, in the particular case of the free field theory, can be shown to satisfy the microcausality condition. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# 非線形導波路量子電磁力学におけるデコヒーレンスフリー多体ハミルトン
Decoherence-free many-body Hamiltonians in nonlinear waveguide quantum electrodynamics ( http://arxiv.org/abs/2405.20241v1 ) ライセンス: Link先を確認 | Aviv Karnieli, Offek Tziperman, Charles Roques-Carmes, Shanhui Fan, | (参考訳) 多体量子システムにおける相互作用の強化は、環境のデコヒーレンスから保護する一方で、多くの量子技術の中心にある。
導波管量子電磁力学は、無限範囲の相互作用と量子エミッターの非コヒーレンスな部分空間をホストするので、これを達成するための有望なプラットフォームである。
しかしながら、エミッタ間のコヒーレント相互作用は通常、デコヒーレンスのない状態を包含する波長飽和状態において洗い流されるため、後者のコヒーレント制御は制限され、この重要な状態にある多くのハミルトニアンは手の届かないままである。
ここでは、パラメトリックゲインを包含する非線形導波路を持つエミッタアレイを組み込むことにより、エミッタ間隔の増加に伴って増加する結合強度を持つ多体相互作用ハミルトニアンのユニークなクラスが得られ、波長空間配列に対しても持続することを示す。
次に、これらのハミルトンアンを用いて、個々のエミッタのローカルアドレスを必要とせずに、グローバルなスクイーズドライブのみを使用して、基底状態からデコヒーレンスフリーな状態をコヒーレントに生成することを提案する。
興味深いことに、このダイナミクスは弱い導波路内スクイージングの限界におけるユニタリ進化に近づき、この効果の潜在的実験的実現について議論する。
導波管型量子電磁力学におけるコヒーレント制御プロトコルへの道を開き,量子コンピューティング,シミュレーション,メモリ,非古典的光発生などの応用を行った。
Enhancing interactions in many-body quantum systems, while protecting them from environmental decoherence, is at the heart of many quantum technologies. Waveguide quantum electrodynamics is a promising platform for achieving this, as it hosts infinite-range interactions and decoherence-free subspaces of quantum emitters. However, as coherent interactions between emitters are typically washed out in the wavelength-spacing regime hosting decoherence-free states, coherent control over the latter becomes limited, and many-body Hamiltonians in this important regime remain out of reach. Here we show that by incorporating emitter arrays with nonlinear waveguides hosting parametric gain, we obtain a unique class of many-body interaction Hamiltonians with coupling strengths that increase with emitter spacing, and persist even for wavelength-spaced arrays. We then propose to use these Hamiltonians to coherently generate decoherence-free states directly from the ground state, using only global squeezing drives, without the need for local addressing of individual emitters. Interestingly, we find that the dynamics approaches a unitary evolution in the limit of weak intra-waveguide squeezing, and discuss potential experimental realizations of this effect. Our results pave the way towards coherent control protocols in waveguide quantum electrodynamics, with applications including quantum computing, simulation, memory and nonclassical light generation. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# Retrieval Augmented Structured Generation: ツールとしてのビジネスドキュメント情報抽出
Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use ( http://arxiv.org/abs/2405.20245v1 ) ライセンス: Link先を確認 | Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo, | (参考訳) ビジネス文書情報抽出(Business Document Information extract, BDIE)は、非構造化情報(生テキスト、スキャンされた文書など)の塊を下流システムが解析および使用可能な構造化形式に変換する問題である。
キー情報抽出(KIE)とラインアイテム認識(LIR)の2つの主要なタスクがある。
本稿では,BDIEがツール利用問題として最もよくモデル化されていることを論じる。
次に、BDIEベンチマーク上のKIEとLIRの両方のタスクに対して、SOTA(State-of-the-art)結果を達成するBDIEの新しい汎用フレームワークであるRetrieval Augmented Structured Generation(RASG)を提案する。
1) Ablationベンチマークを用いて、RASGを用いたLarge Language Models (LLMs)が、RASGをBDIEベンチマークに含まない現在のSOTA Large Multimodal Models (LMMs)と既に競合しているか、もしくは上回っていることを示す。
2)ANLS*,DocILE,GriTSなどの既存のメトリクスと比較して,実用的なBDIEのユースケースに適合した,ラインアイテム認識,一般ラインアイテム認識(GLIRM)のための新しいメトリクスクラスを提案する。
(3)視覚エンコーダを必要とせずに,予測ラインアイテムやテーブルのバウンディングボックスを逆計算するヒューリスティックアルゴリズムを提案する。
最後に、LMMは時として性能に限界をもたらすことがあるが、実世界のアプリケーションやBDIEの制約を考えると、LSM+RASGの方が優れた場合が多いと主張している。
Business Document Information Extraction (BDIE) is the problem of transforming a blob of unstructured information (raw text, scanned documents, etc.) into a structured format that downstream systems can parse and use. It has two main tasks: Key-Information Extraction (KIE) and Line Items Recognition (LIR). In this paper, we argue that BDIE is best modeled as a Tool Use problem, where the tools are these downstream systems. We then present Retrieval Augmented Structured Generation (RASG), a novel general framework for BDIE that achieves state of the art (SOTA) results on both KIE and LIR tasks on BDIE benchmarks. The contributions of this paper are threefold: (1) We show, with ablation benchmarks, that Large Language Models (LLMs) with RASG are already competitive with or surpasses current SOTA Large Multimodal Models (LMMs) without RASG on BDIE benchmarks. (2) We propose a new metric class for Line Items Recognition, General Line Items Recognition Metric (GLIRM), that is more aligned with practical BDIE use cases compared to existing metrics, such as ANLS*, DocILE, and GriTS. (3) We provide a heuristic algorithm for backcalculating bounding boxes of predicted line items and tables without the need for vision encoders. Finally, we claim that, while LMMs might sometimes offer marginal performance benefits, LLMs + RASG is oftentimes superior given real-world applications and constraints of BDIE. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# KerasCVとKerasNLP: ビジョンと言語パワーアップ
KerasCV and KerasNLP: Vision and Language Power-Ups ( http://arxiv.org/abs/2405.20247v1 ) ライセンス: Link先を確認 | Matthew Watson, Divyashree Shivakumar Sreepathihalli, Francois Chollet, Martin Gorner, Kiranbir Sodhia, Ramesh Sampath, Tirth Patel, Haifeng Jin, Neel Kovelamudi, Gabriel Rasskin, Samaneh Saadat, Luke Wood, Chen Qian, Jonathan Bischof, Ian Stenbit, | (参考訳) 我々は、KerasのドメインパッケージであるKerasCVとKerasNLPを提示する。Keras API for Computer Visionと自然言語処理ワークフローの拡張で、JAX、TensorFlow、PyTorchのいずれかで動作する。
これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。
ライブラリの最低レベルの抽象化では、モデルとデータ前処理パイプラインを作成するためのビルディングブロックを提供し、ライブラリの最高レベルの抽象化では、Stable Diffusion、YOLOv8、GPT2、BERT、Mistral、CLIP、Gemma、T5といった一般的なアーキテクチャに対して、事前訓練された‘task’モデルを提供します。
タスクモデルには事前処理、事前訓練されたウェイトが組み込まれており、生の入力に基づいて微調整が可能である。
効率的なトレーニングを実現するため、すべてのモデルのXLAコンパイルをサポートし、tf.data APIを使用してTensorFlow操作のコンパイルグラフを介して、すべての前処理を実行する。
ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
We present the Keras domain packages KerasCV and KerasNLP, extensions of the Keras API for Computer Vision and Natural Language Processing workflows, capable of running on either JAX, TensorFlow, or PyTorch. These domain packages are designed to enable fast experimentation, with a focus on ease-of-use and performance. We adopt a modular, layered design: at the library's lowest level of abstraction, we provide building blocks for creating models and data preprocessing pipelines, and at the library's highest level of abstraction, we provide pretrained ``task" models for popular architectures such as Stable Diffusion, YOLOv8, GPT2, BERT, Mistral, CLIP, Gemma, T5, etc. Task models have built-in preprocessing, pretrained weights, and can be fine-tuned on raw inputs. To enable efficient training, we support XLA compilation for all models, and run all preprocessing via a compiled graph of TensorFlow operations using the tf.data API. The libraries are fully open-source (Apache 2.0 license) and available on GitHub. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# 連続時間と空間におけるポリシミラー降下に対するエントロピーアニール
Entropy annealing for policy mirror descent in continuous time and space ( http://arxiv.org/abs/2405.20250v1 ) ライセンス: Link先を確認 | Deven Sethi, David Šiška, Yufei Zhang, | (参考訳) エントロピー正則化は、最適化ランドスケープを正規化し、収束を加速するためにポリシー最適化アルゴリズムで広く用いられているが、追加の正則化バイアスを導入するコストが伴う。
この研究は、確率的出口時間制御問題に対するポリシー勾配法の収束に対するエントロピー正則化の影響を定量化する。
本研究では,エントロピー正規化値関数の勾配に基づいてポリシーを更新し,アルゴリズムの進行に応じてエントロピー正規化の強度を調整する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
さらに、適切な多項式速度でエントロピー準位が減衰すると、アニール流は離散的な作用空間に対して$\mathcal O(1/S)$と、一般的な作用空間に対して$\mathcal O(1/\sqrt{S})$と、勾配流時である$S$で非正規化問題の解に収束する。
本稿では, 収束率の観点から, 真の勾配であっても, エントロピー正則化が政策最適化をいかに改善するかを説明する。
Entropy regularization has been extensively used in policy optimization algorithms to regularize the optimization landscape and accelerate convergence; however, it comes at the cost of introducing an additional regularization bias. This work quantifies the impact of entropy regularization on the convergence of policy gradient methods for stochastic exit time control problems. We analyze a continuous-time policy mirror descent dynamics, which updates the policy based on the gradient of an entropy-regularized value function and adjusts the strength of entropy regularization as the algorithm progresses. We prove that with a fixed entropy level, the dynamics converges exponentially to the optimal solution of the regularized problem. We further show that when the entropy level decays at suitable polynomial rates, the annealed flow converges to the solution of the unregularized problem at a rate of $\mathcal O(1/S)$ for discrete action spaces and, under suitable conditions, at a rate of $\mathcal O(1/\sqrt{S})$ for general action spaces, with $S$ being the gradient flow time. This paper explains how entropy regularization improves policy optimization, even with the true gradient, from the perspective of convergence rate. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# ゼロショットプロンプト最適化のための階層型マルチエージェントワークフローに向けて
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization ( http://arxiv.org/abs/2405.20252v1 ) ライセンス: Link先を確認 | Yuchi Liu, Jaskirat Singh, Gaowen Liu, Ali Payani, Liang Zheng, | (参考訳) 大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を示しており、多種多様なアプリケーションを可能にしている。
しかし、LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
そのため、最近の研究は、手作業とドメイン内最適化の両方を含む、プロンプトを改善するための多くの戦略を開発してきた。
しかしながら、制限のないシナリオにおけるそれらの有効性は疑問の余地がなく、前者は特定の質問に対して人間設計に依存し、後者は通常、目に見えないシナリオに対してあまり一般化しない。
これらの問題に対処するため、私たちはLLMに対して、自分たちで最適なプロンプトを設計する自由を与えます。
具体的には、LLMの階層構造を含み、まず、正確な指示と正確な単語を階層的に生成し、次にこのプロンプトを使用して、ユーザクエリの最終回答を生成する。
このパイプラインを階層的マルチエージェントワークフロー(Hierarchical Multi-Agent Workflow, HMAW)と呼ぶ。
従来の作業とは対照的に、HMAWは人間の制約を課さず、訓練も必要とせず、基礎となるタスクのニュアンスに調整できるが、完全にタスクに依存しない。
複数のベンチマークにまたがる定量的および定性的な実験により、提案手法は単純さにもかかわらず、詳細かつ適切なプロンプトを生成でき、現在のLLMの性能をさらに向上させることができることを確認した。
Large language models (LLMs) have shown great progress in responding to user questions, allowing for a multitude of diverse applications. Yet, the quality of LLM outputs heavily depends on the prompt design, where a good prompt might enable the LLM to answer a very challenging question correctly. Therefore, recent works have developed many strategies for improving the prompt, including both manual crafting and in-domain optimization. However, their efficacy in unrestricted scenarios remains questionable, as the former depends on human design for specific questions and the latter usually generalizes poorly to unseen scenarios. To address these problems, we give LLMs the freedom to design the best prompts according to themselves. Specifically, we include a hierarchy of LLMs, first constructing a prompt with precise instructions and accurate wording in a hierarchical manner, and then using this prompt to generate the final answer to the user query. We term this pipeline Hierarchical Multi-Agent Workflow, or HMAW. In contrast with prior works, HMAW imposes no human restriction and requires no training, and is completely task-agnostic while capable of adjusting to the nuances of the underlying task. Through both quantitative and qualitative experiments across multiple benchmarks, we verify that despite its simplicity, the proposed approach can create detailed and suitable prompts, further boosting the performance of current LLMs. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# ペルソナステア世代における大規模言語モデルバイアスの評価
Evaluating Large Language Model Biases in Persona-Steered Generation ( http://arxiv.org/abs/2405.20253v1 ) ライセンス: Link先を確認 | Andy Liu, Mona Diab, Daniel Fried, | (参考訳) ペルソナステアリングされたテキスト生成のタスクは、ペルソナに適合する個人が持つ可能性のあるビューの分布を反映したテキストを生成するために、大きな言語モデル(LLM)を必要とする。
人々は多面的ペルソナを持っているが、LCM生成の意見の偏見に関する先行研究は、複数の選択設定や1次元ペルソナのみを探索している。
我々は、不連続なペルソナを複数の特徴を持つペルソナとして定義し、例えば軍事支出の増加を支持する政治的自由主義者など、人間の調査データにおいて、その特徴が他の特徴の可能性が低いようにしている。
LLMは、不連続な人格に対して、不連続な人格に対して、不連続な人格に対して9.7%低いことが判明した。
RLHF(Reinforcement Learning from Human Feedback)により微調整されたモデルの方が、特に政治的リベラル派や女性にかかわるスタンスに対して、より安定的に評価できるが、ペルソナの多様性は著しく低い。
また,複数意見評価では予測できないLCMの聴力のばらつきも見いだす。
この結果から,オープンエンドテキスト生成におけるモデル評価の重要性が示唆された。
さらに、このようなセットアップは、よりリッチで多様な視点に向けてモデルを操る能力に光を当てることができます。
The task of persona-steered text generation requires large language models (LLMs) to generate text that reflects the distribution of views that an individual fitting a persona could have. People have multifaceted personas, but prior work on bias in LLM-generated opinions has only explored multiple-choice settings or one-dimensional personas. We define an incongruous persona as a persona with multiple traits where one trait makes its other traits less likely in human survey data, e.g. political liberals who support increased military spending. We find that LLMs are 9.7% less steerable towards incongruous personas than congruous ones, sometimes generating the stereotypical stance associated with its demographic rather than the target stance. Models that we evaluate that are fine-tuned with Reinforcement Learning from Human Feedback (RLHF) are more steerable, especially towards stances associated with political liberals and women, but present significantly less diverse views of personas. We also find variance in LLM steerability that cannot be predicted from multiple-choice opinion evaluation. Our results show the importance of evaluating models in open-ended text generation, as it can surface new LLM opinion biases. Moreover, such a setup can shed light on our ability to steer models toward a richer and more diverse range of viewpoints. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# WhatsAppグループにおける有害コンテンツに関する議論を支援する会話エージェント
Conversational Agents to Facilitate Deliberation on Harmful Content in WhatsApp Groups ( http://arxiv.org/abs/2405.20254v1 ) ライセンス: Link先を確認 | Dhruv Agarwal, Farhana Shahid, Aditya Vashistha, | (参考訳) WhatsAppグループは、偽情報、ヘイトスピーチ、偏光コンテンツ、噂などの有害コンテンツの拡散の温床となっている。
プラットフォームのエンドツーエンドの暗号化を考えると、モデレーションの責任はグループ管理者やメンバーにかかっている。
もう1つのアプローチはファクトチェックであり、これはスケール不可能であり、事実コンテンツ(例えば、誤報)としか競合できないが、主観的コンテンツ(例えば、ヘイトスピーチ)には対抗できない。
最近の文献に基づいて、オープンで包括的な議論である議論を代替として検討する。
WhatsAppグループにおける有害コンテンツに対する議論の促進における会話エージェントの役割について検討する。
インドのWhatsAppユーザー21人と半構造化インタビューを行い、サンプルエージェントの紹介にデザインプローブを用いた。
参加者は匿名の必要性を表明し、審議に必要な労力を減らすためにAI支援を推奨した。
彼らはエージェントの中立性を高く評価したが、エコーチャンバー群における熟考の有用性を指摘した。
この結果から,プライバシ対グループダイナミクス,言論の自由など,そのようなエージェントの設計上の緊張感が浮き彫りになった。
本稿では,レンズとしての熟考理論を用いた熟考の有効性について論じるとともに,モデレーションとファクトチェックとの比較を行い,将来的なシステム設計の提言を行う。
最終的に、この研究は、ソーシャルメディア上のプライベートグループチャットで有害なコンテンツと戦うための熟考システムの設計に関する洞察を提供することによって、CSCWを前進させる。
WhatsApp groups have become a hotbed for the propagation of harmful content including misinformation, hate speech, polarizing content, and rumors, especially in Global South countries. Given the platform's end-to-end encryption, moderation responsibilities lie on group admins and members, who rarely contest such content. Another approach is fact-checking, which is unscalable, and can only contest factual content (e.g., misinformation) but not subjective content (e.g., hate speech). Drawing on recent literature, we explore deliberation -- open and inclusive discussion -- as an alternative. We investigate the role of a conversational agent in facilitating deliberation on harmful content in WhatsApp groups. We conducted semi-structured interviews with 21 Indian WhatsApp users, employing a design probe to showcase an example agent. Participants expressed the need for anonymity and recommended AI assistance to reduce the effort required in deliberation. They appreciated the agent's neutrality but pointed out the futility of deliberation in echo chamber groups. Our findings highlight design tensions for such an agent, including privacy versus group dynamics and freedom of speech in private spaces. We discuss the efficacy of deliberation using deliberative theory as a lens, compare deliberation with moderation and fact-checking, and provide design recommendations for future such systems. Ultimately, this work advances CSCW by offering insights into designing deliberative systems for combating harmful content in private group chats on social media. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# FaceMixup:混合顔規則化による顔表情認識の強化
FaceMixup: Enhancing Facial Expression Recognition through Mixed Face Regularization ( http://arxiv.org/abs/2405.20259v1 ) ライセンス: Link先を確認 | Fabio A. Faria, Mateus M. Souza, Raoni F. da S. Teixeira, Mauricio P. Segundo, | (参考訳) ディープラーニングソリューションの普及と大規模な注釈付きデータセットの不足は、現実世界のアプリケーションにおいて大きな課題となっている。
この課題を克服するために、データ拡張(DA)アプローチが顕著なソリューションとして登場し、さまざまな戦略が検討されている。
DAアプローチでは、既存のラベル付きデータを変換して、データセットを充実させ、深層学習モデルが過度に適合することなく、一般化の改善を支援することで、追加の例を生成する。
ディープラーニングに基づくソリューションが広く使われている実アプリケーションでは、人間のコミュニケーションにおいて重要な役割を果たす表情認識(FER)があり、幅広い知識領域(医学、セキュリティ、マーケティングなど)を改善している。
本稿では,本文献に存在する2つのよく知られたFERデータセットにおいて,対象課題に対する特定のアプローチであるMixAugmentを含む,古典的DAアプローチよりも優れる混合顔成分規則化に基づく,シンプルで包括的な顔データ拡張手法を提案する。
The proliferation of deep learning solutions and the scarcity of large annotated datasets pose significant challenges in real-world applications. Various strategies have been explored to overcome this challenge, with data augmentation (DA) approaches emerging as prominent solutions. DA approaches involve generating additional examples by transforming existing labeled data, thereby enriching the dataset and helping deep learning models achieve improved generalization without succumbing to overfitting. In real applications, where solutions based on deep learning are widely used, there is facial expression recognition (FER), which plays an essential role in human communication, improving a range of knowledge areas (e.g., medicine, security, and marketing). In this paper, we propose a simple and comprehensive face data augmentation approach based on mixed face component regularization that outperforms the classical DA approaches from the literature, including the MixAugment which is a specific approach for the target task in two well-known FER datasets existing in the literature. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# LLMのオートアリーナ:エージェントピアバスによるLCM評価の自動化と委員会ディスカッション
Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions ( http://arxiv.org/abs/2405.20267v1 ) ライセンス: Link先を確認 | Ruochen Zhao, Wenxuan Zhang, Yew Ken Chia, Deli Zhao, Lidong Bing, | (参考訳) LLMが日常的に進化するにつれて、信頼できる評価方法が緊急に必要であり、安定した評価結果をタイムリーに提供できる。
現在、静的ベンチマークは汚染の懸念があるため、ユーザーはChatbot Arenaのような人間の投票プラットフォームを信頼する傾向にある。
しかし、人間のアノテーションは広範囲の手作業を必要とする。
自動的かつ堅牢で信頼性の高い評価フレームワークとして,LLMエージェントによる評価プロセス全体を自動化したLLMの自動アリーナを革新的に提案する。
まず、検査者LLMがクエリを考案する。
次に、LLM候補のペアがクエリの周りで複数ラウンドのピアバトルを行い、その間にLLMの真のパフォーマンスギャップが見えてくる。
最後に、LLM審査員の委員会は、偏見を緩和し公平性を促進する勝者をまとめて議論し、決定する。
最新のLLM17の広範な実験において、Auto-Arenaは人間の嗜好と最も高い相関を示し、人間の評価プラットフォームに代わる有望な代替手段を提供する。
As LLMs evolve on a daily basis, there is an urgent need for a trustworthy evaluation method that can provide robust evaluation results in a timely fashion. Currently, as static benchmarks are prone to contamination concerns, users tend to trust human voting platforms, such as Chatbot Arena. However, human annotations require extensive manual efforts. To provide an automatic, robust, and trustworthy evaluation framework, we innovatively propose the Auto-Arena of LLMs, which automates the entire evaluation process with LLM agents. Firstly, an examiner LLM devises queries. Then, a pair of candidate LLMs engage in a multi-round peer-battle around the query, during which the LLM's true performance gaps become visible. Finally, a committee of LLM judges collectively discuss and determine the winner, which alleviates bias and promotes fairness. In our extensive experiment on the 17 newest LLMs, Auto-Arena shows the highest correlation with human preferences, providing a promising alternative to human evaluation platforms. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# IsraParlTweet:イスラエル議会とTwitterの情報源
IsraParlTweet: The Israeli Parliamentary and Twitter Resource ( http://arxiv.org/abs/2405.20269v1 ) ライセンス: Link先を確認 | Guy Mor-Lan, Effi Levi, Tamir Sheafer, Shaul R. Shenhav, | (参考訳) IsraParlTweetは、1992-2023年と2008-2023年の間、Knesset (Israeli Parliament) のヘブライ語議会議論のリンクコーパスで、合計29450万のHebrewトークンを含むKnessetのメンバーによるTwitter投稿を紹介します。
原文に加えて、コーパスには話者とKnessetセッションに関する包括的なメタデータと、いくつかの言語アノテーションが含まれている。
その結果、IsraParlTweetは様々な量的・質的な分析を行い、イスラエルの政治談話に関する貴重な洞察を提供するのに利用できる。
We introduce IsraParlTweet, a new linked corpus of Hebrew-language parliamentary discussions from the Knesset (Israeli Parliament) between the years 1992-2023 and Twitter posts made by Members of the Knesset between the years 2008-2023, containing a total of 294.5 million Hebrew tokens. In addition to raw text, the corpus contains comprehensive metadata on speakers and Knesset sessions as well as several linguistic annotations. As a result, IsraParlTweet can be used to conduct a wide variety of quantitative and qualitative analyses and provide valuable insights into political discourse in Israel. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# EtherR:超平面反射による大規模モデルの効率的な微調整
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections ( http://arxiv.org/abs/2405.20271v1 ) ライセンス: Link先を確認 | Massimo Bini, Karsten Roth, Zeynep Akata, Anna Khoreva, | (参考訳) パラメータ効率の微調整 (PEFT) は, 一般化能力を維持しつつ, 基礎モデルを下流のタスク要求に適応させるために広く普及している。
しかし、適応とハイパーパラメータ検索を成功させるために追加で導入されたパラメータと計算の量は、特に多数の個別の要求に対処するために大規模にデプロイされた場合、急速に爆発する可能性がある。
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
設計上、ETHER変換は最小限のパラメータを必要とし、モデル性能を低下させる可能性が低く、ハイパーパラメータや学習速度の選択に対して堅牢性を示す。
特に,ETHERとその緩和法であるETHER+を導入し,既存のPEFTメソッドをパラメータが大幅に少ない(\sim$$10$-$100$T)か,あるいは性能が向上する(\sim$$10$-$100$T)。
最後に, 適応のための超球面エネルギー保持の最近の強調と実用性に関する疑問を提起する。
コードはhttps://github.com/mwbini/ether.comから入手できる。
Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether. | 翻訳日:2024-05-31 13:19:40 公開日:2024-05-30 |
# マシン・アンラーニングにおけるリコンストラクション・アタック
Reconstruction Attacks on Machine Unlearning: Simple Models are Vulnerable ( http://arxiv.org/abs/2405.20272v1 ) ライセンス: Link先を確認 | Martin Bertran, Shuai Tang, Michael Kearns, Jamie Morgenstern, Aaron Roth, Zhiwei Steven Wu, | (参考訳) マシン・アンラーニングは、データの自律性への欲求によって動機付けられている: デプロイされたモデルからデータの影響を除去するよう要求することができ、それらのモデルは、データなしで再トレーニングされたかのように更新されるべきである。
これらのアップデートは個人を高い精度で復元攻撃に晒し、攻撃者は元のモデルがあまりにシンプルでプライバシーのリスクが心配されていなかったとしても、その全体を通してデータを復元できることを示した。
線形回帰モデルから削除したデータポイントに対して、ほぼ完璧な攻撃をマウントする方法を示す。
次に、他の損失関数やアーキテクチャに対する攻撃を一般化し、広範囲のデータセット(表と画像の両方をキャプチャする)にわたる攻撃の有効性を実証的に実証します。
我々の研究は、個人がモデルからデータの削除を要求できる非常に単純なモデルクラスであっても、プライバシリスクが重要であることを強調している。
Machine unlearning is motivated by desire for data autonomy: a person can request to have their data's influence removed from deployed models, and those models should be updated as if they were retrained without the person's data. We show that, counter-intuitively, these updates expose individuals to high-accuracy reconstruction attacks which allow the attacker to recover their data in its entirety, even when the original models are so simple that privacy risk might not otherwise have been a concern. We show how to mount a near-perfect attack on the deleted data point from linear regression models. We then generalize our attack to other loss functions and architectures, and empirically demonstrate the effectiveness of our attacks across a wide range of datasets (capturing both tabular and image data). Our work highlights that privacy risk is significant even for extremely simple model classes when individuals can request deletion of their data from the model. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 量子ウォークによる任意状態生成
Arbitrary State Preparation via Quantum Walks ( http://arxiv.org/abs/2405.20273v1 ) ライセンス: Link先を確認 | Alvin Gonzales, Rebekah Herrman, Colin Campbell, Igor Gaidai, Ji Liu, Teague Tomesh, Zain H. Saleem, | (参考訳) 動的CTQWと呼ばれる動的グラフ上の連続時間量子ウォーク(CTQW)は、量子アルゴリズムを想定する新しいパラダイムを提供する計算の普遍的なモデルである。
本研究では,動的CTQWの基本的な構築ブロックである任意の単一エッジウォークと単一自己ループウォークを回路モデルに変換するアルゴリズムの形で,動的CTQWから計算ゲートモデルへのマッピングを開発する。
我々はこのマッピングを用いて動的CTQWに基づく任意の量子状態準備フレームワークを導入する。
提案手法では,対象状態に関するグローバルな情報を活用し,グラフ内の最適経路を見つけるための状態準備を関連づけるとともに,他の手法では明らかでない制御の削減を最適化する。
興味深いことに、我々のフレームワークでは、最小ヒットセット、最小スパンニングツリー、最短ハミルトンパス問題などの古典的な最適化問題が発生する。
我々は,Qiskit が用いた一様制御回転法に対して,対象状態が非零振幅の多項式数を持つ場合,CX ゲートが少なくなることを示す。
Continuous-time quantum walks (CTQWs) on dynamic graphs, referred to as dynamic CTQWs, are a recently introduced universal model of computation that offers a new paradigm in which to envision quantum algorithms. In this work we develop a mapping from dynamic CTQWs to the gate model of computation in the form of an algorithm to convert arbitrary single edge walks and single self loop walks, which are the fundamental building blocks of dynamic CTQWs, to their circuit model counterparts. We use this mapping to introduce an arbitrary quantum state preparation framework based on dynamic CTQWs. Our approach utilizes global information about the target state, relates state preparation to finding the optimal path in a graph, and leads to optimizations in the reduction of controls that are not as obvious in other approaches. Interestingly, classical optimization problems such as the minimal hitting set, minimum spanning tree, and shortest Hamiltonian path problems arise in our framework. We test our methods against uniformly controlled rotations methods, used by Qiskit, and find ours requires fewer CX gates when the target state has a polynomial number of non-zero amplitudes. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# ROAST: 目標目標関節検出のためのレビューレベルのオピニオン
ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection ( http://arxiv.org/abs/2405.20274v1 ) ライセンス: Link先を確認 | Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio, | (参考訳) Aspect-Based Sentiment Analysis (ABSA)は、いくつかの言語や分野にまたがる様々な共有タスクがSemEvalワークショップやGermevalを通じて組織化されているため、大きな拡張と多様性を経験している。
それでも、低リソース言語評価の欠如や文レベルの分析の強調など、いくつかの欠点に対処する必要がある。
完全レビューの文脈でABSAの手法を徹底的に評価するために,新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提案する。
ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。
ROASTを有効にするために利用可能なデータセットを拡張し、低リソース言語や多数の言語、さまざまなトピックを取り入れることで、以前の研究で指摘されていた欠点に対処します。
この取り組みを通じてABSAの研究は、様々な言語や領域(https://github.com/RiTUAL-UH/ROAST-ABSA)において、より多くの基礎をカバーし、タスクとその実践的応用をより深く理解することが可能になる。
Aspect-Based Sentiment Analysis (ABSA) has experienced tremendous expansion and diversity due to various shared tasks spanning several languages and fields and organized via SemEval workshops and Germeval. Nonetheless, a few shortcomings still need to be addressed, such as the lack of low-resource language evaluations and the emphasis on sentence-level analysis. To thoroughly assess ABSA techniques in the context of complete reviews, this research presents a novel task, Review-Level Opinion Aspect Sentiment Target (ROAST). ROAST seeks to close the gap between sentence-level and text-level ABSA by identifying every ABSA constituent at the review level. We extend the available datasets to enable ROAST, addressing the drawbacks noted in previous research by incorporating low-resource languages, numerous languages, and a variety of topics. Through this effort, ABSA research will be able to cover more ground and get a deeper comprehension of the task and its practical application in a variety of languages and domains (https://github.com/RiTUAL-UH/ROAST-ABSA). | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 安定性制約付き深部SSMアーキテクチャに対する長さ独立一般化境界
Length independent generalization bounds for deep SSM architectures with stability constraints ( http://arxiv.org/abs/2405.20278v1 ) ライセンス: Link先を確認 | Dániel Rácz, Mihály Petreczky, Bálint Daróczy, | (参考訳) 長距離シーケンスでトレーニングされた多くの最先端モデル(S4、S5、LRU)は、ステートスペースモデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。
本稿では,安定なSSMブロックを持つアーキテクチャにおいて,入力シーケンスの長さに依存しないPACバウンダリを提案する。
SSMブロックの安定性を損なうことは、文学における標準的な慣行であり、パフォーマンスを補助することが知られている。
提案手法は,SSMブロックの安定性が増大するにつれてPAC境界が減少するにつれて,安定なSSMブロックの使用を理論的に正当化するものである。
Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining State-Space Models (SSMs) with neural networks. In this paper we provide a PAC bound that holds for these kind of architectures with stable SSM blocks and does not depend on the length of the input sequence. Imposing stability of the SSM blocks is a standard practice in the literature, and it is known to help performance. Our results provide a theoretical justification for the use of stable SSM blocks as the proposed PAC bound decreases as the degree of stability of the SSM blocks increases. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# CV-VAE: 次世代ビデオモデルのための互換性のあるビデオVAE
CV-VAE: A Compatible Video VAE for Latent Generative Video Models ( http://arxiv.org/abs/2405.20279v1 ) ライセンス: Link先を確認 | Sijie Zhao, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Muyao Niu, Xiaoyu Li, Wenbo Hu, Ying Shan, | (参考訳) 可変オートエンコーダ(VAE)などのネットワークを利用したビデオの時空間圧縮は、OpenAIのSORAや他の多くのビデオ生成モデルにおいて重要な役割を果たす。
例えば、多くのLCMのようなビデオモデルは、VQVAEフレームワーク内で3次元VAEから派生した離散トークンの分布を学習し、多くの拡散ベースのビデオモデルは、量子化せずに2次元VAEによって抽出された連続ラテントの分布をキャプチャする。
時間圧縮は、連続するフレーム間の不規則な動きをもたらす一様フレームサンプリングによって簡単に実現できる。
現在、研究コミュニティでは、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠落している。
さらに、現在の拡散ベースのアプローチは、事前訓練されたテキスト・トゥ・イメージ(T2I)モデルを用いて実装されることが多いため、既存のT2Iモデルとの互換性を考慮せずにビデオVAEを直接トレーニングすると、それらの間の空間ギャップが遅延し、初期化としてT2Iモデルであっても、そのギャップを埋めるための膨大な計算資源が必要とされる。
そこで本研究では,静止拡散(SD)の映像VAE,例えば画像VAE,eg,画像VAEと遅延空間が互換性のあるビデオモデルであるCV-VAEの映像VAEをトレーニングする手法を提案する。
この互換性は、画像VAEを用いて正規化損失を定式化する新しい潜在空間正規化によって達成される。
遅延空間との互換性から、ビデオモデルは、ビデオフレームを等間隔でサンプリングするのではなく、真に時空間的に時間的に圧縮された遅延空間において、事前訓練されたT2Iまたはビデオモデルからシームレスに訓練することができる。
CV-VAEでは、既存のビデオモデルは最小限の微調整で4倍のフレームを生成することができる。
提案したビデオVAEの有効性を示すため,大規模な実験を行った。
Spatio-temporal compression of videos, utilizing networks such as Variational Autoencoders (VAE), plays a crucial role in OpenAI's SORA and numerous other video generative models. For instance, many LLM-like video models learn the distribution of discrete tokens derived from 3D VAEs within the VQVAE framework, while most diffusion-based video models capture the distribution of continuous latent extracted by 2D VAEs without quantization. The temporal compression is simply realized by uniform frame sampling which results in unsmooth motion between consecutive frames. Currently, there lacks of a commonly used continuous video (3D) VAE for latent diffusion-based video models in the research community. Moreover, since current diffusion-based approaches are often implemented using pre-trained text-to-image (T2I) models, directly training a video VAE without considering the compatibility with existing T2I models will result in a latent space gap between them, which will take huge computational resources for training to bridge the gap even with the T2I models as initialization. To address this issue, we propose a method for training a video VAE of latent video models, namely CV-VAE, whose latent space is compatible with that of a given image VAE, e.g., image VAE of Stable Diffusion (SD). The compatibility is achieved by the proposed novel latent space regularization, which involves formulating a regularization loss using the image VAE. Benefiting from the latent space compatibility, video models can be trained seamlessly from pre-trained T2I or video models in a truly spatio-temporally compressed latent space, rather than simply sampling video frames at equal intervals. With our CV-VAE, existing video models can generate four times more frames with minimal finetuning. Extensive experiments are conducted to demonstrate the effectiveness of the proposed video VAE. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# オープン量子系とクロモマグネティック共振器からの媒体中におけるクォーコニウム分極
Quarkonium Polarization in Medium from Open Quantum Systems and Chromomagnetic Correlators ( http://arxiv.org/abs/2405.20280v1 ) ライセンス: Link先を確認 | Di-Lun Yang, Xiaojun Yao, | (参考訳) 非相対論的QCD(pNRQCD)とオープン量子システムフレームワークを用いて,クォーコニアのスピン依存型インジウムダイナミクスについて検討した。
pNRQCDラグランジアンは、二重パワーカウントにおいて$\frac{r}{M^0}=r$と$\frac{r^0}{M}=\frac{1}{M}$の順で有効であると考える。
マルコフ条件を考慮し、半古典的展開を伴うクォーコニウム密度行列の対角スピン成分にウィグナー変換を適用することにより、量子光学限界における偏極依存性を持つクォーコニアに対するボルツマン輸送方程式を体系的に導出する。
特定の色電場相関器によって支配されるスピン非依存の衝突項とは異なり、新しいゲージ不変の色電場の相関器は、作業中の順序で分極依存を伴う再結合および解離項を決定する。
また、量子ブラウン運動極限におけるスピン-シンガレットとスピン-トリップレット重クォーク-反クォーク対の間の転移を記述するリンドブラッド方程式を導出した。
リンドブラッド方程式は、色磁場相関器で定義される新しい輸送係数によって制御される。
我々の定式化は、弱い結合と強い結合のクォークグルーオンプラズマの両方に有効である。
重イオン衝突におけるベクトルクォーコニアのスピンアライメントの研究にも応用できる。
We study the spin-dependent in-medium dynamics of quarkonia by using the potential nonrelativistic QCD (pNRQCD) and the open quantum system framework. We consider the pNRQCD Lagrangian valid up to the order $\frac{r}{M^0}=r$ and $\frac{r^0}{M}=\frac{1}{M}$ in the double power counting. By considering the Markovian condition and applying the Wigner transformation upon the diagonal spin components of the quarkonium density matrix with the semiclassical expansion, we systematically derive the Boltzmann transport equation for quarkonia with polarization dependence in the quantum optical limit. Unlike the spin-independent collision terms governed by certain chromoelectric field correlators, new gauge invariant correlators of chromomagnetic fields determine the recombination and dissociation terms with polarization dependence at the order we are working. We also derive a Lindblad equation describing the in-medium transitions between spin-singlet and spin-triplet heavy quark-antiquark pairs in the quantum Brownian motion limit. The Lindblad equation is governed by new transport coefficients defined in terms of the chromomagnetic field correlators. Our formalism is generic and valid for both weakly-coupled and strongly-coupled quark gluon plasmas. It can be further applied to study spin alignment of vector quarkonia in heavy ion collisions. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 製塩前処理における厚み特性
Tight Characterizations for Preprocessing against Cryptographic Salting ( http://arxiv.org/abs/2405.20281v1 ) ライセンス: Link先を確認 | Fangqi Dong, Qipeng Liu, Kewen Wu, | (参考訳) 暗号は、しばしば現実世界で最強だがもっとも確実な攻撃と見なされる。
前処理(つまり、非一様攻撃)は理論と実践の両方において重要な役割を果たす:効率的なオンライン攻撃者は、時間を要する前処理の段階で準備されたアドバイスを活用できる。
ソルティングは暗号プリミティブに少量のランダム性を供給することで前処理攻撃に対抗するためのヒューリスティックな戦略である。
最も直感的な攻撃の利点と一致する上限を持つ暗号ソルト処理に対する前処理の一般的および厳密な特徴を提示する。
この結果は、Coretti, Dodis, Guo, Steinberger (EUROCRYPT'18) による以前の研究を定量的に強化する。
我々の証明は、ソルトゲームにおける一様でないセキュリティと、メモリレスアルゴリズムの直接積定理との間の新しい接続を生かしている。
量子逆数に対しては、チャーン、Guo、Liu、Qian (FOCS'20) による塩類衝突耐性ハッシュの量子非一様セキュリティの未解決問題を解く。
我々の証明は、Zhandry (CRYPTO'19) の圧縮オラクルフレームワークを拡張し、平均ケース硬さのゲームを見つけるための量子強直積定理を証明する。
Cryptography often considers the strongest yet plausible attacks in the real world. Preprocessing (a.k.a. non-uniform attack) plays an important role in both theory and practice: an efficient online attacker can take advantage of advice prepared by a time-consuming preprocessing stage. Salting is a heuristic strategy to counter preprocessing attacks by feeding a small amount of randomness to the cryptographic primitive. We present general and tight characterizations of preprocessing against cryptographic salting, with upper bounds matching the advantages of the most intuitive attack. Our result quantitatively strengthens the previous work by Coretti, Dodis, Guo, and Steinberger (EUROCRYPT'18). Our proof exploits a novel connection between the non-uniform security of salted games and direct product theorems for memoryless algorithms. For quantum adversaries, we give similar characterizations for property finding games, resolving an open problem of the quantum non-uniform security of salted collision resistant hash by Chung, Guo, Liu, and Qian (FOCS'20). Our proof extends the compressed oracle framework of Zhandry (CRYPTO'19) to prove quantum strong direct product theorems for property finding games in the average-case hardness. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# SemFlow: 正規化フローによるセマンティックセグメンテーションと画像合成
SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow ( http://arxiv.org/abs/2405.20282v1 ) ライセンス: Link先を確認 | Chaoyang Wang, Xiangtai Li, Lu Qi, Henghui Ding, Yunhai Tong, Ming-Hsuan Yang, | (参考訳) セマンティックセグメンテーションとセマンティック画像合成は視覚知覚と生成における2つの代表的なタスクである。
既存の手法ではこれらを2つの異なるタスクとみなすが、統一拡散ベースフレームワーク(SemFlow)を提案し、逆問題としてモデル化する。
具体的には, 正規微分方程式(ODE)モデルを用いて, 実画像の分布とセマンティックマスクを伝達する。
トレーニング対象が対称であるため、イメージとセマンティックマスクの2つの分布に属するサンプルは、無理なく可逆的に転送することができる。
セグメンテーションでは,拡散出力のランダム性とセグメンテーション結果の特異性との矛盾を解消する。
画像合成において, 意味的カテゴリを変更することなく, 生成結果の多様性を高めるための有限摂動手法を提案する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
このシンプルなフレームワークが、低レベルかつ高レベルのビジョンの統合を再考する動機になることを期待しています。
プロジェクトページ: https://github.com/wang-chaoyang/SemFlow.com
Semantic segmentation and semantic image synthesis are two representative tasks in visual perception and generation. While existing methods consider them as two distinct tasks, we propose a unified diffusion-based framework (SemFlow) and model them as a pair of reverse problems. Specifically, motivated by rectified flow theory, we train an ordinary differential equation (ODE) model to transport between the distributions of real images and semantic masks. As the training object is symmetric, samples belonging to the two distributions, images and semantic masks, can be effortlessly transferred reversibly. For semantic segmentation, our approach solves the contradiction between the randomness of diffusion outputs and the uniqueness of segmentation results. For image synthesis, we propose a finite perturbation approach to enhance the diversity of generated results without changing the semantic categories. Experiments show that our SemFlow achieves competitive results on semantic segmentation and semantic image synthesis tasks. We hope this simple framework will motivate people to rethink the unification of low-level and high-level vision. Project page: https://github.com/wang-chaoyang/SemFlow. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# TetSphere Splatting:ラグランジアン体積メッシュを用いた高品質形状の表現
TetSphere Splatting: Representing High-Quality Geometry with Lagrangian Volumetric Meshes ( http://arxiv.org/abs/2405.20283v1 ) ライセンス: Link先を確認 | Minghao Guo, Bohan Wang, Kaiming He, Wojciech Matusik, | (参考訳) 高品質な幾何学を用いて3次元形状を再構成するための明示的なラグランジュ表現であるTetSphere splattingを提案する。
ニューラル暗黙的(例えば、NeRF、NeuS)と明示的(例えば、DMTet)の両方を含むユーレリア表現を主に用いた従来のオブジェクト再構成手法とは異なり、高い計算要求と最適メッシュ品質に苦しむ場合が多いが、TetSphere splatting は未使用で非常に効果的な原始的四面体メッシュを利用する。
このアプローチでは、ニューラルネットワークや後処理に頼ることなく、メッシュ品質が直接的に向上する。
複数の初期四面体球を変形させ、微分可能レンダリングと幾何エネルギー最適化を組み合わせて3次元形状を正確に再構成し、計算効率を著しく向上させる。
Tet-Sphereのスプラッティングは、堅牢で汎用的な幾何学表現として機能し、シングルビューの3D再構成、画像とテキストの3Dコンテンツ生成など、多様なアプリケーションにシームレスに統合される。
実験結果から,TetSphereスプラッティングは既存の表現よりも優れており,最適化速度の向上,メッシュ品質の向上,薄型構造物の信頼性維持を実現している。
We present TetSphere splatting, an explicit, Lagrangian representation for reconstructing 3D shapes with high-quality geometry. In contrast to conventional object reconstruction methods which predominantly use Eulerian representations, including both neural implicit (e.g., NeRF, NeuS) and explicit representations (e.g., DMTet), and often struggle with high computational demands and suboptimal mesh quality, TetSphere splatting utilizes an underused but highly effective geometric primitive -- tetrahedral meshes. This approach directly yields superior mesh quality without relying on neural networks or post-processing. It deforms multiple initial tetrahedral spheres to accurately reconstruct the 3D shape through a combination of differentiable rendering and geometric energy optimization, resulting in significant computational efficiency. Serving as a robust and versatile geometry representation, Tet-Sphere splatting seamlessly integrates into diverse applications, including single-view 3D reconstruction, image-/text-to-3D content generation. Experimental results demonstrate that TetSphere splatting outperforms existing representations, delivering faster optimization speed, enhanced mesh quality, and reliable preservation of thin structures. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 誰がレビューを書くか、人間かAIか?
Who Writes the Review, Human or AI? ( http://arxiv.org/abs/2405.20285v1 ) ライセンス: Link先を確認 | Panagiotis C. Theocharopoulos, Spiros V. Georgakopoulos, Sotiris K. Tasoulis, Vassilis P. Plagianakos, | (参考訳) 自然言語処理における人工知能の利用の増加に伴い、さまざまな領域におけるAI生成テキストの検出に関する懸念が高まっている。
本研究の目的は,AIによる書評と人間による書評を正確に区別する手法を提案することである。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別すると同時に,書き方や語彙のバリエーションを検出する能力を向上させる。
提案手法の有効性を評価するため,最近提案されたVicunaオープンソース言語モデルを用いて,実書レビューとAI生成レビューからなるデータセットを開発した。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
我々の取り組みは、テキスト識別の文脈における大規模言語モデルの能力と限界の探索に向けられている。
これらの側面における私たちの知識の拡大は、将来、類似したモデルを効果的にナビゲートし、人間の生成したコンテンツの完全性と信頼性を保証する上で、価値のあるものになります。
With the increasing use of Artificial Intelligence in Natural Language Processing, concerns have been raised regarding the detection of AI-generated text in various domains. This study aims to investigate this issue by proposing a methodology to accurately distinguish AI-generated and human-written book reviews. Our approach utilizes transfer learning, enabling the model to identify generated text across different topics while improving its ability to detect variations in writing style and vocabulary. To evaluate the effectiveness of the proposed methodology, we developed a dataset consisting of real book reviews and AI-generated reviews using the recently proposed Vicuna open-source language model. The experimental results demonstrate that it is feasible to detect the original source of text, achieving an accuracy rate of 96.86%. Our efforts are oriented toward the exploration of the capabilities and limitations of Large Language Models in the context of text identification. Expanding our knowledge in these aspects will be valuable for effectively navigating similar models in the future and ensuring the integrity and authenticity of human-generated content. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 非局所ゲームにおけるモノガミー
Monogamy of Nonlocal Games ( http://arxiv.org/abs/2405.20286v1 ) ライセンス: Link先を確認 | David Cui, Arthur Mehta, Denis Rochette, | (参考訳) 本研究は,グラフの頂点を越えてプレイヤーが配置されるマルチプレイヤゲームに,2ドルの非ローカルゲームを拡張することで,マルチパート非ローカル性を探求する。
2ドル以上のゲームが2ドル以上の頂点を持つグラフ上のベル非局所性に違反できない場合を特徴付けます。
同様の手法を用いて、CHSHゲームは2つの分散シナリオ(オリジナルの2プレイヤーゲームとパスグラフ上の4プレイヤーゲーム)で非局所性を示す。
対照的に、いくつかのよく研究されたゲームは、より大きなグラフにそのような違反はない。
最後に、無限個のグラフに非局所性を示す2ドルのプレイヤゲームを提供する。
Our study explores multipartite nonlocality by extending $2$-player nonlocal games to multiplayer games, where the players are positioned across the vertices of a graph. We characterize when $2$-player games cannot violate Bell nonlocality on graphs with more than $2$ vertices. Using similar techniques, we show the CHSH game only exhibits nonlocality in two distributed scenarios: the original 2-player game and the 4-player game on the path graph. In contrast, several other well-studied games have no such violations on larger graphs. Lastly, we provide a $2$-player game that exhibits nonlocality on infinitely many graphs. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# フレキシブルSE(2)グラフニューラルネットワークとPDEサロゲートへの応用
Flexible SE(2) graph neural networks with applications to PDE surrogates ( http://arxiv.org/abs/2405.20287v1 ) ライセンス: Link先を確認 | Maria Bånkestad, Olof Mogren, Aleksis Pirinen, | (参考訳) 本稿では,2次元回転と翻訳に同値なグラフニューラルネットワークを構築し,非グリッド領域上のPDE代理として利用するための新しいアプローチを提案する。
表現を主軸に整合させることで、SE(2) の等式を保ちながら多くの制約を回避できることが示される。
流体流動シミュレーションのサロゲートとして本モデルを適用し,非同変モデルに対して徹底的なベンチマークを行い,データ効率と精度の両面で有意な向上を示した。
This paper presents a novel approach for constructing graph neural networks equivariant to 2D rotations and translations and leveraging them as PDE surrogates on non-gridded domains. We show that aligning the representations with the principal axis allows us to sidestep many constraints while preserving SE(2) equivariance. By applying our model as a surrogate for fluid flow simulations and conducting thorough benchmarks against non-equivariant models, we demonstrate significant gains in terms of both data efficiency and accuracy. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# DITTO-2:Diffusion Inference-Time T-Optimization for Music Generation
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation ( http://arxiv.org/abs/2405.20289v1 ) ライセンス: Link先を確認 | Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan, | (参考訳) 制御可能な音楽生成方法は、人間中心のAIベースの音楽生成には不可欠であるが、現在、速度、品質、制御設計のトレードオフによって制限されている。
Diffusion Inference-Time T-Optimization (DITTO)は、特に最先端の結果を提供するが、リアルタイムよりも10倍以上遅いため、実用性に制限がある。
DITTO-2(Distilled Diffusion Inffusion Inference-Time T-Optimization)は,音楽のインペインティング,アウトペインティング,インテンシティ,メロディ,音楽構造制御といった多種多様なアプリケーションに対して,推論時間に基づく制御を高速化し,リアルタイム生成を高速化する新しい手法である。
提案手法は,(1)効率良く改良された整合性または整合性トラジェクトリ蒸留プロセスによる高速サンプリングのための事前学習拡散モデルを蒸留し,(2)効率の良いサロゲート最適化タスクとして1段階サンプリングを用いた蒸留モデルを用いて推論時間最適化を行い,(3)最良かつ高速かつ制御可能な生成のために,推定されたノイズ潜水器を用いて最終多段階サンプリング生成(復号)を実行することにより機能する。
徹底的な評価により,本手法は生成速度を10~20倍に向上するだけでなく,制御の順守と生成品質を同時に向上させる。
さらに,本手法をテキストアテンデンス(CLAPスコア)を最大化する新しい応用に適用し,テキスト入力を使わずに非条件拡散モデルを最先端のテキスト制御を行うモデルに変換することを示す。
音の例はhttps://ditto-music.github.io/ditto2/にある。
Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 未学習体重変化とバックドア活動性に基づくバックドア脆弱性の発見と緩和
Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness ( http://arxiv.org/abs/2405.20291v1 ) ライセンス: Link先を確認 | Weilin Lin, Li Liu, Shaokui Wei, Jianze Li, Hui Xiong, | (参考訳) バックドア攻撃によるセキュリティ上の脅威は、ディープニューラルネットワーク(DNN)の中心的な関心事である。
近年,有毒なデータやクリーンなデータを用いた未学習モデル,さらにはプルーニングマスクの学習が,バックドアの防御に寄与している。
さらに、これらのクリーンなデータによるバニラ微調整は、失われたクリーンな精度を回復するのに役立ちます。
しかし、クリーン・アンラーニングの行動はいまだ未調査であり、バニラの微調整は意図せずにバックドア効果を誘発する。
本研究では、まず、重み変化と勾配ノルムの観点からモデル非学習を調査し、バックドアモデルで興味深い2つの観察結果を得る。
1) 毒性と未学習の体重変化は正の相関関係にあり, 有毒データを用いることなく, バックドア関連ニューロンの同定が可能となる。
2) バックドアモデルのニューロンはクリーンモデルよりも活発(すなわち勾配ノルムの変化)であり, 微調整時の勾配ノルムの抑制の必要性が示唆された。
そこで本研究では,効果的な2段階防御手法を提案する。
第1段階では、NWCに基づく効率的なバックドア再初期化(Backdoor Reinitialization)が観察に基づいて提案されている。
第2段階では、観測2に基づいて、バニラファインチューニングに代わるアクティブネス対応ファインチューニングを設計する。
3つのベンチマークデータセットに対する8つのバックドア攻撃を含む大規模な実験は、最近の最先端のバックドア防御手法と比較して提案手法の優れた性能を示す。
The security threat of backdoor attacks is a central concern for deep neural networks (DNNs). Recently, without poisoned data, unlearning models with clean data and then learning a pruning mask have contributed to backdoor defense. Additionally, vanilla fine-tuning with those clean data can help recover the lost clean accuracy. However, the behavior of clean unlearning is still under-explored, and vanilla fine-tuning unintentionally induces back the backdoor effect. In this work, we first investigate model unlearning from the perspective of weight changes and gradient norms, and find two interesting observations in the backdoored model: 1) the weight changes between poison and clean unlearning are positively correlated, making it possible for us to identify the backdoored-related neurons without using poisoned data; 2) the neurons of the backdoored model are more active (i.e., larger changes in gradient norm) than those in the clean model, suggesting the need to suppress the gradient norm during fine-tuning. Then, we propose an effective two-stage defense method. In the first stage, an efficient Neuron Weight Change (NWC)-based Backdoor Reinitialization is proposed based on observation 1). In the second stage, based on observation 2), we design an Activeness-Aware Fine-Tuning to replace the vanilla fine-tuning. Extensive experiments, involving eight backdoor attacks on three benchmark datasets, demonstrate the superior performance of our proposed method compared to recent state-of-the-art backdoor defense approaches. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# ミニ暗号化で量子PKEを構築するには
How (not) to Build Quantum PKE in Minicrypt ( http://arxiv.org/abs/2405.20295v1 ) ライセンス: Link先を確認 | Longcheng Li, Qian Li, Xingjian Li, Qipeng Liu, | (参考訳) Impagliazzo と Rudich (STOC'89) によるセミナーは、ブラックボックス方式でワンウェイ関数 (OWF) から古典的な公開鍵暗号 (PKE) を構築することができないことを示した。
しかし、疑問は残る:量子PKE(QPKE)は量子的に安全なOWFから構築できるか?
最近の研究は、OWFからQPKEを構築することは実際に可能であることを示しているが、注意すべき点は、認証や再利用ができない量子公開鍵に依存していることだ。
本研究では,OWFが存在する量子乱数オラクルモデル(QROM)における完全完全QPKEの可能性を再検討する。
最初の主要な結果:古典的な公開鍵、秘密鍵、暗号文を持つQPKEは、鍵生成が古典的なクエリのみを生成する場合、QROMには存在しない。
したがって、そのようなQPKEをOWFから構築するために必要な条件は、古典的には ``un-simulatable'' である。
以前の議論 (Austrin et al CRYPTO'22) では、OWF からの QPKE の不可能性は、一見強い予想に依存している。
我々の研究は、Impagliazzo と Rudich の結果の完全かつ非条件量子化に向けて大きな一歩を踏み出した。
第2の結果は量子公開鍵を用いたQPKEに拡張されます。
第二の主な結果:量子公開鍵、古典秘密鍵、暗号文を持つQPKEは、鍵生成が古典的なクエリしか生成せず、量子公開鍵が純粋または「効率よく閉じられる」ものである場合、QROMには存在しない。
既存のQPKEの建設がすべて完了しているため、結果は厳格である。
以上の結果から,既存のQPKEが再利用性を失う理由が示唆された。
これらの結果を得るために、Fawzi と Renner による条件付き相互情報と量子マルコフ連鎖に基づく新しい議論を用いる。
この研究で使用される技術は、量子暗号/複雑さの分離において他の有用性を見出すだろうと信じている。
The seminal work by Impagliazzo and Rudich (STOC'89) demonstrated the impossibility of constructing classical public key encryption (PKE) from one-way functions (OWF) in a black-box manner. However, the question remains: can quantum PKE (QPKE) be constructed from quantumly secure OWF? A recent line of work has shown that it is indeed possible to build QPKE from OWF, but with one caveat -- they rely on quantum public keys, which cannot be authenticated and reused. In this work, we re-examine the possibility of perfect complete QPKE in the quantum random oracle model (QROM), where OWF exists. Our first main result: QPKE with classical public keys, secret keys and ciphertext, does not exist in the QROM, if the key generation only makes classical queries. Therefore, a necessary condition for constructing such QPKE from OWF is to have the key generation classically ``un-simulatable''. Previous discussions (Austrin et al. CRYPTO'22) on the impossibility of QPKE from OWF rely on a seemingly strong conjecture. Our work makes a significant step towards a complete and unconditional quantization of Impagliazzo and Rudich's results. Our second main result extends to QPKE with quantum public keys. The second main result: QPKE with quantum public keys, classical secret keys and ciphertext, does not exist in the QROM, if the key generation only makes classical queries and the quantum public key is either pure or ``efficiently clonable''. The result is tight due to all existing QPKEs constructions. Our result further gives evidence on why existing QPKEs lose reusability. To achieve these results, we use a novel argument based on conditional mutual information and quantum Markov chain by Fawzi and Renner (Communications in Mathematical Physics). We believe the techniques used in the work will find other usefulness in separations in quantum cryptography/complexity. | 翻訳日:2024-05-31 13:09:46 公開日:2024-05-30 |
# 極小アクセス性異方性スピン鎖の臨界距離論
Critical metrology of minimally accessible anisotropic spin chains ( http://arxiv.org/abs/2405.20296v1 ) ライセンス: Link先を確認 | Marco Adani, Simone Cavazzoni, Berihu Teklu, Paolo Bordone, Matteo G. A. Paris, | (参考訳) 我々は、異方性とジアロシンスキー・モリヤ相互作用を持つ臨界スピン鎖の量子メロロジーに対処し、局所的および準局所的な測定がシステムのグローバルな性質を特徴づけるためにどのように利用されるかを示す。
特に、1つのスピンの密度行列と、最も近いから6番目のアネレスト近傍のスピンの対のスピンの関連パラメータの古典的(磁化)および量子フィッシャー情報から、非常に遠いスピンの制限ケースまでの評価を行う。
この結果から,各パラメータの役割を解明し,システムの精密な評価のために最適な作業条件を明確化し,相関が推定精度に与える影響を明らかにすることができた。
We address quantum metrology in critical spin chains with anisotropy and Dzyaloshinskii-Moriya (DM) interaction, and show how local and quasi-local measurements may be exploited to characterize global properties of the systems. In particular, we evaluate the classical (magnetization) and quantum Fisher information of the relevant parameters for the density matrix of a single spin and that of a pair of spins ranging from nearest to sixth-nearest neighbors, to the limiting case of very distant spins. Our results allow us to elucidate the role of the different parameters and to individuate the optimal working regimes for the precise characterization of the system, also clarifying the effects of correlations on the estimation precision. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# ビジョンのためのWhite-Box変換器のスケーリング
Scaling White-Box Transformers for Vision ( http://arxiv.org/abs/2405.20299v1 ) ライセンス: Link先を確認 | Jinrui Yang, Xianhang Li, Druv Pai, Yuyin Zhou, Yi Ma, Yaodong Yu, Cihang Xie, | (参考訳) 圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャであるCRATEは、その固有の数学的解釈性から、標準ビジョントランスフォーマー(ViT)に代わる興味深い代替手段を提供する。
言語と視覚変換器のスケーリング動作について広範な調査が行われたが、CRATEのスケーラビリティは未解決の問題である。
具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更を特徴とするCRATE-$\alpha$と、CRATEのスケーラビリティ向上を目的としたライトトレーニングレシピを提案する。
大規模な実験を通じて、CRATE-$\alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを実証する。
例えば、われわれの CRATE-$\alpha$-B は ImageNet の分類において、これまでで最高の CRATE-B モデルの精度を3.7%上回っており、精度は83.2% である。
一方、さらなるスケーリングを行う場合、CRATE-$\alpha$-L は ImageNet の分類精度85.1% を得る。
さらに、これらのモデルの性能改善は、学習されたCRATEモデルの解釈可能性を高めることさえ可能であり、より大きく訓練されたCRATE-$\alpha$モデルの学習トークン表現が、画像の高品質な教師なしオブジェクトセグメンテーションをもたらすことを示した。
プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。
CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# Reward-free RLHFにおけるグループロバスト選好最適化
Group Robust Preference Optimization in Reward-free RLHF ( http://arxiv.org/abs/2405.20304v1 ) ライセンス: Link先を確認 | Shyam Sundhar Ramesh, Yifan Hu, Iason Chaimalas, Viraj Mehta, Pier Giuseppe Sessa, Haitham Bou Ammar, Ilija Bogunovic, | (参考訳) 特定のタスクに大規模言語モデル(LLM)を適用する場合、通常、好みのデータに対する人間からのフィードバック(RLHF)による強化学習を通じて微調整を行う。
これらのデータは、様々なラベラーのグループ(例えば、異なる人口層、民族、企業チームなど)から来ることが多いが、伝統的なRLHFアプローチは「一大フィット」アプローチを採用する。
この制限に対処するために、LLMを個々のグループの好みにしっかりと合わせる新しいグループロバスト選好最適化法(GRPO)を提案する。
提案手法は報酬のない直接選好最適化法に基づいているが、従来の手法とは異なり、最悪のグループ性能を最大化する堅牢なポリシーを求める。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
本稿では,GRPOの実現可能性について理論的に検討し,その収束度を対数線形ポリシークラスで解析する。
多様なグループベースのグローバル世論データを用いてGRPOを用いてLEMを微調整することにより、最悪のパフォーマンスグループのパフォーマンスを著しく改善し、グループ間の損失不均衡を低減し、非ロバストベースラインと比較して確率精度を向上した。
Adapting large language models (LLMs) for specific tasks usually involves fine-tuning through reinforcement learning with human feedback (RLHF) on preference data. While these data often come from diverse labelers' groups (e.g., different demographics, ethnicities, company teams, etc.), traditional RLHF approaches adopt a "one-size-fits-all" approach, i.e., they indiscriminately assume and optimize a single preference model, thus not being robust to unique characteristics and needs of the various groups. To address this limitation, we propose a novel Group Robust Preference Optimization (GRPO) method to align LLMs to individual groups' preferences robustly. Our approach builds upon reward-free direct preference optimization methods, but unlike previous approaches, it seeks a robust policy which maximizes the worst-case group performance. To achieve this, GRPO adaptively and sequentially weights the importance of different groups, prioritizing groups with worse cumulative loss. We theoretically study the feasibility of GRPO and analyze its convergence for the log-linear policy class. By fine-tuning LLMs with GRPO using diverse group-based global opinion data, we significantly improved performance for the worst-performing groups, reduced loss imbalances across groups, and improved probability accuracies compared to non-robust baselines. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# 卵を割ることなくオメレットを作れない:大型ビデオ言語モデルによるプラウシブルな行動予測
Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models ( http://arxiv.org/abs/2405.20305v1 ) ライセンス: Link先を確認 | Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee, | (参考訳) 実世界において有効なアクションシーケンスを予測するための大規模ビデオ言語モデルであるPlausiVLを紹介する。
今後の行動を予測するために重要な努力がなされているが、先行のアプローチはアクションシーケンスの妥当性を考慮に入れていない。
この制限に対処するため、我々の研究における大規模ビデオ言語モデルの生成能力について検討し、さらに2つの目的関数、対実的ベースで実行可能なアクションシーケンス学習損失と長時間のアクション繰り返し損失を導入して、アクションシーケンスにおける妥当性の理解を深める。
我々は時間的論理的制約と動詞と名詞のアクションペア論理的制約を利用して、不明瞭な/偽のアクションシーケンスを作成し、それらを使用して、妥当なアクションシーケンス学習損失でモデルを訓練する。
この損失は、モデルが可塑性かつ可塑性でないアクションシーケンスを区別するのに役立ち、また、モデルが行動予測のタスクに不可欠な暗黙の時間的手がかりを学習するのに役立ちます。
長時間の行動繰り返しの損失は、より長い時間的窓よりも繰り返しやすい行動により高いペナルティを与える。
このペナルティ化により、モデルは多様な、もっともらしいアクションシーケンスを生成することができる。
我々は,Ego4DとEPIC-Kitchens-100の2つの大規模データセットに対するアプローチを評価し,行動予測の課題の改善を示す。
We introduce PlausiVL, a large video-language model for anticipating action sequences that are plausible in the real-world. While significant efforts have been made towards anticipating future actions, prior approaches do not take into account the aspect of plausibility in an action sequence. To address this limitation, we explore the generative capability of a large video-language model in our work and further, develop the understanding of plausibility in an action sequence by introducing two objective functions, a counterfactual-based plausible action sequence learning loss and a long-horizon action repetition loss. We utilize temporal logical constraints as well as verb-noun action pair logical constraints to create implausible/counterfactual action sequences and use them to train the model with plausible action sequence learning loss. This loss helps the model to differentiate between plausible and not plausible action sequences and also helps the model to learn implicit temporal cues crucial for the task of action anticipation. The long-horizon action repetition loss puts a higher penalty on the actions that are more prone to repetition over a longer temporal window. With this penalization, the model is able to generate diverse, plausible action sequences. We evaluate our approach on two large-scale datasets, Ego4D and EPIC-Kitchens-100, and show improvements on the task of action anticipation. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# 大規模言語モデルはWebエージェントタスクで自己改善できる
Large Language Models Can Self-Improve At Web Agent Tasks ( http://arxiv.org/abs/2405.20309v1 ) ライセンス: Link先を確認 | Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter, | (参考訳) ウェブブラウザのような複雑な環境でのアクションを効果的にナビゲートし実行できるエージェントとして振る舞うためのトレーニングモデルは、トレーニングデータがないため、通常困難だった。
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
近年の研究では、LLMは自己改善(モデル自体が生成するデータの微調整)によってベース性能を超える能力を持つことを示した。
本研究では,LLMがWebArenaベンチマークを用いて,複雑な環境下での長期タスクにおけるエージェントとしての性能を自己向上する方法について検討する。
WebArenaでは、エージェントは特定の目的を達成するために、Webページ上で自律的にナビゲートし、アクションを実行する必要がある。
本稿では,3種類の合成学習データ混合物の微調整について検討し,WebArenaベンチマークのベースモデル上でのタスク完了率を31倍に向上させる方法を提案する。
我々はまた、我々の微調整されたエージェントモデルの性能、堅牢性、能力、品質を評価するための新しい評価指標を、現在自己改善測定に使われている単純な総合的なベンチマークスコアよりも高い程度に貢献する。
Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# シングルビューで3Dを再現する「Pixel」は3Dガウシアンが1人以上いる
A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction ( http://arxiv.org/abs/2405.20310v1 ) ライセンス: Link先を確認 | Jianghao Shen, Tianfu Wu, | (参考訳) シングルビュー画像から3Dシーンの表現を学習することは、コンピュータビジョンにおける長年の根本的問題であり、入力ビューから見えないコンテンツの予測に固有の曖昧さがある。
Splatter Image methodは、最近提案された3D Gaussian Splatting(3DGS)に基づいて、入力画像のU-Net特徴マップに基づいて、各画素に対して単一の3D Gaussianを学習することで、高速な単一画像のノベルビュー合成を進歩させた。
しかし、入力ビューでは観測できない排他的コンポーネントを表現するための表現力は限られている。
この問題に対処するため,本研究では,画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。
具体的には、各画素は親3Dガウシアンと子3Dガウシアンとで表される。
親の3Dガウスは、バニラ・スプラッター・イメージ(英語版)で学習されている。
子3Dガウスアンは、親3Dガウスアンの投影された画像特徴と対象カメラビューの埋め込みを入力として、軽量のマルチ層パーセプトロン(MLP)を介して学習される。
親と子の両方の3Dガウスアンは、段階的にエンドツーエンドで学習される。
親ガウスの目からの入力画像の特徴と対象カメラ位置との結合条件は、子ガウスを「見えないものを見る」に割り当てることを容易にし、しばしば親ガウスに見逃される隠された詳細を回復させる。
実験では,提案手法をShapeNet-SRNおよびCO3Dデータセット上でテストし,特に入力ビューにおける隠蔽コンテンツを再構成する有望な能力を示す。
Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# 条件付きタンパク質バックボーン生成のためのシーケンス強化SE(3)-フローマッチング
Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation ( http://arxiv.org/abs/2405.20313v1 ) ライセンス: Link先を確認 | Guillaume Huguet, James Vuckovic, Kilian Fatras, Eric Thibodeau-Laufer, Pablo Lemos, Riashat Islam, Cheng-Hao Liu, Jarrid Rector-Brooks, Tara Akhound-Sadegh, Michael Bronstein, Alexander Tong, Avishek Joey Bose, | (参考訳) タンパク質は、ほとんどすべての生物学的プロセスに必須であり、複雑な3D構造から様々な機能を誘導し、アミノ酸配列によって決定される。
本稿では,アミノ酸配列の豊富な生物学的誘導バイアスを利用して,新規な配列条件SE(3)-等価フローマッチングモデルであるFoldFlow-2を導入する。
FoldFlow-2は、配列をエンコードするタンパク質大言語モデルや、構造とシーケンス表現を組み合わせた新しいマルチモーダル融合トランク、幾何学変換器ベースのデコーダなど、以前のFoldFlowファミリにまたがる重要なアーキテクチャ上の特徴を提示する。
生成したサンプルの多様性と新規性(デノボの薬物設計に不可欠なもの)を高めるため、FoldFlow-2を、PDBの既知のタンパク質とフィルタリングによって達成された高品質な合成構造の両方を含む、以前の作業のPDBデータセットよりも桁違いの大きさのデータセットで大規模にトレーニングします。
さらに、FoldFlow-2を任意の報酬、例えば二次構造の多様性を増大させる能力について、Reinforced Finetuning (ReFT) の目的を導入して示す。
FoldFlow-2は、従来の最先端タンパク質構造に基づく生成モデルよりも優れており、設計性、多様性、新規性を含む全ての指標におけるRF拡散の非条件生成の改善、および平衡整合サンプリングのタスクにおける一般化を示すことを実証的に観察した。
最後に、細調整されたFoldFlow-2がVHHナノボディの足場設計などの条件設計タスクを進行させることを示す。
Proteins are essential for almost all biological processes and derive their diverse functions from complex 3D structures, which are in turn determined by their amino acid sequences. In this paper, we exploit the rich biological inductive bias of amino acid sequences and introduce FoldFlow-2, a novel sequence-conditioned SE(3)-equivariant flow matching model for protein structure generation. FoldFlow-2 presents substantial new architectural features over the previous FoldFlow family of models including a protein large language model to encode sequence, a new multi-modal fusion trunk that combines structure and sequence representations, and a geometric transformer based decoder. To increase diversity and novelty of generated samples -- crucial for de-novo drug design -- we train FoldFlow-2 at scale on a new dataset that is an order of magnitude larger than PDB datasets of prior works, containing both known proteins in PDB and high-quality synthetic structures achieved through filtering. We further demonstrate the ability to align FoldFlow-2 to arbitrary rewards, e.g. increasing secondary structures diversity, by introducing a Reinforced Finetuning (ReFT) objective. We empirically observe that FoldFlow-2 outperforms previous state-of-the-art protein structure-based generative models, improving over RFDiffusion in terms of unconditional generation across all metrics including designability, diversity, and novelty across all protein lengths, as well as exhibiting generalization on the task of equilibrium conformation sampling. Finally, we demonstrate that a fine-tuned FoldFlow-2 makes progress on challenging conditional design tasks such as designing scaffolds for the VHH nanobody. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# S3D:低メモリGPUのためのシンプルで費用効果の高い自己投機的デコード方式
S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs ( http://arxiv.org/abs/2405.20314v1 ) ライセンス: Link先を確認 | Wei Zhong, Manasa Bharadwaj, | (参考訳) 投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
しかし、その高速さにもかかわらず、投機的復号法は、ハイエンドデバイスや相当なGPUメモリオーバーヘッドで最適なパフォーマンスを達成することが多い。
メモリの制限と量子化の必要性から、ハイエンドGPUのハイパフォーマンスモデルは最大7倍の速度で低下する可能性がある。
そこで本稿では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
近年の効率的なオープンソースSDシステムと比較すると,本手法は最小限のアーキテクチャ変更とトレーニングデータを必要としながら,最高のパフォーマンス・メモリ比を達成している。
メモリ効率を活用して、Phi-3をベースとしたより小型で効率的なSDモデルを作成しました。
量子化されたEAGLEモデルよりも1.4倍から2倍高速で、より少ないVRAMを使用しながら半精度で動作する。
Speculative decoding (SD) has attracted a significant amount of research attention due to the substantial speedup it can achieve for LLM inference. However, despite the high speedups they offer, speculative decoding methods often achieve optimal performance on high-end devices or with a substantial GPU memory overhead. Given limited memory and the necessity of quantization, a high-performing model on a high-end GPU can slow down by up to 7 times. To this end, we propose Skippy Simultaneous Speculative Decoding (or S3D), a cost-effective self-speculative SD method based on simultaneous multi-token decoding and mid-layer skipping. When compared against recent effective open-source SD systems, our method has achieved one of the top performance-memory ratios while requiring minimal architecture changes and training data. Leveraging our memory efficiency, we created a smaller yet more effective SD model based on Phi-3. It is 1.4 to 2 times faster than the quantized EAGLE model and operates in half-precision while using less VRAM. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# ANAH:大規模言語モデルにおける幻覚の分析的アノテーション
ANAH: Analytical Annotation of Hallucinations in Large Language Models ( http://arxiv.org/abs/2405.20315v1 ) ライセンス: Link先を確認 | Ziwei Ji, Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen, | (参考訳) LLM(Large Language Models)の ‘$\textit{hallucination}$' 問題を減らすことは、幅広いアプリケーションにとって不可欠である。
幻覚の包括的かつきめ細かい測定は、この問題のガバナンスのための最初の重要なステップであるが、コミュニティでは過小評価されている。
したがって、生成質問回答の LLM で $\textbf{AN}$alytical $\textbf{A}$nnotation of $\textbf{H}$allucinations を提供するバイリンガルデータセットである $\textbf{ANAH}$ を提示する。
本データセットの各回答文は,参照フラグメントの検索,幻覚型判定,幻覚内容の修正など,厳密なアノテーションを施す。
ANAHは700以上のトピックをカバーする約12kの文レベルアノテーションと約4.3kのLLM応答で構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が徐々に解答に蓄積し, ANAHを用いて幻覚アノテーションを訓練し, 評価することが定量的に確認できる。
我々は生成的および識別的アノテータの研究について広範囲にわたる実験を行い、現在のオープンソースLLMは細粒度の幻覚アノテーションが難しいが、ANAHで訓練された生成アノテータはすべてのオープンソースLLMとGPT-3.5を越え、GPT-4と競合する性能を得ることができ、未確認の質問に対してより優れた一般化能力を示すことを示した。
Reducing the `$\textit{hallucination}$' problem of Large Language Models (LLMs) is crucial for their wide applications. A comprehensive and fine-grained measurement of the hallucination is the first key step for the governance of this issue but is under-explored in the community. Thus, we present $\textbf{ANAH}$, a bilingual dataset that offers $\textbf{AN}$alytical $\textbf{A}$nnotation of $\textbf{H}$allucinations in LLMs within Generative Question Answering. Each answer sentence in our dataset undergoes rigorous annotation, involving the retrieval of a reference fragment, the judgment of the hallucination type, and the correction of hallucinated content. ANAH consists of ~12k sentence-level annotations for ~4.3k LLM responses covering over 700 topics, constructed by a human-in-the-loop pipeline. Thanks to the fine granularity of the hallucination annotations, we can quantitatively confirm that the hallucinations of LLMs progressively accumulate in the answer and use ANAH to train and evaluate hallucination annotators. We conduct extensive experiments on studying generative and discriminative annotators and show that, although current open-source LLMs have difficulties in fine-grained hallucination annotation, the generative annotator trained with ANAH can surpass all open-source LLMs and GPT-3.5, obtain performance competitive with GPT-4, and exhibits better generalization ability on unseen questions. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# CausalQuest:AIエージェントに対する自然な因果質問の収集
CausalQuest: Collecting Natural Causal Questions for AI Agents ( http://arxiv.org/abs/2405.20318v1 ) ライセンス: Link先を確認 | Roberto Ceraolo, Dmitrii Kharlapenko, Amélie Reymond, Rada Mihalcea, Mrinmaya Sachan, Bernhard Schölkopf, Zhijing Jin, | (参考訳) 人間は因果関係を探究する原動力を持っている。
好奇心や特定の目標によって刺激されるかどうかに関わらず、なぜ物事が起こるのか、どのように相互接続されているのか、その他多くの関連する現象に常に疑問を呈する。
この自然な人間による因果関係の探求に対処できるAIエージェントを開発するには、自然因果関係の包括的なデータセットを緊急に必要とします。
残念ながら、既存のデータセットには、実際のAI使用シナリオを反映しない人工的な質問のみが含まれているか、特定のソースからの質問を限定的にカバーしている。
このギャップに対処するために、ソーシャルネットワーク、検索エンジン、AIアシスタントから自然に発生する13,500の質問のデータセットであるCausalQuestを紹介します。
我々は因果問題の定義を定式化し、よりきめ細かい分類のための分類法を確立する。
人間のアノテータと大規模言語モデル(LLM)の組み合わせにより、データセットを慎重にラベル付けする。
人類が問う質問の42%は本当に因果関係であり、大多数は与えられた影響の背後にある原因を理解しようとしている。
このデータセットを用いて、因果質問を識別するバイナリタスクに対して、最大2.85Bパラメータの効率的な分類器を訓練し、最大0.877のF1スコアで高い性能を達成する。
私たちは、データとモデルに基づいて構築できる、将来の研究方向性の豊富なセットで締めくくります。
Humans have an innate drive to seek out causality. Whether fuelled by curiosity or specific goals, we constantly question why things happen, how they are interconnected, and many other related phenomena. To develop AI agents capable of addressing this natural human quest for causality, we urgently need a comprehensive dataset of natural causal questions. Unfortunately, existing datasets either contain only artificially-crafted questions that do not reflect real AI usage scenarios or have limited coverage of questions from specific sources. To address this gap, we present CausalQuest, a dataset of 13,500 naturally occurring questions sourced from social networks, search engines, and AI assistants. We formalize the definition of causal questions and establish a taxonomy for finer-grained classification. Through a combined effort of human annotators and large language models (LLMs), we carefully label the dataset. We find that 42% of the questions humans ask are indeed causal, with the majority seeking to understand the causes behind given effects. Using this dataset, we train efficient classifiers (up to 2.85B parameters) for the binary task of identifying causal questions, achieving high performance with F1 scores of up to 0.877. We conclude with a rich set of future research directions that can build upon our data and models. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# ParSEL: 言語によるパラメータ化された形状編集
ParSEL: Parameterized Shape Editing with Language ( http://arxiv.org/abs/2405.20319v1 ) ライセンス: Link先を確認 | Aditya Ganeshan, Ryan Y. Huang, Xianghao Xu, R. Kenny Jones, Daniel Ritchie, | (参考訳) 自然言語から3Dアセットを編集する能力は、3Dコンテンツ作成の民主化を支援するための魅力的なパラダイムを提供する。
しかし、自然言語は一般的な意図を伝えるのに効果的であることが多いが、正確な操作の特定には適していない。
このギャップに対処するために、自然言語から高品質な3Dアセットを制御可能な編集を可能にするParSELを導入する。
セグメント化された3Dメッシュと編集要求が与えられた後、ParSELはパラメータ化された編集プログラムを生成する。
プログラムパラメータを調整することで、ユーザーは編集の規模を正確に制御して形状のバリエーションを探索できる。
入力編集要求に整合した編集プログラムを推論するために,大規模言語モデル(LLM)の能力を利用する。
しかし, LLMは初期編集操作の識別に優れており, 完全な編集プログラムの推論に失敗することが多く, 形状意味論に反する出力を生成する。
そこで本研究では,解析的編集プロパゲーション(AEP, Analytical Edit Propagation)を提案する。
従来の方法とは異なり、AEPは幾何学解析のための計算機代数システムの統合を通じて、様々なユーザ編集と互換性のある分析編集操作を検索する。
実験により,ParSELによる3次元オブジェクトの制御可能な編集が,代替システム設計上の自然言語要求によって可能であることを示す。
The ability to edit 3D assets from natural language presents a compelling paradigm to aid in the democratization of 3D content creation. However, while natural language is often effective at communicating general intent, it is poorly suited for specifying precise manipulation. To address this gap, we introduce ParSEL, a system that enables controllable editing of high-quality 3D assets from natural language. Given a segmented 3D mesh and an editing request, ParSEL produces a parameterized editing program. Adjusting the program parameters allows users to explore shape variations with a precise control over the magnitudes of edits. To infer editing programs which align with an input edit request, we leverage the abilities of large-language models (LLMs). However, while we find that LLMs excel at identifying initial edit operations, they often fail to infer complete editing programs, and produce outputs that violate shape semantics. To overcome this issue, we introduce Analytical Edit Propagation (AEP), an algorithm which extends a seed edit with additional operations until a complete editing program has been formed. Unlike prior methods, AEP searches for analytical editing operations compatible with a range of possible user edits through the integration of computer algebra systems for geometric analysis. Experimentally we demonstrate ParSEL's effectiveness in enabling controllable editing of 3D objects through natural language requests over alternative system designs. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# 凝固流の訓練の改善
Improving the Training of Rectified Flows ( http://arxiv.org/abs/2405.20320v1 ) ライセンス: Link先を確認 | Sangyun Lee, Zinan Lin, Giulia Fanti, | (参考訳) 拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
しかし、修正フローには比較的多くの機能評価(NFE)が必要である。
そこで本研究では,NFEの低い環境下においても,知識蒸留法に対抗して整流を訓練するための改良手法を提案する。
我々の主な洞察は、現実的な設定下では、修正されたフローをトレーニングするReflowアルゴリズムの1つのイテレーションは、ほぼ直線的な軌跡を学ぶのに十分であるということです。
そこで本研究では,U字型タイムステップ分布とLPIPS-Huberプレメトリックを含む整流流の一周訓練を改善する手法を提案する。
これらの手法により,CIFAR-10上の1 NFE設定において,従来の2整流流のFIDを最大72%改善する。
ImageNet 64$\times$64では、改良された修正フローは、一段階と二段階の両方において、一貫した蒸留や漸進的な蒸留といった最先端の蒸留方法よりも優れ、FIDにおける改善された整合性トレーニング(iCT)の性能に匹敵する。
コードはhttps://github.com/sangyun884/rfpp.comから入手できる。
Diffusion models have shown great promise for image and video generation, but sampling from state-of-the-art models requires expensive numerical integration of a generative ODE. One approach for tackling this problem is rectified flows, which iteratively learn smooth ODE paths that are less susceptible to truncation error. However, rectified flows still require a relatively large number of function evaluations (NFEs). In this work, we propose improved techniques for training rectified flows, allowing them to compete with knowledge distillation methods even in the low NFE setting. Our main insight is that under realistic settings, a single iteration of the Reflow algorithm for training rectified flows is sufficient to learn nearly straight trajectories; hence, the current practice of using multiple Reflow iterations is unnecessary. We thus propose techniques to improve one-round training of rectified flows, including a U-shaped timestep distribution and LPIPS-Huber premetric. With these techniques, we improve the FID of the previous 2-rectified flow by up to 72% in the 1 NFE setting on CIFAR-10. On ImageNet 64$\times$64, our improved rectified flow outperforms the state-of-the-art distillation methods such as consistency distillation and progressive distillation in both one-step and two-step settings and rivals the performance of improved consistency training (iCT) in FID. Code is available at https://github.com/sangyun884/rfpp. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# オープンワールドオブジェクトグラフを用いた単眼映像からの視覚に基づく操作
Vision-based Manipulation from Single Human Video with Open-World Object Graphs ( http://arxiv.org/abs/2405.20321v1 ) ライセンス: Link先を確認 | Yifeng Zhu, Arisrei Lim, Peter Stone, Yuke Zhu, | (参考訳) 我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
本研究では,ロボットが1つのビデオデモから新しい物体を操作することを学ばなければならないオープンワールド環境において,単一の人間のビデオからロボット操作を模倣する問題について検討する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出し,抽出した計画に条件を付けたポリシーを導出することにより,この問題に対処するアルゴリズムである。
ロボットは,iPadなどの日常的なモバイルデバイスで撮影した映像から学習し,視覚的背景,カメラアングル,空間的レイアウト,新しいオブジェクトインスタンスなど,様々な環境へのポリシーを一般化する。
本研究では,オープンワールドにおける1つの人間ビデオから学習する上でのORIONの有効性を実証し,短軸タスクと長軸タスクの両方において手法を体系的に評価した。
ビデオはプロジェクトのWebサイトhttps://ut-austin-rpl.github.io/ORION-releaseで見ることができる。
We present an object-centric approach to empower robots to learn vision-based manipulation skills from human videos. We investigate the problem of imitating robot manipulation from a single human video in the open-world setting, where a robot must learn to manipulate novel objects from one video demonstration. We introduce ORION, an algorithm that tackles the problem by extracting an object-centric manipulation plan from a single RGB-D video and deriving a policy that conditions on the extracted plan. Our method enables the robot to learn from videos captured by daily mobile devices such as an iPad and generalize the policies to deployment environments with varying visual backgrounds, camera angles, spatial layouts, and novel object instances. We systematically evaluate our method on both short-horizon and long-horizon tasks, demonstrating the efficacy of ORION in learning from a single human video in the open world. Videos can be found in the project website https://ut-austin-rpl.github.io/ORION-release. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# グラウバーの量子一般化とメトロポリス力学
Quantum generalizations of Glauber and Metropolis dynamics ( http://arxiv.org/abs/2405.20322v1 ) ライセンス: Link先を確認 | András Gilyén, Chi-Fang Chen, Joao F. Doriguello, Michael J. Kastoryano, | (参考訳) 古典的なマルコフ・チェイン・モンテカルロ法は統計物理系をシミュレートするために不可欠であり、複雑な自由度を持つ他の系にもよく適用されている。
統計物理学の起源に動機づけられたChen, Kastoryano, Gily\'en [CKG23] は、グラウバー力学の連続時間量子熱力学類似体を提案した。
(i)正確にはバランスが取れた。
(ii) 効率よく実装可能で
(三)幾何的局所系を準局所とする。
物理的に、それらの構成は、弱い系-バス相互作用から導かれるデービースのジェネレータの滑らかな変種を与える。
本研究では,メトロポリスサンプリングと効率よく実装可能な離散時間量子を提示し,望ましい特徴を享受する。
(i)-
(三)
また、他の物理的に導出された主方程式に類似した詳細均衡力学の高一貫性量子一般化を提案し、これとそれ以前の構成との滑らかな補間を提案する。
固定点の特異性や結果の作用素の局所性を含むすべての構成の総称的性質について検討する。
我々は、古典グラウバー力学とメトロポリス力学の量子一般化への体系的なアプローチを提供することを期待している。
Classical Markov Chain Monte Carlo methods have been essential for simulating statistical physical systems and have proven well applicable to other systems with complex degrees of freedom. Motivated by the statistical physics origins, Chen, Kastoryano, and Gily\'en [CKG23] proposed a continuous-time quantum thermodynamic analog to Glauber dynamic that is (i) exactly detailed balanced, (ii) efficiently implementable, and (iii) quasi-local for geometrically local systems. Physically, their construction gives a smooth variant of the Davies' generator derived from weak system-bath interaction. In this work, we give an efficiently implementable discrete-time quantum counterpart to Metropolis sampling that also enjoys the desirable features (i)-(iii). Also, we give an alternative highly coherent quantum generalization of detailed balanced dynamics that resembles another physically derived master equation, and propose a smooth interpolation between this and earlier constructions. We study generic properties of all constructions, including the uniqueness of the fixed-point and the locality of the resulting operators. We hope our results provide a systematic approach to the possible quantum generalizations of classical Glauber and Metropolis dynamics. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for autonomous Driving
$\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving ( http://arxiv.org/abs/2405.20323v1 ) ライセンス: Link先を確認 | Nan Huang, Xiaobao Wei, Wenzhao Zheng, Pengju An, Ming Lu, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang, | (参考訳) 光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
運転シーンにNeRF(Neural Radiance Fields)が有効であるにもかかわらず、3D Gaussian Splatting(3DGS)は高速かつより明示的な表現のために有望な方向として現れる。
しかし、既存のストリート3DGS手法では、静的および動的要素を分解して効率的な再構築を行うために、トラックされた3次元車両バウンディングボックスが必要である。
コストのかかるアノテーションを使わずに3次元シーンの効率的な再構築を容易にするために,動的および静的な要素を4次元整合性から分解する自己教師付き街路ガウス法("\textit{S}^3$Gaussian")を提案する。
我々は各シーンを3次元ガウスアンで表現し、その明度を保存し、4次元力学をコンパクトにモデル化する空間時間場ネットワークに付随させる。
本手法の有効性を評価するために,Waymo-Openデータセットの課題について広範な実験を行った。
私たちの$\textit{S}^3$Gaussianは静的および動的シーンを分解し、3Dアノテーションを使わずに最高のパフォーマンスを達成する能力を示しています。
コードは、https://github.com/nnanhuang/S3Gaussian/で入手できる。
Photorealistic 3D reconstruction of street scenes is a critical technique for developing real-world simulators for autonomous driving. Despite the efficacy of Neural Radiance Fields (NeRF) for driving scenes, 3D Gaussian Splatting (3DGS) emerges as a promising direction due to its faster speed and more explicit representation. However, most existing street 3DGS methods require tracked 3D vehicle bounding boxes to decompose the static and dynamic elements for effective reconstruction, limiting their applications for in-the-wild scenarios. To facilitate efficient 3D scene reconstruction without costly annotations, we propose a self-supervised street Gaussian ($\textit{S}^3$Gaussian) method to decompose dynamic and static elements from 4D consistency. We represent each scene with 3D Gaussians to preserve the explicitness and further accompany them with a spatial-temporal field network to compactly model the 4D dynamics. We conduct extensive experiments on the challenging Waymo-Open dataset to evaluate the effectiveness of our method. Our $\textit{S}^3$Gaussian demonstrates the ability to decompose static and dynamic scenes and achieves the best performance without using 3D annotations. Code is available at: https://github.com/nnanhuang/S3Gaussian/. | 翻訳日:2024-05-31 13:00:01 公開日:2024-05-30 |
# サンプルを落とさないで!コヒーレンス対応のトレーニングは条件付き拡散に役立ちます
Don't drop your samples! Coherence-aware training benefits Conditional diffusion ( http://arxiv.org/abs/2405.20324v1 ) ライセンス: Link先を確認 | Nicolas Dufour, Victor Besnier, Vicky Kalogeiton, David Picard, | (参考訳) 条件拡散モデルは、クラスラベル、セグメンテーションマスク、テキストキャプションなど、様々な種類の条件情報を活用できる強力な生成モデルである。
しかし、現実の多くのシナリオでは、人間のアノテーションの誤りやアライメントの弱いため、条件情報のノイズや信頼性が低い場合がある。
本稿では,条件情報中のコヒーレンスを拡散モデルに統合し,データを捨てることなくノイズの多いアノテーションから学習する手法であるコヒーレンス・アウェア拡散法(CAD)を提案する。
各データポイントは条件情報の質を反映したコヒーレンススコアを持つと仮定する。
次に、条件情報とコヒーレンススコアの両方に拡散モデルを条件付けする。
このようにして、モデルはコヒーレンスが低いときに条件を無視または割引することを学ぶ。
CADは理論的に健全であり,様々な条件生成タスクに対して実験的に有効であることを示す。
さらに,コヒーレンスを活用すれば,コヒーレンスが低いサンプルを廃棄したクリーンデータセット上で訓練されたモデルよりも,条件情報を尊重する現実的で多様なサンプルが生成されることを示す。
Conditional diffusion models are powerful generative models that can leverage various types of conditional information, such as class labels, segmentation masks, or text captions. However, in many real-world scenarios, conditional information may be noisy or unreliable due to human annotation errors or weak alignment. In this paper, we propose the Coherence-Aware Diffusion (CAD), a novel method that integrates coherence in conditional information into diffusion models, allowing them to learn from noisy annotations without discarding data. We assume that each data point has an associated coherence score that reflects the quality of the conditional information. We then condition the diffusion model on both the conditional information and the coherence score. In this way, the model learns to ignore or discount the conditioning when the coherence is low. We show that CAD is theoretically sound and empirically effective on various conditional generation tasks. Moreover, we show that leveraging coherence generates realistic and diverse samples that respect conditional information better than models trained on cleaned datasets where samples with low coherence have been discarded. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# MotionFollower:軽量スコア誘導拡散によるビデオモーションの編集
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion ( http://arxiv.org/abs/2405.20325v1 ) ライセンス: Link先を確認 | Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, Xintong Han, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) 動画属性の変更における拡散に基づくビデオ編集モデルの顕著な進歩にもかかわらず、元の主人公の外観と背景を保ちながら、動き情報の変更について限定的な調査が行われた。
本稿では,ビデオモーション編集のための軽量なスコア誘導拡散モデルであるMotionFollowerを提案する。
復調処理に条件制御を導入するために、MotionFollowerは、提案した2つの軽量信号制御装置を利用し、1つはポーズ用であり、もう1つは外観用であり、どちらも大きな注意計算を伴わずに畳み込みブロックで構成されている。
さらに、テクスチャの詳細や複雑な背景のモデリング能力を大幅に向上させる2分岐アーキテクチャに基づくスコアガイダンスの原理を設計する。
具体的には、スコア推定中に複数の整合正則化と損失を強制する。
結果として得られた勾配は、中間の潜伏者に適切なガイダンスを注入し、モデルが動きの修正に干渉することなく、元の背景の詳細と主人公の外観を保存せざるを得なくなる。
実験では、MotionFollowerの運動編集能力を質的かつ定量的に実証した。
もっとも先進的なモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現し、優れたモーション編集性能を提供し、大きなカメラモーションとアクションのみをサポートする。
Despite impressive advancements in diffusion-based video editing models in altering video attributes, there has been limited exploration into modifying motion information while preserving the original protagonist's appearance and background. In this paper, we propose MotionFollower, a lightweight score-guided diffusion model for video motion editing. To introduce conditional controls to the denoising process, MotionFollower leverages two of our proposed lightweight signal controllers, one for poses and the other for appearances, both of which consist of convolution blocks without involving heavy attention calculations. Further, we design a score guidance principle based on a two-branch architecture, including the reconstruction and editing branches, which significantly enhance the modeling capability of texture details and complicated backgrounds. Concretely, we enforce several consistency regularizers and losses during the score estimation. The resulting gradients thus inject appropriate guidance to the intermediate latents, forcing the model to preserve the original background details and protagonists' appearances without interfering with the motion modification. Experiments demonstrate the competitive motion editing ability of MotionFollower qualitatively and quantitatively. Compared with MotionEditor, the most advanced motion editing model, MotionFollower achieves an approximately 80% reduction in GPU memory while delivering superior motion editing performance and exclusively supporting large camera movements and actions. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# GECO:SECOnd内の3D画像生成
GECO: Generative Image-to-3D within a SECOnd ( http://arxiv.org/abs/2405.20327v1 ) ライセンス: Link先を確認 | Chen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu, | (参考訳) 3D世代は近年顕著な進歩を遂げている。
スコア蒸留法のような既存の技術は、顕著な結果をもたらすが、シーンごとの最適化が必要であり、時間効率に影響を及ぼす。
あるいは、再構成に基づくアプローチは効率を優先するが、不確実性の扱いに制限があるため、品質を損なう。
本稿では,1秒以内に動作する高品質な3次元生成モデリング手法GECOを紹介する。
提案手法は,2段階のアプローチによる現行手法の不確実性と非効率性の問題に対処する。
初期段階では,スコア蒸留を用いた一段階多視点生成モデルを訓練する。
次に,多視点予測から不整合性に対処するため,第2段蒸留を適用した。
この2段階のプロセスは、3D生成に対するバランスの取れたアプローチを確保し、品質と効率の両方を最適化する。
包括的実験により,GECOは前例のない効率で高品質な3次元画像生成を実現していることが示された。
3D generation has seen remarkable progress in recent years. Existing techniques, such as score distillation methods, produce notable results but require extensive per-scene optimization, impacting time efficiency. Alternatively, reconstruction-based approaches prioritize efficiency but compromise quality due to their limited handling of uncertainty. We introduce GECO, a novel method for high-quality 3D generative modeling that operates within a second. Our approach addresses the prevalent issues of uncertainty and inefficiency in current methods through a two-stage approach. In the initial stage, we train a single-step multi-view generative model with score distillation. Then, a second-stage distillation is applied to address the challenge of view inconsistency from the multi-view prediction. This two-stage process ensures a balanced approach to 3D generation, optimizing both quality and efficiency. Our comprehensive experiments demonstrate that GECO achieves high-quality image-to-3D generation with an unprecedented level of efficiency. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# 実用規模量子コンピュータを用いたmRNA二次構造予測
mRNA secondary structure prediction using utility-scale quantum computers ( http://arxiv.org/abs/2405.20328v1 ) ライセンス: Link先を確認 | Dimitris Alevras, Mihir Metkar, Takahiro Yamamoto, Vaibhaw Kumar, Triet Friedhoff, Jae-Eun Park, Mitsuharu Takeori, Mariana LaDue, Wade Davis, Alexey Galda, | (参考訳) 量子コンピューティングの最近の進歩は、古典コンピュータにとって難解な長年の複雑な組合せ最適化問題に対処するための新たな道を開いた。
mRNAの二次構造を予測することは、量子コンピューティング技術のさらなる成熟の恩恵を受けることができる、非常に難しい問題の1つである。
mRNA二次構造の正確な予測は、転写、翻訳、崩壊を含むmRNAライフサイクルの様々なステップを規定するRNAベースの治療を設計する上で重要である。
現在の世代の量子コンピュータは実用規模に達しており、比較的大きな問題のサイズを探索することができる。
本稿では,量子コンピュータ上のmRNA二次構造を最大60個のヌクレオチドで解くことの実現可能性について検討する。
我々は,IBM Eagle および Heron 量子プロセッサ上で,mRNA 構造予測問題から生じる最適化問題を,CVaR ベースの VQE アルゴリズムを用いて解く。
我々の奨励のために、‘最小’の誤差緩和と固定深度回路でさえ、我々のハードウェアは古典的解法CPLEXの結果と一致する最小自由エネルギー(MFE)構造を正確に予測する。
本研究は, 量子コンピュータ上でのmRNA構造予測問題の実現可能性を示す十分な証拠を提供するとともに, この方向の継続的な研究を動機づけるものである。
Recent advancements in quantum computing have opened new avenues for tackling long-standing complex combinatorial optimization problems that are intractable for classical computers. Predicting secondary structure of mRNA is one such notoriously difficult problem that can benefit from the ever-increasing maturity of quantum computing technology. Accurate prediction of mRNA secondary structure is critical in designing RNA-based therapeutics as it dictates various steps of an mRNA life cycle, including transcription, translation, and decay. The current generation of quantum computers have reached utility-scale, allowing us to explore relatively large problem sizes. In this paper, we examine the feasibility of solving mRNA secondary structures on a quantum computer with sequence length up to 60 nucleotides representing problems in the qubit range of 10 to 80. We use Conditional Value at Risk (CVaR)-based VQE algorithm to solve the optimization problems, originating from the mRNA structure prediction problem, on the IBM Eagle and Heron quantum processors. To our encouragement, even with ``minimal'' error mitigation and fixed-depth circuits, our hardware runs yield accurate predictions of minimum free energy (MFE) structures that match the results of the classical solver CPLEX. Our results provide sufficient evidence for the viability of solving mRNA structure prediction problems on a quantum computer and motivate continued research in this direction. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# 4DHands: 4Dのインタラクティブハンドをトランスフォーマーで再構築
4DHands: Reconstructing Interactive Hands in 4D with Transformers ( http://arxiv.org/abs/2405.20330v1 ) ライセンス: Link先を確認 | Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang, | (参考訳) 本稿では,対話型ハンドメッシュの回復のための頑健なアプローチである4DHandsを紹介する。
本手法は,手動画像入力に対する統一解の欠如と,画像内の両手の位置関係の無視という,従来の手法の2つの大きな限界に対処する。
これらの課題を克服するために、新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。
具体的には、手札に位置関係情報を埋め込むための関係認識型2手トークン化(RAT)手法を提案する。
このようにして、我々のネットワークは、片手と片手の両方の入力を処理し、相対的な手の位置を明示的に活用し、実世界のシナリオにおける複雑な手の動きの再構築を容易にする。
このようなトークン化は両手の相対関係を示すため、より効果的な特徴融合もサポートする。
この目的のために、我々はさらに時空間相互作用推論(SIR)モジュールを開発し、注意を払って4次元のトークンを融合し、それらを3次元の手メッシュと相対時間運動にデコードする。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
In-the-wild video と real-world scenarios の結果は,対話型ハンドリコンストラクションにおける我々のアプローチの優れた性能を示している。
さらなるビデオ結果は、プロジェクトのページで見ることができる。
In this paper, we introduce 4DHands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a transformer-based architecture with novel tokenization and feature fusion strategies. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a Spatio-temporal Interaction Reasoning (SIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://4dhands.github.io. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# CoSy: ニューロンのテキスト説明の評価
CoSy: Evaluating Textual Explanations of Neurons ( http://arxiv.org/abs/2405.20331v1 ) ライセンス: Link先を確認 | Laura Kopf, Philine Lou Bommer, Anna Hedström, Sebastian Lapuschkin, Marina M. -C. Höhne, Kirill Bykov, | (参考訳) ディープニューラルネットワーク(DNN)の複雑な性質を理解する上で重要な側面は、潜在表現の中で学習された概念を説明する能力である。
ニューロンを人間の理解可能な概念のテキスト記述に結びつける様々な方法が存在するが、これらの説明方法の質を評価することは、統一的で汎用的な定量的評価の欠如により、この分野において大きな課題となっている。
本研究では,潜伏ニューロンのテキスト説明の質を評価する新しいアーキテクチャに依存しないフレームワークであるCoSy(Concept Synthesis)を紹介する。
提案フレームワークは,テキスト記述を前提とした生成モデルを用いて,テキスト記述を表すデータポイントを生成する。
そして、これらの説明データポイントに対するニューロンの応答を制御データポイントに対する応答と比較し、与えられた説明の質推定を行う。
我々は,一連のメタ評価実験において提案するフレームワークの信頼性を保証し,コンピュータビジョンタスクの様々な概念に基づくテキスト説明手法をベンチマークした結果から,テストされた説明手法の品質が著しく異なることを示す。
A crucial aspect of understanding the complex nature of Deep Neural Networks (DNNs) is the ability to explain learned concepts within their latent representations. While various methods exist to connect neurons to textual descriptions of human-understandable concepts, evaluating the quality of these explanation methods presents a major challenge in the field due to a lack of unified, general-purpose quantitative evaluation. In this work, we introduce CoSy (Concept Synthesis) -- a novel, architecture-agnostic framework to evaluate the quality of textual explanations for latent neurons. Given textual explanations, our proposed framework leverages a generative model conditioned on textual input to create data points representing the textual explanation. Then, the neuron's response to these explanation data points is compared with the response to control data points, providing a quality estimate of the given explanation. We ensure the reliability of our proposed framework in a series of meta-evaluation experiments and demonstrate practical value through insights from benchmarking various concept-based textual explanation methods for Computer Vision tasks, showing that tested explanation methods significantly differ in quality. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# SurgiTrack:手術用ビデオのマルチツール・マルチツール・トラッキング
SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos ( http://arxiv.org/abs/2405.20333v1 ) ライセンス: Link先を確認 | Chinedu Innocent Nwoye, Nicolas Padoy, | (参考訳) コンピュータによる介入の成功には,正確なツールトラッキングが不可欠である。
それまでの努力は、外科手術のダイナミックな性質、特に外眼視や外眼視といったシナリオの追跡を見越して、厳格にツールトラジェクトリをモデル化していた。
この制限に対処するため、新しいColecTrack20データセットは、(1)術中、(2)体内、(3)視認性の3つの視点で、ツールトラックの時間的な異なるタイプを表す、複数のツールトラジェクトリを記述した詳細なラベルを提供する。
これらのきめ細かいラベルは、トラッキングの柔軟性を高めるだけでなく、タスクの複雑さも増す。
咬合や再挿入後の道具の再識別は、視覚的類似性が高いため、特に同じカテゴリーの道具では困難である。
この研究は、ツールトラックインスタンス、特に同じツールカテゴリに属するインスタンスを区別する上で、ツールオペレーターが果たす重要な役割を認識します。
しかし、オペレーターの情報は外科的ビデオでははっきりとは捉えられていない。
そこで我々は,ツール検出にYOLOv7を活用する新しいディープラーニング手法であるSurgiTrackを提案する。
多様なツール・トラジェクトリ・パースペクティブを扱うために、SurgiTrackは調和した二部マッチング・グラフを採用し、競合を最小限に抑え、正確なツール・アイデンティティ・アソシエーションを保証する。
CholecTrack20の実験結果は、SurgiTrackの有効性、ベースラインの向上、およびリアルタイム推論機能を備えた最先端メソッドを実証している。
この研究は、外科的ツールトラッキングの新しい標準を設定し、最小侵襲の手術に対してより適応的で正確な支援を行うためのダイナミックな軌跡を提供する。
Accurate tool tracking is essential for the success of computer-assisted intervention. Previous efforts often modeled tool trajectories rigidly, overlooking the dynamic nature of surgical procedures, especially tracking scenarios like out-of-body and out-of-camera views. Addressing this limitation, the new CholecTrack20 dataset provides detailed labels that account for multiple tool trajectories in three perspectives: (1) intraoperative, (2) intracorporeal, and (3) visibility, representing the different types of temporal duration of tool tracks. These fine-grained labels enhance tracking flexibility but also increase the task complexity. Re-identifying tools after occlusion or re-insertion into the body remains challenging due to high visual similarity, especially among tools of the same category. This work recognizes the critical role of the tool operators in distinguishing tool track instances, especially those belonging to the same tool category. The operators' information are however not explicitly captured in surgical videos. We therefore propose SurgiTrack, a novel deep learning method that leverages YOLOv7 for precise tool detection and employs an attention mechanism to model the originating direction of the tools, as a proxy to their operators, for tool re-identification. To handle diverse tool trajectory perspectives, SurgiTrack employs a harmonizing bipartite matching graph, minimizing conflicts and ensuring accurate tool identity association. Experimental results on CholecTrack20 demonstrate SurgiTrack's effectiveness, outperforming baselines and state-of-the-art methods with real-time inference capability. This work sets a new standard in surgical tool tracking, providing dynamic trajectories for more adaptable and precise assistance in minimally invasive surgeries. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# VividDream: アンビエントダイナミクスによる3Dシーンの生成
VividDream: Generating 3D Scene with Ambient Dynamics ( http://arxiv.org/abs/2405.20334v1 ) ライセンス: Link先を確認 | Yao-Chih Lee, Yi-Ting Chen, Andrew Wang, Ting-Hsuan Liao, Brandon Y. Feng, Jia-Bin Huang, | (参考訳) 一つの入力画像やテキストプロンプトから周囲のダイナミックスを持つ探索可能な4Dシーンを生成する方法であるVividDreamを紹介する。
VividDreamは、最初に入力画像を静的な3Dポイントクラウドに拡大し、反復的な塗装と幾何学的マージを行う。
アニメーションビデオのアンサンブルは、画質向上技術を備えたビデオ拡散モデルを用いて生成され、サンプリングされたカメラ軌道からの静的な3Dシーンのレンダリングに条件付けされる。
次に、アニメーションビデオアンサンブルを用いて標準4Dシーン表現を最適化し、動画ごとのモーション埋め込みと視認性マスクを用いて不整合を緩和する。
結果として生じる4Dシーンは、可塑性周囲のダイナミックスを持つ3Dシーンのフリービュー探索を可能にする。
VividDreamは、さまざまな実画像とテキストプロンプトに基づいて、魅力的な4D体験を提供する。
We introduce VividDream, a method for generating explorable 4D scenes with ambient dynamics from a single input image or text prompt. VividDream first expands an input image into a static 3D point cloud through iterative inpainting and geometry merging. An ensemble of animated videos is then generated using video diffusion models with quality refinement techniques and conditioned on renderings of the static 3D scene from the sampled camera trajectories. We then optimize a canonical 4D scene representation using an animated video ensemble, with per-video motion embeddings and visibility masks to mitigate inconsistencies. The resulting 4D scene enables free-view exploration of a 3D scene with plausible ambient scene dynamics. Experiments demonstrate that VividDream can provide human viewers with compelling 4D experiences generated based on diverse real images and text prompts. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# Xwin-LM: LLMの強力でスケーラブルなアライメントプラクティス
Xwin-LM: Strong and Scalable Alignment Practice for LLMs ( http://arxiv.org/abs/2405.20335v1 ) ライセンス: Link先を確認 | Bolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu, | (参考訳) 本稿では,大規模言語モデル(LLM)のためのアライメント手法を包括的にまとめたXwin-LMを提案する。
このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。
主な構成要素は,(1)Xwin-LM-SFT,(2)Xwin-LM-RS,(2)GPT-4,(3)Xwin-RM,(3)Xwin-Pairで訓練された報酬モデル,7B,13B,70Bパラメータのスケールで開発された報酬モデル,(4)Xwin-LM-SFT,(5)Xwin-LM-RS,(5)Xwin-LM-RS,およびXwin-Set,(6)Xwin-LM-DPODモデルである。
AlpacaEval と MT-bench に対する評価は,パイプライン全体の一貫性と顕著な改善を示し,Xwin-LM の強度とスケーラビリティを実証した。
リポジトリ https://github.com/Xwin-LM/Xwin-LMは、コミュニティ研究を促進するために継続的に更新される。
In this work, we present Xwin-LM, a comprehensive suite of alignment methodologies for large language models (LLMs). This suite encompasses several key techniques, including supervised finetuning (SFT), reward modeling (RM), rejection sampling finetuning (RS), and direct preference optimization (DPO). The key components are as follows: (1) Xwin-LM-SFT, models initially finetuned with high-quality instruction data; (2) Xwin-Pair, a large-scale, multi-turn preference dataset meticulously annotated using GPT-4; (3) Xwin-RM, reward models trained on Xwin-Pair, developed at scales of 7B, 13B, and 70B parameters; (4) Xwin-Set, a multiwise preference dataset in which each prompt is linked to 64 unique responses generated by Xwin-LM-SFT and scored by Xwin-RM; (5) Xwin-LM-RS, models finetuned with the highest-scoring responses from Xwin-Set; (6) Xwin-LM-DPO, models further optimized on Xwin-Set using the DPO algorithm. Our evaluations on AlpacaEval and MT-bench demonstrate consistent and significant improvements across the pipeline, demonstrating the strength and scalability of Xwin-LM. The repository https://github.com/Xwin-LM/Xwin-LM will be continually updated to foster community research. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# RapVerse: テキストからのコヒーレントなボーカルと全体動作生成
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text ( http://arxiv.org/abs/2405.20336v1 ) ライセンス: Link先を確認 | Jiaben Chen, Xin Yan, Yihang Chen, Siyuan Cen, Qinwei Ma, Haoyu Zhen, Kaizhi Qian, Lie Lu, Chuang Gan, | (参考訳) 本研究では,3次元体の動きを同時に生成し,テキストの歌詞入力から直接ボーカルを歌い,これら2つのモダリティを個別に扱う既存の作品を超えて前進させる課題を提案する。
これを容易にするために、我々はまずRapVerseデータセット、同期ラッピングボーカル、歌詞、高品質な3Dボディーメッシュを含む大規模なデータセットを収集する。
本稿では,RapVerseデータセットを用いて,言語,音声,動作における自己回帰型マルチモーダルトランスフォーマーのスケーリングが,声楽と人体全体の動作の一貫性と現実性をいかに高めるかを検討する。
モダリティ統一のために、ベクトル量子化された変分オートエンコーダを用いて、全体の動きシーケンスを離散的な動きトークンに符号化し、音声対単位モデルを利用して、コンテンツ、韻律情報、シンガーアイデンティティを保存する量子化された音声トークンを得る。
これら3つのモダリティを統一した方法で変換器モデリングを共同で行うことにより、我々のフレームワークは、シームレスで現実的な声と人間の動きのブレンドを保証する。
広汎な実験により、我々の統一された生成フレームワークは、テキスト入力から直接人間の動きと連動するコヒーレントでリアルな歌声を生成するだけでなく、特殊な単一モダリティ生成システムの性能に対抗し、共同声楽生成のための新しいベンチマークを確立した。
プロジェクトページは https://vis-www.cs.umass.edu/RapVerse.com で公開されている。
In this work, we introduce a challenging task for simultaneously generating 3D holistic body motions and singing vocals directly from textual lyrics inputs, advancing beyond existing works that typically address these two modalities in isolation. To facilitate this, we first collect the RapVerse dataset, a large dataset containing synchronous rapping vocals, lyrics, and high-quality 3D holistic body meshes. With the RapVerse dataset, we investigate the extent to which scaling autoregressive multimodal transformers across language, audio, and motion can enhance the coherent and realistic generation of vocals and whole-body human motions. For modality unification, a vector-quantized variational autoencoder is employed to encode whole-body motion sequences into discrete motion tokens, while a vocal-to-unit model is leveraged to obtain quantized audio tokens preserving content, prosodic information, and singer identity. By jointly performing transformer modeling on these three modalities in a unified way, our framework ensures a seamless and realistic blend of vocals and human motions. Extensive experiments demonstrate that our unified generation framework not only produces coherent and realistic singing vocals alongside human motions directly from textual inputs but also rivals the performance of specialized single-modality generation systems, establishing new benchmarks for joint vocal-motion generation. The project page is available for research purposes at https://vis-www.cs.umass.edu/RapVerse. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# OccSora: 自律運転のための世界シミュレータとしての4D作業生成モデル
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving ( http://arxiv.org/abs/2405.20337v1 ) ライセンス: Link先を確認 | Lening Wang, Wenzhao Zheng, Yilong Ren, Han Jiang, Zhiyong Cui, Haiyang Yu, Jiwen Lu, | (参考訳) 3Dシーンの進化を理解することは、効率的な自動運転にとって重要である。
従来の手法では個々のインスタンスの動きでシーン開発をモデレートするが、ワールドモデルは一般的なシーンダイナミクスを記述するための生成フレームワークとして出現する。
しかし、既存のほとんどの手法では、長期の時間的進化をモデル化する際の非効率性に苦しむ次世代の予測を行うために自己回帰フレームワークを採用している。
そこで本研究では,拡散型4次元占有率生成モデルOccSoraを提案し,自律運転のための3次元世界の開発をシミュレートする。
我々は、4Dシーントークンーを用いて、4Dシーンの入力のためのコンパクトな空間時空間表現を求め、長時間映像の高品質な再構成を実現する。
次に,空間的時間的表現に基づいて拡散変換器を学習し,軌道のプロンプトに条件付き4D占有率を生成する。
我々は Occ3D 占有アノテーションを用いた nuScenes データセットの広範な実験を行った。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
OccSoraは軌道対応の4D世代で、自動運転の意思決定のための世界シミュレータとして機能する可能性がある。
コードは、https://github.com/wzzheng/OccSora.comで入手できる。
Understanding the evolution of 3D scenes is important for effective autonomous driving. While conventional methods mode scene development with the motion of individual instances, world models emerge as a generative framework to describe the general scene dynamics. However, most existing methods adopt an autoregressive framework to perform next-token prediction, which suffer from inefficiency in modeling long-term temporal evolutions. To address this, we propose a diffusion-based 4D occupancy generation model, OccSora, to simulate the development of the 3D world for autonomous driving. We employ a 4D scene tokenizer to obtain compact discrete spatial-temporal representations for 4D occupancy input and achieve high-quality reconstruction for long-sequence occupancy videos. We then learn a diffusion transformer on the spatial-temporal representations and generate 4D occupancy conditioned on a trajectory prompt. We conduct extensive experiments on the widely used nuScenes dataset with Occ3D occupancy annotations. OccSora can generate 16s-videos with authentic 3D layout and temporal consistency, demonstrating its ability to understand the spatial and temporal distributions of driving scenes. With trajectory-aware 4D generation, OccSora has the potential to serve as a world simulator for the decision-making of autonomous driving. Code is available at: https://github.com/wzzheng/OccSora. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# 大規模言語モデルの重みによる視覚知覚
Visual Perception by Large Language Model's Weights ( http://arxiv.org/abs/2405.20339v1 ) ライセンス: Link先を確認 | Feipeng Ma, Hongwei Xue, Guangting Wang, Yizhou Zhou, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun, | (参考訳) 既存のMLLM(Multimodal Large Language Models)は、視覚的特徴とLLM(Large Language Models)の入力空間を整列することで視覚情報を知覚するパラダイムに従っており、視覚トークンとテキストトークンを結合してLLMの統一シーケンス入力を形成する。
これらの手法は、様々な視覚言語タスクにおいて有望な結果を示すが、視覚トークンの関与による入力シーケンスの拡張により、高い計算労力によって制限される。
本稿では、入力空間アライメントの代わりに、視覚情報をモデル重みとして表現する新しいパラメータ空間アライメントパラダイムを提案する。
各入力画像に対して、視覚的特徴を抽出し、特徴を知覚重みに変換し、知覚重みとLLMの重みをマージする視覚エンコーダを用いる。
このようにして、LLMの入力は視覚トークンを必要としないため、入力シーケンスの長さが小さくなり、効率が大幅に向上する。
このパラダイムに従って,知覚重み生成器を用いたVLoRAを提案する。
知覚重み生成器は、視覚的特徴を低ランク特性の知覚重みに変換するように設計されており、LoRAに似た形状を示す。
実験の結果,VLoRAはMLLMの様々なベンチマークで同等の性能を示し,トレーニングと推論の両方の計算コストを大幅に削減した。
コードとモデルはオープンソースになる予定だ。
Existing Multimodal Large Language Models (MLLMs) follow the paradigm that perceives visual information by aligning visual features with the input space of Large Language Models (LLMs), and concatenating visual tokens with text tokens to form a unified sequence input for LLMs. These methods demonstrate promising results on various vision-language tasks but are limited by the high computational effort due to the extended input sequence resulting from the involvement of visual tokens. In this paper, instead of input space alignment, we propose a novel parameter space alignment paradigm that represents visual information as model weights. For each input image, we use a vision encoder to extract visual features, convert features into perceptual weights, and merge the perceptual weights with LLM's weights. In this way, the input of LLM does not require visual tokens, which reduces the length of the input sequence and greatly improves efficiency. Following this paradigm, we propose VLoRA with the perceptual weights generator. The perceptual weights generator is designed to convert visual features to perceptual weights with low-rank property, exhibiting a form similar to LoRA. The experimental results show that our VLoRA achieves comparable performance on various benchmarks for MLLMs, while significantly reducing the computational costs for both training and inference. The code and models will be made open-source. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# MotionLLM:人間の動作とビデオから人間の行動を理解する
MotionLLM: Understanding Human Behaviors from Human Motions and Videos ( http://arxiv.org/abs/2405.20340v1 ) ライセンス: Link先を確認 | Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang, | (参考訳) 本研究では,Large Language Models(LLMs)の強力な能力を活用して,マルチモーダル性(ビデオとモーションのモダリティ)という人間の行動理解の領域を掘り下げる。
映像のみの理解や動作のみの理解のために設計された近年のLLMとは違い、人間の行動を理解するにはビデオと動作シーケンス(例えばSMPLシーケンス)の両方のジョイントモデリングが必要であり、ニュアンスドボディー部分のダイナミックスやセマンティクスを効果的に捉える必要があると論じている。
そこで我々は,人間の動作理解,キャプション,推論のための,単純かつ効果的なフレームワークであるMotionLLMを提案する。
特に、MotionLLMは、既存の粗いビデオテキストデータと微粒なモーションテキストデータの相補的な利点を利用して、リッチな時空間的な洞察を得られるような統合されたビデオモーショントレーニング戦略を採用している。
さらに、さまざまなビデオ、モーション、キャプション、指示を含む、かなりのデータセットであるMoVidを収集します。
さらに,ビデオやモーションにおける人間の行動理解をよりよく評価するために,手動による手動アノテーションを用いたMoVid-Benchを提案する。
広汎な実験は、キャプションにおけるMotionLLMの優位性、空間的時間的理解、推論能力を示す。
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# ゼロからヒーローへ:コールドスタート異常検出
From Zero to Hero: Cold-Start Anomaly Detection ( http://arxiv.org/abs/2405.20341v1 ) ライセンス: Link先を確認 | Tal Reiss, George Kour, Naama Zwerdling, Ateret Anaby-Tavor, Yedid Hoshen, | (参考訳) 例えば、チャットボットでスコープ外クエリを検出するために、まず異常検出システムをデプロイすると、観測データがないため、データ駆動アプローチは効果がない。
ゼロショット異常検出法は、このような「コールドスタート」ケースに対する解決策を提供するが、残念なことにそれらはしばしば十分正確ではない。
本稿では,ゼロショット誘導を用いて異常検出モデルが初期化されるが,その後,少数の汚染された観測(すなわち異常を含む可能性がある)を受信する,現実的だが過度に探索されたコールドスタート設定について検討する。
目標は、ゼロショット誘導と観測の両方を効率的に利用することである。
我々は,ゼロショット異常検知器を汚染された観測に効果的に適応させる手法であるColdFusionを提案する。
本手法の今後の開発を支援するため,評価プロトコルとメトリクスからなる評価スイートを提案する。
When first deploying an anomaly detection system, e.g., to detect out-of-scope queries in chatbots, there are no observed data, making data-driven approaches ineffective. Zero-shot anomaly detection methods offer a solution to such "cold-start" cases, but unfortunately they are often not accurate enough. This paper studies the realistic but underexplored cold-start setting where an anomaly detection model is initialized using zero-shot guidance, but subsequently receives a small number of contaminated observations (namely, that may include anomalies). The goal is to make efficient use of both the zero-shot guidance and the observations. We propose ColdFusion, a method that effectively adapts the zero-shot anomaly detector to contaminated observations. To support future development of this new setting, we propose an evaluation suite consisting of evaluation protocols and metrics. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# Unique3D:単一画像からの高品質で効率的な3Dメッシュ生成
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image ( http://arxiv.org/abs/2405.20343v1 ) ライセンス: Link先を確認 | Kailu Wu, Fangfu Liu, Zhihan Cai, Runjie Yan, Hanyang Wang, Yating Hu, Yueqi Duan, Kaisheng Ma, | (参考訳) 本研究では,一視点画像から高品質な3Dメッシュを効率よく生成する新しい画像対3DフレームワークUnique3Dについて紹介する。
SDS(Score Distillation Sampling)に基づく従来の手法では、大きな2次元拡散モデルから3次元の知識を蒸留することで、多種多様な3次元結果が得られるが、それらは通常、一貫性のない問題を伴うケースごとの最適化時間に悩まされる。
近年の研究では、多視点拡散モデルの微調整や高速フィードフォワードモデルの訓練により、この問題に対処し、より良い3D結果を生成する。
しかし、不整合と限られた解像度のため、複雑なテクスチャや複雑なジオメトリーがまだ欠けている。
単一画像から3Dへの高忠実度, 一貫性, 効率を実現するために, 対応する正規拡散モデルを持つ多視点拡散モデルを含む新しいフレームワークUnique3D, 生成した直交多重ビューの解像度を段階的に改善する多段階アップスケールプロセス, ISOMERと呼ばれる即時かつ一貫したメッシュ再構成アルゴリズムを提案する。
大規模な実験により、我々のUnique3Dは幾何学的およびテクスチャ的詳細の観点から、他の画像から3Dへのベースラインを著しく上回っていることが示された。
In this work, we introduce Unique3D, a novel image-to-3D framework for efficiently generating high-quality 3D meshes from single-view images, featuring state-of-the-art generation fidelity and strong generalizability. Previous methods based on Score Distillation Sampling (SDS) can produce diversified 3D results by distilling 3D knowledge from large 2D diffusion models, but they usually suffer from long per-case optimization time with inconsistent issues. Recent works address the problem and generate better 3D results either by finetuning a multi-view diffusion model or training a fast feed-forward model. However, they still lack intricate textures and complex geometries due to inconsistency and limited generated resolution. To simultaneously achieve high fidelity, consistency, and efficiency in single image-to-3D, we propose a novel framework Unique3D that includes a multi-view diffusion model with a corresponding normal diffusion model to generate multi-view images with their normal maps, a multi-level upscale process to progressively improve the resolution of generated orthographic multi-views, as well as an instant and consistent mesh reconstruction algorithm called ISOMER, which fully integrates the color and geometric priors into mesh results. Extensive experiments demonstrate that our Unique3D significantly outperforms other image-to-3D baselines in terms of geometric and textural details. | 翻訳日:2024-05-31 12:50:16 公開日:2024-05-30 |
# セマンティック2DGSを用いた3Dストリートアンベイラー
3D StreetUnveiler with Semantic-Aware 2DGS ( http://arxiv.org/abs/2405.18416v2 ) ライセンス: Link先を確認 | Jingwei Xu, Yikai Wang, Yiqun Zhao, Yanwei Fu, Shenghua Gao, | (参考訳) 車載カメラが捉えた混雑した観察から空の道を開くことは、自動運転にとって非常に重要です。
しかし、停止した車や歩行者など、一時的に静的な物体をすべて取り除くことは、大きな課題である。
小さなシーンで徹底的に観察するオブジェクト中心の3Dインペイントとは異なり、ストリートシーンのケースは従来の3Dインペイントと異なる長い軌跡を含む。
撮影ビデオのカメラ中心の移動環境は、被写体観察の時間と程度に制限があるため、タスクをさらに複雑にする。
これらの障害に対処するため、空の道路を再建するためにStreetUnveilerを導入する。
StreetUnveilerは、混雑した観察から空の通りの3D表現を学習する。
我々の表現は、そのスケーラビリティと除去すべきガウスを識別する能力のために、2DGS (hard-label semantic 2D Gaussian Splatting) に基づいている。
不要なガウスを除去し,擬似ラベルを提供し,その後2DGSを再最適化した。
時間的連続的な動きを考慮し、空の街路シーンを観測された部分観測領域と観測されていない領域に分割し、レンダリングされたアルファマップを通して位置を特定することを提案する。
この分解は、塗装が必要な領域を最小化するのに役立ちます。
塗布の時間的一貫性を高めるため,フレームを逆順に塗布する新しい時間反転フレームワークを導入し,後続フレームを先行フレームの参照として使用し,長い軌道観測を十分に活用する。
本実験は,空き街路の3次元表現の再構築に成功している。
空の通りのメッシュ表現は、さらなる応用のために抽出することができる。
プロジェクトページとより詳細な情報は、https://streetunveiler.github.io.com/com/com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s
Unveiling an empty street from crowded observations captured by in-car cameras is crucial for autonomous driving. However, removing all temporarily static objects, such as stopped vehicles and standing pedestrians, presents a significant challenge. Unlike object-centric 3D inpainting, which relies on thorough observation in a small scene, street scene cases involve long trajectories that differ from previous 3D inpainting tasks. The camera-centric moving environment of captured videos further complicates the task due to the limited degree and time duration of object observation. To address these obstacles, we introduce StreetUnveiler to reconstruct an empty street. StreetUnveiler learns a 3D representation of the empty street from crowded observations. Our representation is based on the hard-label semantic 2D Gaussian Splatting (2DGS) for its scalability and ability to identify Gaussians to be removed. We inpaint rendered image after removing unwanted Gaussians to provide pseudo-labels and subsequently re-optimize the 2DGS. Given its temporal continuous movement, we divide the empty street scene into observed, partial-observed, and unobserved regions, which we propose to locate through a rendered alpha map. This decomposition helps us to minimize the regions that need to be inpainted. To enhance the temporal consistency of the inpainting, we introduce a novel time-reversal framework to inpaint frames in reverse order and use later frames as references for earlier frames to fully utilize the long-trajectory observations. Our experiments conducted on the street scene dataset successfully reconstructed a 3D representation of the empty street. The mesh representation of the empty street can be extracted for further applications. The project page and more visualizations can be found at: https://streetunveiler.github.io | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 最大構造弱凸関数の差分に対する単一ループ確率アルゴリズム
Single-loop Stochastic Algorithms for Difference of Max-Structured Weakly Convex Functions ( http://arxiv.org/abs/2405.18577v2 ) ライセンス: Link先を確認 | Quanqi Hu, Qi Qi, Zhaosong Lu, Tianbao Yang, | (参考訳) 本稿では,非滑らかな非凸問題のクラスを$\min_{x}[\max_{y\in Y}\phi(x,} の形で研究する。
y) - \max_{z\in Z}\psi(x,
どちらも$\Phiです。
(x) = \max_{y\in Y}\phi(x,
y)$と$\Psi
(x)=\max_{z\in Z}\psi(x,
z)$は弱凸関数であり、$\phi(x) である。
y), \psi(x,
z)$ は、それぞれ$y$ と $z$ の点で強凹函数である。
研究されているが、シングルループ確率アルゴリズム、すなわち弱い凸関数と弱い凸 min-max 問題の違いが欠落している2つの問題群をカバーする。
本研究では,SMAGと呼ばれる確率論的モローエンベロープ近似勾配法を提案する。
この設計の鍵となる考え方は、原始変数と双対変数の確率勾配更新の1ステップだけを用いて、モローエンベロープの$\Phi, \Psi$の近似勾配を計算することである。
提案アルゴリズムの有効性を検証するために, 実証実験として, ROC曲線 (pAUC) 最適化の下で, 正未ラベル学習(PU) と部分領域について, 対向フェアネス正規化器を用いて実験を行った。
In this paper, we study a class of non-smooth non-convex problems in the form of $\min_{x}[\max_{y\in Y}\phi(x, y) - \max_{z\in Z}\psi(x, z)]$, where both $\Phi(x) = \max_{y\in Y}\phi(x, y)$ and $\Psi(x)=\max_{z\in Z}\psi(x, z)$ are weakly convex functions, and $\phi(x, y), \psi(x, z)$ are strongly concave functions in terms of $y$ and $z$, respectively. It covers two families of problems that have been studied but are missing single-loop stochastic algorithms, i.e., difference of weakly convex functions and weakly convex strongly-concave min-max problems. We propose a stochastic Moreau envelope approximate gradient method dubbed SMAG, the first single-loop algorithm for solving these problems, and provide a state-of-the-art non-asymptotic convergence rate. The key idea of the design is to compute an approximate gradient of the Moreau envelopes of $\Phi, \Psi$ using only one step of stochastic gradient update of the primal and dual variables. Empirically, we conduct experiments on positive-unlabeled (PU) learning and partial area under ROC curve (pAUC) optimization with an adversarial fairness regularizer to validate the effectiveness of our proposed algorithms. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 組合せ最適化のためのランダムキーGRASP
A random-key GRASP for combinatorial optimization ( http://arxiv.org/abs/2405.18681v2 ) ライセンス: Link先を確認 | Antonio A. Chaves, Mauricio G. C. Resende, Ricardo M. A. Silva, | (参考訳) 本稿ではランダムキーオプティマイザ(RKO)パラダイムを用いた問題独立なGRASPメタヒューリスティックを提案する。
GRASP (greedy randomized Adaptive search procedure) は、半グレディな構成手順を繰り返し適用し、その後局所的な探索手順を施すメタヒューリスティックな組合せ最適化法である。
すべてのイテレーションで見つかる最良のソリューションは、GRASPのソリューションとして返される。
Continuous GRASP (C-GRASP) は、ユニットハイパーキューブの継続的な最適化のためのGRASPの拡張である。
ランダムキー最適化器(RKO)は、ランダムキーのベクトルを用いて、組合せ最適化問題の解を符号化する。
デコーダを使用して、ランダムキーのベクトルによって符号化されたソリューションを評価する。
ランダムキーGRASPは、デコーダを用いてユニットハイパーキューブの点を評価するC-GRASPである。
問題非依存のコンポーネントと問題依存のデコーダからなるランダムキーGRASPについて述べる。
概念実証として、ランダムキーGRASPは、旅行セールスマン問題、ハブのツリー配置問題、スタイナー三重被覆問題、ノード容量グラフ分割問題、ジョブシークエンシングとツール切替問題という5つのNPハード組合せ最適化問題でテストされる。
This paper proposes a problem-independent GRASP metaheuristic using the random-key optimizer (RKO) paradigm. GRASP (greedy randomized adaptive search procedure) is a metaheuristic for combinatorial optimization that repeatedly applies a semi-greedy construction procedure followed by a local search procedure. The best solution found over all iterations is returned as the solution of the GRASP. Continuous GRASP (C-GRASP) is an extension of GRASP for continuous optimization in the unit hypercube. A random-key optimizer (RKO) uses a vector of random keys to encode a solution to a combinatorial optimization problem. It uses a decoder to evaluate a solution encoded by the vector of random keys. A random-key GRASP is a C-GRASP where points in the unit hypercube are evaluated employing a decoder. We describe random key GRASP consisting of a problem-independent component and a problem-dependent decoder. As a proof of concept, the random-key GRASP is tested on five NP-hard combinatorial optimization problems: traveling salesman problem, tree of hubs location problem, Steiner triple covering problem, node capacitated graph partitioning problem, and job sequencing and tool switching problem. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# シーン認識型ニューラルヒューマンモーション予測のためのマルチコンディション潜時拡散ネットワーク
Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction ( http://arxiv.org/abs/2405.18700v2 ) ライセンス: Link先を確認 | Xuehao Gao, Yang Yang, Yang Wu, Shaoyi Du, Guo-Jun Qi, | (参考訳) 3次元の人間の動きを推定することは、人間の活動を理解し、その人の意図を分析するなど、多くの応用において基本である。
人間の動きを予測するために多くの実りある努力がなされてきたが、ほとんどのアプローチはポーズ駆動の予測に焦点を合わせ、文脈環境から離れて人間の動きを推測することで、シーン内の身体の位置運動を残している。
しかし、現実世界の人間の動きはゴール指向であり、周囲のシーンの空間的レイアウトの影響を強く受けている。
本稿では,従来の3次元体の動きと現在の3次元シーンのコンテキストに基づいて,人間の動作予測タスクを多条件共同推論問題として再構成するマルチコンディション潜伏拡散ネットワーク(MCLD)を提案する。
具体的には、MCLDは、原動列上での関節分布を直接モデル化する代わりに、後続の埋め込み空間内で条件拡散プロセスを実行し、過去の体の動きと現在のシーン条件の埋め込みから将来の人間の動き埋め込みへの相互マッピングを特徴付ける。
大規模人間の動き予測データセットに関する大規模な実験により、我々のMCLDは、現実的および多種多様な予測に関する最先端の手法よりも大幅に改善されていることが示された。
Inferring 3D human motion is fundamental in many applications, including understanding human activity and analyzing one's intention. While many fruitful efforts have been made to human motion prediction, most approaches focus on pose-driven prediction and inferring human motion in isolation from the contextual environment, thus leaving the body location movement in the scene behind. However, real-world human movements are goal-directed and highly influenced by the spatial layout of their surrounding scenes. In this paper, instead of planning future human motion in a 'dark' room, we propose a Multi-Condition Latent Diffusion network (MCLD) that reformulates the human motion prediction task as a multi-condition joint inference problem based on the given historical 3D body motion and the current 3D scene contexts. Specifically, instead of directly modeling joint distribution over the raw motion sequences, MCLD performs a conditional diffusion process within the latent embedding space, characterizing the cross-modal mapping from the past body movement and current scene context condition embeddings to the future human motion embedding. Extensive experiments on large-scale human motion prediction datasets demonstrate that our MCLD achieves significant improvements over the state-of-the-art methods on both realistic and diverse predictions. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# コンテキスト位置エンコーディング: 重要なものを数えることを学ぶ
Contextual Position Encoding: Learning to Count What's Important ( http://arxiv.org/abs/2405.18719v2 ) ライセンス: Link先を確認 | Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar, | (参考訳) 注意機構はLarge Language Models (LLM) の重要なコンポーネントであり、シーケンス内のトークン同士の対話を可能にするが、順序不変である。
PE(Incorporating position encoding)は、i-thトークンへの出席など、位置ごとの対応を可能にする。
しかし、現在のPE法ではトークンカウントを用いて位置を導出しているため、i-th文への出席など、より高度な抽象レベルに一般化することはできない。
本論文では,モデルによって決定される特定のトークンにのみ位置を増設することにより,コンテキスト上で位置を条件付けることのできる新しい位置符号化手法であるコンテキスト位置符号化(CoPE)を提案する。
これにより、$i$-thの特定の単語、名詞、文への出席など、より一般的な位置アドレス付けが可能になる。
一般的な位置埋め込みがフェールした場合,CoPEは選択コピー,カウント,フリップフロップといったタスクを解くことができ,言語モデリングやコーディングタスクの難易度を改善することができることを示す。
The attention mechanism is a critical component of Large Language Models (LLMs) that allows tokens in a sequence to interact with each other, but is order-invariant. Incorporating position encoding (PE) makes it possible to address by position, such as attending to the i-th token. However, current PE methods use token counts to derive position, and thus cannot generalize to higher levels of abstraction, such as attending to the i-th sentence. In this paper, we propose a new position encoding method, Contextual Position Encoding (CoPE), that allows positions to be conditioned on context by incrementing position only on certain tokens determined by the model. This allows more general position addressing such as attending to the $i$-th particular word, noun, or sentence. We show that CoPE can solve the selective copy, counting and Flip-Flop tasks where popular position embeddings fail, and improves perplexity on language modeling and coding tasks. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 条件付きバッチ正規化を用いた補助タスク変調によるマルチモーダルメタラーニングの限界について
On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization ( http://arxiv.org/abs/2405.18751v2 ) ライセンス: Link先を確認 | Jordi Armengol-Estapé, Vincent Michalski, Ramnath Kumar, Pierre-Luc St-Charles, Doina Precup, Samira Ebrahimi Kahou, | (参考訳) 少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。
より具体的に言えば、言語は視覚学習を導くのに使える豊富なモダリティである。
本研究では, 分類器, 補助ネットワーク, ブリッジネットワークという3つのコンポーネントから構成される, 数ショット学習のためのマルチモーダルアーキテクチャを実験する。
分類器が主分類タスクを実行する間、補助ネットワークは同じ入力から言語表現を予測することを学習し、ブリッジネットワークは、補助ネットワークの高レベルな特徴を条件付きバッチ正規化を用いて、少数ショット分類器の層に対する変調パラメータに変換する。
このブリッジは、言語と視覚の間の軽量なセマンティックアライメントの形式を奨励し、分類器に役立てるべきである。
しかし、2つの一般的な数ショット分類ベンチマークに対する提案されたアプローチを評価すると、そのことが分かる。
a) 改善はベンチマーク全体にわたって再現されず、
b)ブリッジネットワークによって導入された計算とパラメータの追加による改善。
言語表現を用いたマルチモーダルなメタラーニングにおける今後の研究に対する洞察と提言に貢献する。
Few-shot learning aims to learn representations that can tackle novel tasks given a small number of examples. Recent studies show that cross-modal learning can improve representations for few-shot classification. More specifically, language is a rich modality that can be used to guide visual learning. In this work, we experiment with a multi-modal architecture for few-shot learning that consists of three components: a classifier, an auxiliary network, and a bridge network. While the classifier performs the main classification task, the auxiliary network learns to predict language representations from the same input, and the bridge network transforms high-level features of the auxiliary network into modulation parameters for layers of the few-shot classifier using conditional batch normalization. The bridge should encourage a form of lightweight semantic alignment between language and vision which could be useful for the classifier. However, after evaluating the proposed approach on two popular few-shot classification benchmarks we find that a) the improvements do not reproduce across benchmarks, and b) when they do, the improvements are due to the additional compute and parameters introduced by the bridge network. We contribute insights and recommendations for future work in multi-modal meta-learning, especially when using language representations. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# Inpaint Biases: 正確な画像生成と不偏画像生成のための道
Inpaint Biases: A Pathway to Accurate and Unbiased Image Generation ( http://arxiv.org/abs/2405.18762v2 ) ライセンス: Link先を確認 | Jiyoon Myung, Jihyeon Park, | (参考訳) 本稿では、訓練データセットにほとんど表現されない、あるいは欠落している非伝統的な概念を正確にレンダリングする際の高度なテキスト・画像モデルの限界について検討する。
これらの制限が、これらのモデルの創造的可能性を限定するだけでなく、ステレオタイプを補強するリスクも生じさせる。
これらの課題に対処するために,ユーザ定義マスクとインペイント技術を用いたInpaint Biasesフレームワークを導入し,特に新規あるいは不正確なオブジェクトに対して,画像生成の精度を向上させる。
実験的な検証を通じて、このフレームワークが生成した画像の忠実度をユーザの意図に大きく改善し、それによってモデルの創造能力を拡大し、バイアスを緩和するリスクを緩和することを示す。
本研究は,創造的表現のための非バイアスで汎用的なツールとして,テキスト・ツー・イメージ・モデルの進歩に寄与する。
This paper examines the limitations of advanced text-to-image models in accurately rendering unconventional concepts which are scarcely represented or absent in their training datasets. We identify how these limitations not only confine the creative potential of these models but also pose risks of reinforcing stereotypes. To address these challenges, we introduce the Inpaint Biases framework, which employs user-defined masks and inpainting techniques to enhance the accuracy of image generation, particularly for novel or inaccurately rendered objects. Through experimental validation, we demonstrate how this framework significantly improves the fidelity of generated images to the user's intent, thereby expanding the models' creative capabilities and mitigating the risk of perpetuating biases. Our study contributes to the advancement of text-to-image models as unbiased, versatile tools for creative expression. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# HLOB - 制限順序書における情報持続性と構造
HLOB -- Information Persistence and Structure in Limit Order Books ( http://arxiv.org/abs/2405.18938v2 ) ライセンス: Link先を確認 | Antonio Briola, Silvia Bartolucci, Tomaso Aste, | (参考訳) 本稿では,制約順序書の中間価格変化予測のための新しい大規模ディープラーニングモデルを紹介し,それをHLOBと呼ぶ。
この建築
(i)情報フィルタリングネットワーク(Triangulated Maximally Filtered Graph)によって符号化された情報を利用して、ボリュームレベルの深い非自明な依存性構造を明らかにする。
(II) ホモロジカル畳み込みニューラルネットワークの画期的なクラスからインスピレーションを得て, 基礎となるシステムの複雑さに対処する決定論的設計選択を保証する。
我々は、NASDAQ取引所で取引された15株を含む3つの実世界の制限順序ブックデータセット上の9つの最先端ディープラーニング代替案に対して、我々のモデルを検証し、HLOBが最先端アーキテクチャを上回るシナリオを体系的に特徴づける。
当社のアプローチは,高頻度金融市場におけるミクロ構造モデリングと深層学習に基づく予測とのギャップを狭めるとともに,情報空間の空間分布と,予測地平線の増大に伴う劣化に新たな光を当てるものである。
We introduce a novel large-scale deep learning model for Limit Order Book mid-price changes forecasting, and we name it `HLOB'. This architecture (i) exploits the information encoded by an Information Filtering Network, namely the Triangulated Maximally Filtered Graph, to unveil deeper and non-trivial dependency structures among volume levels; and (ii) guarantees deterministic design choices to handle the complexity of the underlying system by drawing inspiration from the groundbreaking class of Homological Convolutional Neural Networks. We test our model against 9 state-of-the-art deep learning alternatives on 3 real-world Limit Order Book datasets, each including 15 stocks traded on the NASDAQ exchange, and we systematically characterize the scenarios where HLOB outperforms state-of-the-art architectures. Our approach sheds new light on the spatial distribution of information in Limit Order Books and on its degradation over increasing prediction horizons, narrowing the gap between microstructural modeling and deep learning-based forecasting in high-frequency financial markets. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# モデル予測経路積分によるレーダ配置の連続最適化
Continuously Optimizing Radar Placement with Model Predictive Path Integrals ( http://arxiv.org/abs/2405.18999v2 ) ライセンス: Link先を確認 | Michael Potter, Shuo Tang, Paul Ghanem, Milica Stojanovic, Pau Closas, Murat Akcakaya, Ben Wright, Marius Necsoiu, Deniz Erdogmus, Michael Everett, Tales Imbiriba, | (参考訳) センサー配置の連続最適化は、様々な軍事・民間用途における正確な目標位置決めに不可欠である。
情報理論はセンサ配置の最適化に有望であるが、多くの研究はセンサ計測モデルを単純化したり、移動センサの動的制約を無視したりする。
これらの課題に対処するために,レーダパラメータとレーダ-ターゲット距離を組み込んだレンジ計測モデルとモデル予測経路積分(MPPI)制御を組み合わせて,複雑な環境障害と動的制約を管理する。
本研究では, 目標状態に対するKAF推定器の根平均二乗誤差(RMSE)に基づく静止レーダや簡易レンジ計測モデルとの比較を行った。
さらに、時間とともにレーダーと目標の進化する幾何学を可視化し、最も高い計測情報を得る領域を強調し、アプローチの強みを実証する。
提案した戦略は、静止レーダーと簡易レンジ計測モデルに勝り、平均RMSEを38-74%削減し、HDI(Highest Density Interval)の90%以上を500モンテカール(MC)の試験で33-79%削減した。
コードは受理時に公開される。
Continuously optimizing sensor placement is essential for precise target localization in various military and civilian applications. While information theory has shown promise in optimizing sensor placement, many studies oversimplify sensor measurement models or neglect dynamic constraints of mobile sensors. To address these challenges, we employ a range measurement model that incorporates radar parameters and radar-target distance, coupled with Model Predictive Path Integral (MPPI) control to manage complex environmental obstacles and dynamic constraints. We compare the proposed approach against stationary radars or simplified range measurement models based on the root mean squared error (RMSE) of the Cubature Kalman Filter (CKF) estimator for the targets' state. Additionally, we visualize the evolving geometry of radars and targets over time, highlighting areas of highest measurement information gain, demonstrating the strengths of the approach. The proposed strategy outperforms stationary radars and simplified range measurement models in target localization, achieving a 38-74% reduction in mean RMSE and a 33-79% reduction in the upper tail of the 90% Highest Density Interval (HDI) over 500 Monte Carl (MC) trials across all time steps. Code will be made publicly available upon acceptance. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 生涯人物識別のための自動選択型知識適応器
Auto-selected Knowledge Adapters for Lifelong Person Re-identification ( http://arxiv.org/abs/2405.19005v2 ) ライセンス: Link先を確認 | Xuelin Qian, Ruiqi Wu, Gong Cheng, Junwei Han, | (参考訳) Lifelong Person Re-Identification (LReID) は、異なる時間と場所にわたる重複しないデータセットから継続的に学習し、新しいアイデンティティに適応しつつ、以前のデータセットの知識を保存することによって、従来のReIDを拡張している。
リハーサルのない、あるいはリハーサルベースの既存のアプローチは、様々な知識を1つの固定されたモデルに詰め込もうとしているため、破滅的な忘れ込みの問題に悩まされている。
この制限を克服するために,知識アダプタを採用した新しいフレームワークであるAdalReIDと,生涯学習のためのパラメータフリー自動選択機構を導入する。
具体的には、各ステップでドメイン固有の知識を学ぶために、個別のアダプタを段階的に構築します。
一方、提案した自動選択戦略は、入力セットとアダプタの知識類似性を適応的に計算する。
一方、入力に対して適切なアダプタを選択してReIDを処理し、一方、アダプタ間の知識相互作用と融合を高めてモデルの一般化能力を向上させる。
AdalReIDの優位性を示すために大規模な実験を行い, 目視領域と目視領域の両方でSOTAを約10$\sim$20\%mAPで上回る結果を得た。
Lifelong Person Re-Identification (LReID) extends traditional ReID by requiring systems to continually learn from non-overlapping datasets across different times and locations, adapting to new identities while preserving knowledge of previous ones. Existing approaches, either rehearsal-free or rehearsal-based, still suffer from the problem of catastrophic forgetting since they try to cram diverse knowledge into one fixed model. To overcome this limitation, we introduce a novel framework AdalReID, that adopts knowledge adapters and a parameter-free auto-selection mechanism for lifelong learning. Concretely, we incrementally build distinct adapters to learn domain-specific knowledge at each step, which can effectively learn and preserve knowledge across different datasets. Meanwhile, the proposed auto-selection strategy adaptively calculates the knowledge similarity between the input set and the adapters. On the one hand, the appropriate adapters are selected for the inputs to process ReID, and on the other hand, the knowledge interaction and fusion between adapters are enhanced to improve the generalization ability of the model. Extensive experiments are conducted to demonstrate the superiority of our AdalReID, which significantly outperforms SOTAs by about 10$\sim$20\% mAP on both seen and unseen domains. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 詳細な画像キャプションのベンチマークと改善
Benchmarking and Improving Detail Image Caption ( http://arxiv.org/abs/2405.19092v2 ) ライセンス: Link先を確認 | Hongyuan Dong, Jiawen Li, Bohong Wu, Jiacong Wang, Yuan Zhang, Haoyuan Guo, | (参考訳) 画像キャプションは視覚的理解の基本的な課題として長い間見なされてきた。
しかし,近年,古くなったショートキャプションベンチマークと信頼性の低い評価指標により,画像キャプション性能に関する大規模視覚言語モデル (LVLM) の研究はほとんど行われていない。
そこで本研究では,GPT-4V と Gemini-1.5-Pro がアノテートした高品質な評価データセットを算出し,画像キャプションタスクのベンチマークを行う。
CAPTURE(exTracting and coupling coRE information)と呼ばれる,より信頼性の高いキャプション評価指標も設計する。
CAPTUREは、字幕から視覚的要素、例えばオブジェクト、属性、関係を抽出し、これらの要素を3段階を通してマッチングし、他のルールベースのまたはモデルベースのキャプションメトリクスよりも専門家の判断と最高の一貫性を達成する。
提案したベンチマークとメトリクスは,LVLMの詳細な画像キャプション能力の信頼性評価を提供する。
この評価によって,5段階のデータ構築パイプラインを通じて高品質なデータを合成することにより,LVLMの詳細なキャプション機能を解き放つことを探る。
私たちのパイプラインは、ループ内に人間やGPT-4Vアノテーションなしで、与えられたLVLM自身や他のオープンソースツールのみを使用します。
実験により,提案したデータ構築戦略により,LVLMのモデル生成の詳細キャプションデータの品質が向上し,自己ループ方式でデータ品質がさらに向上することが示された。
すべてのコードとデータセットはhttps://github.com/foundation-multimodal-models/CAPTUREで公開される。
Image captioning has long been regarded as a fundamental task in visual understanding. Recently, however, few large vision-language model (LVLM) research discusses model's image captioning performance because of the outdated short-caption benchmarks and unreliable evaluation metrics. In this work, we propose to benchmark detail image caption task by curating high-quality evaluation datasets annotated by human experts, GPT-4V and Gemini-1.5-Pro. We also design a more reliable caption evaluation metric called CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information). CAPTURE extracts visual elements, e.g., objects, attributes and relations from captions, and then matches these elements through three stages, achieving the highest consistency with expert judgements over other rule-based or model-based caption metrics. The proposed benchmark and metric provide reliable evaluation for LVLM's detailed image captioning ability. Guided by this evaluation, we further explore to unleash LVLM's detail caption capabilities by synthesizing high-quality data through a five-stage data construction pipeline. Our pipeline only uses a given LVLM itself and other open-source tools, without any human or GPT-4V annotation in the loop. Experiments show that the proposed data construction strategy significantly improves model-generated detail caption data quality for LVLMs with leading performance, and the data quality can be further improved in a self-looping paradigm. All code and dataset will be publicly available at https://github.com/foundation-multimodal-models/CAPTURE. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# CaLa: 合成画像検索のための補足型アソシエーション学習
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval ( http://arxiv.org/abs/2405.19149v2 ) ライセンス: Link先を確認 | Xintong Jiang, Yaxiong Wang, Mengjian Li, Yujiao Wu, Bingwen Hu, Xueming Qian, | (参考訳) Composed Image Retrieval (CIR)は、画像とテキストのペアクエリに基づいてターゲットイメージを検索する。
現在の手法では、クエリターゲットマッチングの問題として扱うが、CIR三重項には、この一次関係以外の関連性が含まれていると論じる。
本稿では,三重項をグラフノードとして扱い,三重項内の2つの新しい関係を同定する。
まず,検索画像と対象画像のブリッジとして機能する,テキストブリッジ画像アライメントの概念を紹介する。
本稿では,この関係をネットワーク学習に組み込むヒンジベースのクロスアテンション機構を提案する。
次に、CIRを2つの画像が相補的テキストを推論するために構成されるクロスモーダル検索の形式として考慮して、相補的テキスト推論を検討する。
これらの視点を効果的に統合するために、双対の注意に基づく合成装置を設計する。
これらの補完関係と明示的なクエリ対ターゲット画像関係を組み合わせることで、CIRの包括的な制約セットを確立する。
筆者らのフレームワークであるCaLa(Complementary Association Learning for Augmenting Composed Image Retrieval)は,これらの知見を活用している。
複数のバックボーンを持つCIRRおよびFashionIQベンチマークにおけるCaLaの評価を行い、合成画像検索においてその優位性を実証した。
Composed Image Retrieval (CIR) involves searching for target images based on an image-text pair query. While current methods treat this as a query-target matching problem, we argue that CIR triplets contain additional associations beyond this primary relation. In our paper, we identify two new relations within triplets, treating each triplet as a graph node. Firstly, we introduce the concept of text-bridged image alignment, where the query text serves as a bridge between the query image and the target image. We propose a hinge-based cross-attention mechanism to incorporate this relation into network learning. Secondly, we explore complementary text reasoning, considering CIR as a form of cross-modal retrieval where two images compose to reason about complementary text. To integrate these perspectives effectively, we design a twin attention-based compositor. By combining these complementary associations with the explicit query pair-target image relation, we establish a comprehensive set of constraints for CIR. Our framework, CaLa (Complementary Association Learning for Augmenting Composed Image Retrieval), leverages these insights. We evaluate CaLa on CIRR and FashionIQ benchmarks with multiple backbones, demonstrating its superiority in composed image retrieval. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# E^{3}$Gen: 効率的、表現的、編集可能なアバター生成
$E^{3}$Gen: Efficient, Expressive and Editable Avatars Generation ( http://arxiv.org/abs/2405.19203v2 ) ライセンス: Link先を確認 | Weitian Zhang, Yichao Yan, Yunhui Liu, Xingdong Sheng, Xiaokang Yang, | (参考訳) 本稿では,効率的な,表現的で編集可能なデジタルアバター生成のための3Dガウスモデルを提案する。
この課題は,(1) 3D Gaussian の非構造的性質が現行の世代パイプラインと相容れないこと,(2) 複数の被験者とのトレーニングを含む生成環境における3D Gaussian の表現的アニメーションが未探索のままである,という2つの大きな課題に直面する。
本稿では,これらの課題を効果的に解決するために,$E^3$Genという新しいアバター生成手法を提案する。
まず, SMPL-Xパラメトリックモデルで定義された2次元UV空間に非構造化3次元ガウス空間を符号化する平面表現を提案する。
この斬新な表現は、元の3Dガウスの表現能力を保持するだけでなく、拡散モデルの生成学習を可能にするために、被験者間で共有構造を導入する。
第2の課題に対処するために,頑健で正確な全体表現型ポーズ制御を実現する部分認識変形モジュールを提案する。
広汎な実験により,アバター生成における性能が向上し,表現力のあるフルボディポーズ制御と編集が可能となった。
私たちのプロジェクトページはhttps://olivia23333.github.io/E3Genです。
This paper aims to introduce 3D Gaussian for efficient, expressive, and editable digital avatar generation. This task faces two major challenges: (1) The unstructured nature of 3D Gaussian makes it incompatible with current generation pipelines; (2) the expressive animation of 3D Gaussian in a generative setting that involves training with multiple subjects remains unexplored. In this paper, we propose a novel avatar generation method named $E^3$Gen, to effectively address these challenges. First, we propose a novel generative UV features plane representation that encodes unstructured 3D Gaussian onto a structured 2D UV space defined by the SMPL-X parametric model. This novel representation not only preserves the representation ability of the original 3D Gaussian but also introduces a shared structure among subjects to enable generative learning of the diffusion model. To tackle the second challenge, we propose a part-aware deformation module to achieve robust and accurate full-body expressive pose control. Extensive experiments demonstrate that our method achieves superior performance in avatar generation and enables expressive full-body pose control and editing. Our project page is https://olivia23333.github.io/E3Gen. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# 生理信号の深部潜時変動モデリング
Deep Latent Variable Modeling of Physiological Signals ( http://arxiv.org/abs/2405.19277v2 ) ライセンス: Link先を確認 | Khuong Vo, | (参考訳) ディープ潜在変数モデルは、複雑な分布をキャプチャする強力な方法である。
これらのモデルは、基盤となる構造は、観測されていないが、データの中に存在すると仮定する。
本論文では,潜伏変数モデルを用いた生理モニタリングに関する高次元問題について考察する。
まず、光学的に得られた信号を入力として、心の電気波形を生成するための新しい状態空間モデルを提案する。
これは、ウェアラブルデバイスによる簡単な評価を通じて、心臓病の臨床的診断をもたらす可能性がある。
次に,確率的グラフィカルモデルの強みと深い敵対学習を組み合わせた脳信号モデリング手法を提案する。
構造化された表現は解釈可能性を提供し、インダクティブバイアスを符号化することで、ニューラル振動のデータ複雑さを低減することができる。
さらに, 教師なし学習問題として定式化したてんかん発作検出において, 学習表現の有効性について検討した。
第3に,生理的尺度と行動の合同モデリングのための枠組みを提案する。
複数の脳データソースを結合する既存の方法は限られている。
異なる種類の生理的尺度間の関係の直接解析は、通常、行動データには関係しない。
本手法は,脳領域の行動に対する特異かつ共有的な貢献を同定し,脳領域の新たな機能発見に利用することができる。
これらの革新的な計算手法の成功は、生物マーカーの発見を種間で翻訳し、多くの生物学的研究や臨床診断における神経認知分析の洞察と、新たな消費者応用を提供する。
A deep latent variable model is a powerful method for capturing complex distributions. These models assume that underlying structures, but unobserved, are present within the data. In this dissertation, we explore high-dimensional problems related to physiological monitoring using latent variable models. First, we present a novel deep state-space model to generate electrical waveforms of the heart using optically obtained signals as inputs. This can bring about clinical diagnoses of heart disease via simple assessment through wearable devices. Second, we present a brain signal modeling scheme that combines the strengths of probabilistic graphical models and deep adversarial learning. The structured representations can provide interpretability and encode inductive biases to reduce the data complexity of neural oscillations. The efficacy of the learned representations is further studied in epilepsy seizure detection formulated as an unsupervised learning problem. Third, we propose a framework for the joint modeling of physiological measures and behavior. Existing methods to combine multiple sources of brain data provided are limited. Direct analysis of the relationship between different types of physiological measures usually does not involve behavioral data. Our method can identify the unique and shared contributions of brain regions to behavior and can be used to discover new functions of brain regions. The success of these innovative computational methods would allow the translation of biomarker findings across species and provide insight into neurocognitive analysis in numerous biological studies and clinical diagnoses, as well as emerging consumer applications. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |
# MAP-Neo:高機能で透明なバイリンガル大言語モデル
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series ( http://arxiv.org/abs/2405.19327v2 ) ライセンス: Link先を確認 | Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen, | (参考訳) 大規模言語モデル(LLM)は、近年、様々なタスクで前例のないパフォーマンスを達成するために大きな進歩を遂げています。
しかし、商業的な関心があるため、GPT、Gemini、Claudeといった最も競争力のあるモデルは、トレーニングの詳細を開示することなく、プロプライエタリなインターフェースの陰に置かれている。
近年、多くの機関がLLaMA-3のような強力なLLMをオープンソース化している。
しかし、モデルの重みのみには、ほとんどの詳細(例えば、中間チェックポイント、事前トレーニングコーパス、トレーニングコードなど)が開示されていない。
LLMの透明性を改善するために、研究コミュニティは、真にオープンなLCM(例えば、Pythia、Amber、OLMo)をオープンソースにするために結成された。
これらのモデルは、その強さ、弱さ、バイアス、リスクを含むこれらの大きなモデルの科学的研究を大きく進めてきた。
しかし、推論、知識、コーディングタスクに関する既存のオープンなLLMは、モデルサイズが類似した既存の最先端のLLMよりも依然として劣っている。
そこで我々はMAP-Neoをオープンソース化した。これは高性能で透明なバイリンガル言語モデルで、4.5Tの高品質トークンをスクラッチからトレーニングした7Bパラメータを持つ。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
さらに,クリーン化事前学習コーパス,データクリーニングパイプライン,チェックポイント,高度に最適化されたトレーニング/評価フレームワークを提供するMAP-Neoを再現するためのすべての詳細をオープンソース化した。
最後に、MAP-Neoはオープンな研究コミュニティを強化し、LLMのさらなる改善を促進するために、より多くのイノベーションと創造性を刺激することを期待しています。
Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs. | 翻訳日:2024-05-31 12:40:32 公開日:2024-05-30 |