このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240526となっている論文です。

PDF登録状況(公開日: 20240526)

TitleAuthorsAbstract論文公表日・翻訳日
# より良いAIエージェントの構築: LLMベースの会話エージェントにおけるペルソナの利用に関する挑発

Building Better AI Agents: A Provocation on the Utilisation of Persona in LLM-based Conversational Agents ( http://arxiv.org/abs/2407.11977v1 )

ライセンス: Link先を確認
Guangzhi Sun, Xiao Zhan, Jose Such, (参考訳) GPTシリーズのような大規模言語モデル(LLM)を医療、教育、金融など様々な分野に組み込むことは、人工知能(AI)分野において大きな進化を遂げている。 パーソナライズされたアプリケーションに対する需要が増大し、会話エージェント(CA)が別々のペルソナを持つようになった。 本稿は, LLM時代のLCMに基づくCAの個人化と人格化に関するより広い議論に移行し, ユニークなペルソナを持つCAの合理的性と意味を考察することによって開始する。 ペルソナの実装が単に有益であるだけでなく、LCMベースのCAにとって重要なアプリケーションについても検討する。 この論文は、ペルソナ統合に対するニュアンスなアプローチの必要性を強調し、起こりうる潜在的な課題と倫理的ジレンマを強調している。 注意は、ペルソナの一貫性を維持し、堅牢な評価機構を確立し、ペルソナ属性がドメイン固有の知識によって効果的に補完されることを保証することの重要性に向けられている。

The incorporation of Large Language Models (LLMs) such as the GPT series into diverse sectors including healthcare, education, and finance marks a significant evolution in the field of artificial intelligence (AI). The increasing demand for personalised applications motivated the design of conversational agents (CAs) to possess distinct personas. This paper commences by examining the rationale and implications of imbuing CAs with unique personas, smoothly transitioning into a broader discussion of the personalisation and anthropomorphism of CAs based on LLMs in the LLM era. We delve into the specific applications where the implementation of a persona is not just beneficial but critical for LLM-based CAs. The paper underscores the necessity of a nuanced approach to persona integration, highlighting the potential challenges and ethical dilemmas that may arise. Attention is directed towards the importance of maintaining persona consistency, establishing robust evaluation mechanisms, and ensuring that the persona attributes are effectively complemented by domain-specific knowledge.
翻訳日:2024-07-22 11:50:18 公開日:2024-05-26
# コンピュータサイエンス教育におけるChatGPTの採用と効果:データベース管理講座を事例として

Adoption and Impact of ChatGPT in Computer Science Education: A Case Study on a Database Administration Course ( http://arxiv.org/abs/2407.12145v1 )

ライセンス: Link先を確認
Daniel López-Fernández, Ricardo Vergaz, (参考訳) 貢献: ChatGPTと従来の学習資源の組み合わせは、コンピュータサイエンス教育において非常に効果的である。 ハイパフォーマンスな学生が一番ChatGPTを使っている。 そのため、これらの学生と基礎の低い学生の間で新しいデジタルトレンチが上昇し、ChatGPTの可能性を生かしていないスキルが悪化している可能性がある。 背景: ChatGPT などの GenAI の噴火は教育の状況を変えた。 したがって、これらのツールをよりよく理解し、最大限に活用する方法を知るためには、方法論的ガイドラインとコンピュータサイエンス教育におけるより経験的な経験が必要である。 調査質問: この記事は3つの質問に対処する。 最初の2つは、コンピュータサイエンスの学生がデータベース管理を学ぶためのChatGPTの使用度と有用性について調査し、第3は、ChatGPTの利用が学術的パフォーマンスに与える影響について考察した。 方法論: このコントリビューションは,ChatGPTをデータベース管理学習支援ツールとして使用した37人の学生を対象に,探索的および相関研究を行った。 学生の成績と総合的なアンケートを調査機器として採用した。 その結果,教師の説明や生徒の報告など従来の学習資源が広く利用され,生徒の成績と正の相関が認められた。 ChatGPTの使用と有効性は中等度であったが, 学生の成績とChatGPT使用率との間には正の相関がみられた。 実際、卓越した学生グループの間では、このツールの使用率が著しく高かった。

Contribution: The combination of ChatGPT with traditional learning resources is very effective in computer science education. High-performing students are the ones who are using ChatGPT the most. So, a new digital trench could be rising between these students and those with lower degree of fundamentals and worse prompting skills, who may not take advantage of all the ChatGPT possibilities. Background: The irruption of GenAI such as ChatGPT has changed the educational landscape. Therefore, methodological guidelines and more empirical experiences in computer science education are needed to better understand these tools and know how to use them to their fullest potential. Research Questions: This article addresses three questions. The first two explore the degree of use and perceived usefulness of ChatGPT among computer science students to learn database administration, where as the third one explore how the utilization of ChatGPT can impact academic performance. Methodology: This contribution presents an exploratory and correlational study conducted with 37 students who used ChatGPT as a support tool to learn database administration. The student grades and a comprehensive questionnaire were employed as research instruments. Findings: The obtained results indicate that traditional learning resources, such as teacher explanations and student reports, were widely used and correlated positively with student grade. The usage and perceived utility of ChatGPT were moderate, but positive correlations between student grade and ChatGPT usage were found. Indeed, a significantly higher use of this tool was identified among the group of outstanding students.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-26
# 畳み込みニューラルネットワークと説明可能なAIを用いたMRIスキャンによる認知症診断

Using a Convolutional Neural Network and Explainable AI to Diagnose Dementia Based on MRI Scans ( http://arxiv.org/abs/2406.18555v1 )

ライセンス: Link先を確認
Tyler Morris, Ziming Liu, Longjian Liu, Xiaopeng Zhao, (参考訳) 認知症患者の増加に伴い、正確な診断手順の必要性も高まる。 MRIスキャンのような現在の方法は、不正確な人間の入力に依存している。 しかしながら、機械学習アルゴリズムとその出力の背後にある決定ロジックは説明できない。 そこで,MRIを用いて認知症を診断する精度を高めるために,6400個のMRIスキャンを4つの認知症クラスに分割したオープンソースのデータベースを用いて,畳み込みニューラルネットワークを開発した。 98%の精度を達成したこのモデルは、適合性が高く、新しいデータに一般化できることが示されている。 さらに、モデル出力の可視化を支援するために、各畳み込み層における個々のフィルタの出力を可視化して説明可能なAIアルゴリズムを開発した。 これらのアウトプットは、モデル分類に最も寄与する画像の特徴を識別し、ユーザが結果を視覚化し、理解できるようにする。 この畳み込みニューラルネットワークと説明可能なAIアルゴリズムの組み合わせは、認知症の適切な分類を助けるだけでなく、関係者全員が結果を視覚化して理解できるように、医療現場で使用できるシステムを生成する。

As the number of dementia patients rises, the need for accurate diagnostic procedures rises as well. Current methods, like using an MRI scan, rely on human input, which can be inaccurate. However, the decision logic behind machine learning algorithms and their outputs cannot be explained, as most operate in black-box models. Therefore, to increase the accuracy of diagnosing dementia through MRIs, a convolution neural network has been developed and trained using an open-source database of 6400 MRI scans divided into 4 dementia classes. The model, which attained a 98 percent validation accuracy, was shown to be well fit and able to generalize to new data. Furthermore, to aid in the visualization of the model output, an explainable AI algorithm was developed by visualizing the outputs of individual filters in each convolution layer, which highlighted regions of interest in the scan. These outputs do a great job of identifying the image features that contribute most to the model classification, thus allowing users to visualize and understand the results. Altogether, this combination of the convolution neural network and explainable AI algorithm creates a system that can be used in the medical field to not only aid in the proper classification of dementia but also allow everyone involved to visualize and understand the results.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-26
# 生成型AIと大規模言語モデルのための学術ガイドラインのグローバルな展望

The global landscape of academic guidelines for generative AI and Large Language Models ( http://arxiv.org/abs/2406.18842v1 )

ライセンス: Link先を確認
Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar, (参考訳) ジェネレーティブ・人工知能(GAI)とLarge Language Models(LLM)の学界への統合は、その潜在的な教育的利益と倫理的考察に関する世界的な議論を刺激している。 ポジティブな反応は、コラボレーティブな創造性、教育へのアクセスの増加、トレーナーとトレーナーの強化など、いくつかの可能性を強調している。 しかし、ネガティブな反応は、倫理的な複雑さ、イノベーションと学術的整合性のバランス、不平等なアクセス、誤情報リスクに関する懸念を引き起こす。 本研究は,グローバルディレクティブと全国ディレクティブの体系的調査とテキストマイニングに基づく分析,独立研究からの洞察,大学レベルの80のガイドラインを通じて,GAIとLLMが教育においてもたらす機会と課題の微妙な理解を提供する。 倫理的配慮に対処し、公平なアクセスと教育成果を確保する一方で、これらの技術の利点を活用するバランスのとれたアプローチの重要性を強調している。 本論文は、学術におけるGAIとLLMの統合を導くために、責任あるイノベーションと倫理的実践を促進するための勧告で締めくくっている。

The integration of Generative Artificial Intelligence (GAI) and Large Language Models (LLMs) in academia has spurred a global discourse on their potential pedagogical benefits and ethical considerations. Positive reactions highlight some potential, such as collaborative creativity, increased access to education, and empowerment of trainers and trainees. However, negative reactions raise concerns about ethical complexities, balancing innovation and academic integrity, unequal access, and misinformation risks. Through a systematic survey and text-mining-based analysis of global and national directives, insights from independent research, and eighty university-level guidelines, this study provides a nuanced understanding of the opportunities and challenges posed by GAI and LLMs in education. It emphasizes the importance of balanced approaches that harness the benefits of these technologies while addressing ethical considerations and ensuring equitable access and educational outcomes. The paper concludes with recommendations for fostering responsible innovation and ethical practices to guide the integration of GAI and LLMs in academia.
翻訳日:2024-07-01 05:40:31 公開日:2024-05-26
# 医療用マルチモーダル大言語モデルにおけるクロスモーダルジェイルブレイクとミスマッチ攻撃

Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models ( http://arxiv.org/abs/2405.20775v1 )

ライセンス: Link先を確認
Xijie Huang, Xinyuan Wang, Hantao Zhang, Jiawen Xi, Jingkun An, Hao Wang, Chengwei Pan, (参考訳) 大規模言語モデル(LLM)に関するセキュリティ上の懸念は広く研究されているが、特に医学的文脈(MedMLLM)において、MLLM(Multimodal Large Language Models)の安全性への影響は十分に研究されていない。 本稿では,MedMLLMsの未発見のセキュリティ脆弱性,特に複雑な医学的課題に対して,問合せ・問合せの正確さと妥当性を重要視する臨床環境に展開する場合について述べる。 既往の医療データと非典型的な自然現象を組み合わせることで、不正な悪意攻撃(2M-アタック)と、不正な悪意攻撃(O2M-アタック)の2種類の攻撃を再定義する。 MedMLLMの攻撃成功率を大幅に向上させるMCM最適化手法を提案する。 このデータセットと、LLaVA-Medに対するホワイトボックス攻撃や、他の4つの最先端モデルに対する転送攻撃を含む、新しい攻撃方法による評価は、セキュリティ機能を強化したMedMLLMでさえ、セキュリティ違反に対して脆弱であることを示している。 我々の研究は、堅牢なセキュリティ対策を実践し、オープンソースMedMLLMの安全性と有効性を高めるための、緊急の努力の必要性を浮き彫りにしている。 さらなる研究とレプリケーションのために、コードへの匿名アクセスはhttps://github.com/dirty computer/O2M_ attack.comで利用可能である。 警告: 医療用大型モデルジェイルブレイクは、未確認の診断と治療勧告を含むコンテンツを生成する可能性がある。 常に専門医のアドバイスに相談する。

Security concerns related to Large Language Models (LLMs) have been extensively explored, yet the safety implications for Multimodal Large Language Models (MLLMs), particularly in medical contexts (MedMLLMs), remain insufficiently studied. This paper delves into the underexplored security vulnerabilities of MedMLLMs, especially when deployed in clinical environments where the accuracy and relevance of question-and-answer interactions are critically tested against complex medical challenges. By combining existing clinical medical data with atypical natural phenomena, we redefine two types of attacks: mismatched malicious attack (2M-attack) and optimized mismatched malicious attack (O2M-attack). Using our own constructed voluminous 3MAD dataset, which covers a wide range of medical image modalities and harmful medical scenarios, we conduct a comprehensive analysis and propose the MCM optimization method, which significantly enhances the attack success rate on MedMLLMs. Evaluations with this dataset and novel attack methods, including white-box attacks on LLaVA-Med and transfer attacks on four other state-of-the-art models, indicate that even MedMLLMs designed with enhanced security features are vulnerable to security breaches. Our work underscores the urgent need for a concerted effort to implement robust security measures and enhance the safety and efficacy of open-source MedMLLMs, particularly given the potential severity of jailbreak attacks and other malicious or clinically significant exploits in medical settings. For further research and replication, anonymous access to our code is available at https://github.com/dirtycomputer/O2M_attack. Warning: Medical large model jailbreaking may generate content that includes unverified diagnoses and treatment recommendations. Always consult professional medical advice.
翻訳日:2024-06-09 16:28:54 公開日:2024-05-26
# アダプティブ・アクティベーション・ステアリング:多変量幻覚カテゴリーのチューニング自由LLM真性改善法

Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories ( http://arxiv.org/abs/2406.00034v1 )

ライセンス: Link先を確認
Tianlong Wang, Xianfeng Jiao, Yifan He, Zhongzhi Chen, Yinghao Zhu, Xu Chu, Junyi Gao, Yasha Wang, Liantao Ma, (参考訳) 近年の研究では、Large Language Models (LLMs) は真理性の本質的な理解を保ちつつも、完全表現に失敗し、虚偽の文を生成することが示されている。 この"知識"と"テリング"のギャップは、生成されたコンテンツの真実性を保証する上での課題となる。 そこで本研究では,適応的アクティベーションステアリング (ACT) を導入し,LLMのアクティベーションを推論中に「真正」な方向に適応的にシフトさせるチューニング不要な手法を提案する。 ACTは多様な操舵ベクトルを利用し、操舵強度を適応的に調整することで、幻覚の様々なカテゴリーに対処する。 さまざまなモデルのアドオンとして、ACTはLLaMA($142\%)、LLaMA2($24\%)、Alpaca($36\%)、Vicuna($28\%)、LLaMA2-Chat($19\%)の真正性を大幅に改善する。 さらに,大規模モデル (13B, 33B, 65B) におけるACTのスケーラビリティを検証する。

Recent studies have indicated that Large Language Models (LLMs) harbor an inherent understanding of truthfulness, yet often fail to express fully and generate false statements. This gap between "knowing" and "telling" poses a challenge for ensuring the truthfulness of generated content. To address this, we introduce Adaptive Activation Steering (ACT), a tuning-free method that adaptively shift LLM's activations in "truthful" direction during inference. ACT addresses diverse categories of hallucinations by utilizing diverse steering vectors and adjusting the steering intensity adaptively. Applied as an add-on across various models, ACT significantly improves truthfulness in LLaMA ($\uparrow$ 142\%), LLaMA2 ($\uparrow$ 24\%), Alpaca ($\uparrow$ 36\%), Vicuna ($\uparrow$ 28\%), and LLaMA2-Chat ($\uparrow$ 19\%). Furthermore, we verify ACT's scalability across larger models (13B, 33B, 65B), underscoring the adaptability of ACT to large-scale language models.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-26
# 画像セマンティックセグメンテーションにおける情報損失低減のためのエンコーダ・デコーダネットワークアーキテクチャ

An Enhanced Encoder-Decoder Network Architecture for Reducing Information Loss in Image Semantic Segmentation ( http://arxiv.org/abs/2406.01605v1 )

ライセンス: Link先を確認
Zijun Gao, Qi Wang, Taiyuan Mei, Xiaohan Cheng, Yun Zi, Haowei Yang, (参考訳) 従来のSegNetアーキテクチャはサンプリングプロセス中に大きな情報損失が発生し、画像セマンティックセグメンテーションタスクの精度に悪影響を及ぼす。 この課題に対処するために、残差接続により拡張された革新的なエンコーダ・デコーダネットワーク構造を導入する。 提案手法では,様々な画像スケールの複雑な詳細をより効率的に保存し,ダウンサンプリングの手順に固有の情報損失を最小限に抑えるために,マルチレジデント接続方式を採用している。 さらに、ネットワークトレーニングの収束率を高め、サンプルの不均衡問題を緩和するために、バランス係数を組み込んだ改良されたクロスエントロピー損失関数を考案した。 この修正により、正と負のサンプル間の分布が最適化され、モデルトレーニングの効率が向上する。 実験により,情報損失を大幅に低減し,セマンティックセグメンテーションの精度を向上した。 特に,提案したネットワークアーキテクチャは,従来のSegNetと比較して,データセット上でのmIoU(the finely annotated mean Intersection over Union)を大幅に改善したことを示す。 提案するネットワーク構造は、手動検査の必要性を減らし、運用コストを削減するだけでなく、さまざまな分野にわたるAI駆動画像解析の展開を拡大する。

The traditional SegNet architecture commonly encounters significant information loss during the sampling process, which detrimentally affects its accuracy in image semantic segmentation tasks. To counter this challenge, we introduce an innovative encoder-decoder network structure enhanced with residual connections. Our approach employs a multi-residual connection strategy designed to preserve the intricate details across various image scales more effectively, thus minimizing the information loss inherent to down-sampling procedures. Additionally, to enhance the convergence rate of network training and mitigate sample imbalance issues, we have devised a modified cross-entropy loss function incorporating a balancing factor. This modification optimizes the distribution between positive and negative samples, thus improving the efficiency of model training. Experimental evaluations of our model demonstrate a substantial reduction in information loss and improved accuracy in semantic segmentation. Notably, our proposed network architecture demonstrates a substantial improvement in the finely annotated mean Intersection over Union (mIoU) on the dataset compared to the conventional SegNet. The proposed network structure not only reduces operational costs by decreasing manual inspection needs but also scales up the deployment of AI-driven image analysis across different sectors.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-26
# SymTax:効果的な鎮静勧告のための共生関係と分類学融合

SymTax: Symbiotic Relationship and Taxonomy Fusion for Effective Citation Recommendation ( http://arxiv.org/abs/2406.01606v1 )

ライセンス: Link先を確認
Karan Goyal, Mayank Goel, Vikram Goyal, Mukesh Mohania, (参考訳) 関連する文献を引用することは、科学文書の執筆とレビューに欠かせない。 既存の技術は主に引用を推奨するローカルコンテキストやグローバルコンテキストに焦点を当てているが、実際の人間の引用行動を考慮できない。 ローカルとグローバルの両方の文脈を考慮した3段階のレコメンデーションアーキテクチャであるSymTaxを提案する。 SymTaxは、ハイパーボリック空間に注入された分類学を埋め込むことを学び、ハイパーボリック分離を潜在機能として使用してクエリ・候補類似性を計算する。 我々は827万の引用コンテキストを含む新規で大規模なデータセットArSyTaを構築し、作成プロセスの詳細を説明する。 フレームワークにおける各モジュールの有効性と設計選択を実証するために、広範な実験とアブレーション研究を行っている。 また,本実験の組合せ解析では,言語モデル (LM) と融合埋め込みの選択,および信号としてセクション方向を含めることに光を当てた。 共生関係を捉えるモジュールは,ACL-200データセット上のRecall@5 w.r.t. SOTAとRefSeerデータセットでそれぞれ26.66%,39.25%のパフォーマンス向上にのみ寄与する。 完全なフレームワークは、提案したデータセット上でRecall@5 wrt SOTAで22.56%向上します。 コードとデータセットはhttps://github.com/goyalkaraniit/SymTaxで公開されている。

Citing pertinent literature is pivotal to writing and reviewing a scientific document. Existing techniques mainly focus on the local context or the global context for recommending citations but fail to consider the actual human citation behaviour. We propose SymTax, a three-stage recommendation architecture that considers both the local and the global context, and additionally the taxonomical representations of query-candidate tuples and the Symbiosis prevailing amongst them. SymTax learns to embed the infused taxonomies in the hyperbolic space and uses hyperbolic separation as a latent feature to compute query-candidate similarity. We build a novel and large dataset ArSyTa containing 8.27 million citation contexts and describe the creation process in detail. We conduct extensive experiments and ablation studies to demonstrate the effectiveness and design choice of each module in our framework. Also, combinatorial analysis from our experiments shed light on the choice of language models (LMs) and fusion embedding, and the inclusion of section heading as a signal. Our proposed module that captures the symbiotic relationship solely leads to performance gains of 26.66% and 39.25% in Recall@5 w.r.t. SOTA on ACL-200 and RefSeer datasets, respectively. The complete framework yields a gain of 22.56% in Recall@5 wrt SOTA on our proposed dataset. The code and dataset are available at https://github.com/goyalkaraniit/SymTax
翻訳日:2024-06-09 15:49:54 公開日:2024-05-26
# フェア・MLにおける最先端技術:道徳哲学と法制化からフェア・クラシファイアへ

State of the Art in Fair ML: From Moral Philosophy and Legislation to Fair Classifiers ( http://arxiv.org/abs/1811.09539v2 )

ライセンス: Link先を確認
Elias Baumann, Josef Lorenz Rumberger, (参考訳) 例えば、クレジットを貸すといった多くの決定は、もはや人間ではなく、機械学習アルゴリズムによって作られています。 しかし、これらの決定はしばしば不公平であり、人種や性別に基づいて保護グループに属する個人を差別する。 近年のGDPR(General Data Protection Regulation)が施行されたことにより、このような問題に対して新たな認識が生まれ、コンピュータ科学者が人々の生活に大きな影響を与えているため、差別の発見と防止のために行動を取る必要がある。 この研究は、差別、それに対抗するための立法基盤、そして機械学習アルゴリズムがそのような行動を示さないよう検出および防止するための戦略について紹介することを目的としている。

Machine learning is becoming an ever present part in our lives as many decisions, e.g. to lend a credit, are no longer made by humans but by machine learning algorithms. However those decisions are often unfair and discriminating individuals belonging to protected groups based on race or gender. With the recent General Data Protection Regulation (GDPR) coming into effect, new awareness has been raised for such issues and with computer scientists having such a large impact on peoples lives it is necessary that actions are taken to discover and prevent discrimination. This work aims to give an introduction into discrimination, legislative foundations to counter it and strategies to detect and prevent machine learning algorithms from showing such behavior.
翻訳日:2024-06-01 00:29:19 公開日:2024-05-26
# 心電図セマンティックインテグレータ(ESI) : LLM強化心電図を用いた基礎心電図モデル

ECG Semantic Integrator (ESI): A Foundation ECG Model Pretrained with LLM-Enhanced Cardiological Text ( http://arxiv.org/abs/2405.19366v1 )

ライセンス: Link先を確認
Han Yu, Peikun Guo, Akane Sano, (参考訳) 心電図(ECG)解析における深層学習の利用により,心疾患診断の精度と効率が向上した。 本研究は,意味理解における深層学習,特に特徴抽出と表現学習の能力を活用することにより,12誘導ECG信号の学習表現の質と堅牢性の向上を目的とした,多モードのコントラスト保持フレームワークを提案する。 私たちのフレームワークは、Cardio Query Assistant(CQA)とECG Semantics Integrator(ESI)の2つの重要なコンポーネントで構成されています。 CQAは、検索拡張世代(RAG)パイプラインを統合して、大きな言語モデル(LLM)と外部医療知識を活用し、ECGの詳細なテキスト記述を生成する。 生成されたテキストには、人口統計や波形パターンに関する情報が豊富に含まれている。 ESIはコントラストとキャプションの両方の損失を統合し、拡張表現のためのECGエンコーダを事前訓練する。 我々は,不整脈検出や心電図に基づく被験者識別など,様々な下流課題を通じてアプローチを検証する。 実験結果は,これらのタスクにおいて,強いベースラインよりも大幅に改善されたことを示す。 これらのベースラインには、教師付きおよび自己教師付き学習方法と、事前のマルチモーダル事前学習アプローチが含まれる。

The utilization of deep learning on electrocardiogram (ECG) analysis has brought the advanced accuracy and efficiency of cardiac healthcare diagnostics. By leveraging the capabilities of deep learning in semantic understanding, especially in feature extraction and representation learning, this study introduces a new multimodal contrastive pretaining framework that aims to improve the quality and robustness of learned representations of 12-lead ECG signals. Our framework comprises two key components, including Cardio Query Assistant (CQA) and ECG Semantics Integrator(ESI). CQA integrates a retrieval-augmented generation (RAG) pipeline to leverage large language models (LLMs) and external medical knowledge to generate detailed textual descriptions of ECGs. The generated text is enriched with information about demographics and waveform patterns. ESI integrates both contrastive and captioning loss to pretrain ECG encoders for enhanced representations. We validate our approach through various downstream tasks, including arrhythmia detection and ECG-based subject identification. Our experimental results demonstrate substantial improvements over strong baselines in these tasks. These baselines encompass supervised and self-supervised learning methods, as well as prior multimodal pretraining approaches.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-26
# 医用画像分類のための転帰学習の再考

Rethinking Transfer Learning for Medical Image Classification ( http://arxiv.org/abs/2106.05152v8 )

ライセンス: Link先を確認
Le Peng, Hengyue Liang, Gaoxiang Luo, Taihui Li, Ju Sun, (参考訳) 事前訓練された深層モデルからの伝達学習(TL)は、現代の医用画像分類(MIC)における標準的実践である。 しかしながら、再利用すべき機能のレベルは問題に依存しており、事前訓練されたモデルのすべての層を均一に微調整することは、最適ではないかもしれない。 この知見は、TransFusion (TF) やLayer-wise Finetuning (LWFT) のような最近の微分TL戦略を部分的に動機付け、事前訓練されたモデルの層を微分的に扱う。 本稿では,TruncatedTLという,適切なボトム層を再利用・微調整し,残りの層を直接破棄する,新たな戦略をこのファミリーに追加する。 これにより、他の微分TL法と比較して、優れたMIC性能だけでなく、効率的な推論のためのコンパクトモデルが得られる。 私たちのコードは、https://github.com/sun-umn/TTLで利用可能です。

Transfer learning (TL) from pretrained deep models is a standard practice in modern medical image classification (MIC). However, what levels of features to be reused are problem-dependent, and uniformly finetuning all layers of pretrained models may be suboptimal. This insight has partly motivated the recent differential TL strategies, such as TransFusion (TF) and layer-wise finetuning (LWFT), which treat the layers in the pretrained models differentially. In this paper, we add one more strategy into this family, called TruncatedTL, which reuses and finetunes appropriate bottom layers and directly discards the remaining layers. This yields not only superior MIC performance but also compact models for efficient inference, compared to other differential TL methods. Our code is available at: https://github.com/sun-umn/TTL
翻訳日:2024-05-30 05:05:50 公開日:2024-05-26
# 2層ニューラルネットワークにおける臨界集合の幾何学とサドル分岐の存在

Geometry of Critical Sets and Existence of Saddle Branches for Two-layer Neural Networks ( http://arxiv.org/abs/2405.17501v1 )

ライセンス: Link先を確認
Leyang Zhang, Yaoyu Zhang, Tao Luo, (参考訳) 本稿では,2層ニューラルネットワークにおける臨界点集合の包括的解析を行う。 このような複雑な要素を研究するために,ツールとしてクリティカル埋め込み演算子とクリティカルリダクション演算子を導入する。 臨界点が与えられたとき、これらの演算子を使用して、同じ出力関数を表す下層の臨界集合全体を明らかにする。 さらに,より狭いネットワークで出力関数を表現できる臨界集合に対して,サドル分岐が存在することを証明した。 この結果は,ニューラルネットワークの最適化とトレーニング行動のさらなる研究の基盤となる。

This paper presents a comprehensive analysis of critical point sets in two-layer neural networks. To study such complex entities, we introduce the critical embedding operator and critical reduction operator as our tools. Given a critical point, we use these operators to uncover the whole underlying critical set representing the same output function, which exhibits a hierarchical structure. Furthermore, we prove existence of saddle branches for any critical set whose output function can be represented by a narrower network. Our results provide a solid foundation to the further study of optimization and training behavior of neural networks.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-26
# アルツハイマーの死亡率に対する栄養学的影響を探る - 説明可能なAIアプローチ

Exploring Nutritional Impact on Alzheimer's Mortality: An Explainable AI Approach ( http://arxiv.org/abs/2405.17502v1 )

ライセンス: Link先を確認
Ziming Liu, Longjian Liu, Robert E. Heidel, Xiaopeng Zhao, (参考訳) 本稿では、機械学習(ML)と説明可能な人工知能(XAI)技術を用いて、アルツハイマー病(AD)に関連する栄養状態と死亡率の関係について検討する。 The Third National Health and Nutrition Examination Survey (NHANES III)データベースが分析に使用されている。 XAI解析の基盤モデルとしてランダム森林モデルを選択し,特徴量評価にShapley Additive Explanations (SHAP)法を用いる。 その結果,血清ビタミンB12および糖化ヘモグロビンなどの栄養因子が明らかとなった。 本研究は、他の疾患と比較してAD死亡率を予測するために無作為林の有効性を示す。 本研究は, 栄養がADに与える影響についての知見を提供し, 疾患進行のより深い理解に寄与する。

This article uses machine learning (ML) and explainable artificial intelligence (XAI) techniques to investigate the relationship between nutritional status and mortality rates associated with Alzheimers disease (AD). The Third National Health and Nutrition Examination Survey (NHANES III) database is employed for analysis. The random forest model is selected as the base model for XAI analysis, and the Shapley Additive Explanations (SHAP) method is used to assess feature importance. The results highlight significant nutritional factors such as serum vitamin B12 and glycated hemoglobin. The study demonstrates the effectiveness of random forests in predicting AD mortality compared to other diseases. This research provides insights into the impact of nutrition on AD and contributes to a deeper understanding of disease progression.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# LLMによるコード修復が探索-探索トレードオフをもたらす

Code Repair with LLMs gives an Exploration-Exploitation Tradeoff ( http://arxiv.org/abs/2405.17503v1 )

ライセンス: Link先を確認
Hao Tang, Keya Hu, Jin Peng Zhou, Sicheng Zhong, Wei-Long Zheng, Xujie Si, Kevin Ellis, (参考訳) 大規模な言語モデル(LLM)でソースコードを反復的に改善し、修復することが、一ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として登場した。 テストケースの銀行が、候補プログラムと共に、LCMは、失敗したテストケースでトリガーすることで、そのプログラムを改善することができる。 しかし、これまでは単純な欲求や広義の戦略を駆使して、コードを反復的に洗練する方法については、未解決の疑問が残る。 ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。 我々はこれを、トンプソン・サンプリング(Thompson Sampling)によって解決される、アーム獲得バンディット問題(arm- Acquiring bandit problem)とみなす。 ループ不変合成, 視覚的推論パズル, 競合プログラミング問題などにより, より少ない言語モデル呼び出しで, より多くの問題を解くことができることがわかった。

Iteratively improving and repairing source code with large language models (LLMs), known as refinement, has emerged as a popular way of generating programs that would be too complex to construct in one shot. Given a bank of test cases, together with a candidate program, an LLM can improve that program by being prompted with failed test cases. But it remains an open question how to best iteratively refine code, with prior work employing simple greedy or breadth-first strategies. We show here that refinement exposes an explore-exploit tradeoff: exploit by refining the program that passes the most test cases, or explore by refining a lesser considered program. We frame this as an arm-acquiring bandit problem, which we solve with Thompson Sampling. The resulting LLM-based program synthesis algorithm is broadly applicable: Across loop invariant synthesis, visual reasoning puzzles, and competition programming problems, we find that our new method can solve more problems using fewer language model calls.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# 偏差背景における非相対論的量子粒子に対する外部場とポテンシャルの影響

Effects of external field and potential on non-relativistic quantum particles in disclinations background ( http://arxiv.org/abs/2405.17504v1 )

ライセンス: Link先を確認
Faizuddin Ahmed, Allan R. P. Moreira, (参考訳) 本研究では,非相対論的量子粒子の時空背景における挙動について検討する。 我々の研究は、ポテンシャル、磁気、量子流束場を含む様々な影響と相互作用するこれらの粒子を調べることである。 我々は、関連する波動方程式を解くために解析的手法を用いており、この量子系に対する固有値解の導出につながっている。 その後、これらの固有値解を利用して、いくつかの潜在的なモデルを精査する。 各モデルについて、対応する固有値解について徹底的に議論し、議論する。 本研究の延長として,非零温度条件に曝露した場合の量子系の熱力学的および磁気的性質を,$T \neq 0$で調べる。 本分析では,システムや関連する機能に対する分割関数などの重要なパラメータの計算を含む。 これらの計算の後,実験結果の精査と解釈を行い,温度変動の存在下でのシステムの挙動と特性に光を当てた。 さらに,システム内の粒子の位置を調べるために,エントロピー情報を計算する。

In this work, we investigate the behavior of non-relativistic quantum particles immersed in a cosmic string space-time background. Our study involves the examination of these particles as they interact with a range of influences, including potential, magnetic, and quantum flux fields. We employ analytical methods to solve the associated wave equation, leading to the derivation of eigenvalue solutions for this quantum system. Subsequently, we leverage these eigenvalue solutions to scrutinize several potential models. For each model, we present and engage in a thorough discussion of the corresponding eigenvalue solutions. In an extension of our investigation, we explore the thermodynamic and magnetic properties of the quantum system when it is exposed to non-zero temperature conditions, denoted by $T \neq 0$. Our analysis encompasses the calculation of essential parameters such as the partition function for the system and other pertinent functions. Following these calculations, we meticulously examine and interpret the outcomes, shedding light on the system's behavior and characteristics in the presence of temperature variations. Furthermore, we calculate entropic information to investigate the location of particles in the system.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# 機械学習手法と大規模言語モデルを用いた上海のレーン住宅のレンタル価格予測

Predicting Rental Price of Lane Houses in Shanghai with Machine Learning Methods and Large Language Models ( http://arxiv.org/abs/2405.17505v1 )

ライセンス: Link先を確認
Tingting Chen, Shijing Si, (参考訳) 上海を含む大都市に住む若者の間では、住宅が重要な関心事となっている。 このメトロポリスの不動産価格が前代未聞の急騰に乗じて、若者は住宅需要に対処するために賃貸市場を頼りにしている。 本研究では,複数線形回帰 (MLR), 隆起回帰 (RR), ラッソ回帰 (LR), 決定木 (DT), ランダム林 (RF), およびChatGPTを用いた大規模言語モデル (LLM) による上海のレーン住宅の賃貸価格の予測を行う。 この手法を用いて2021年に上海で約2,609レーンの住宅賃貸取引の公開データを調べ、その結果を比較した。 予測力の面では、RFは従来の手法の中で最高の性能を達成している。 しかし、LLMアプローチは、特に10ショットのシナリオでは、R-Squared値の点で従来の手法を超える有望な結果を示している。 平均二乗誤差(MSE)、平均絶対誤差(MAE)、R-Squaredの3つのパフォーマンス指標を用いてモデルを評価する。 我々の結論は、従来の機械学習モデルはレンタル価格予測のための堅牢な技術を提供するが、ChatGPTのようなLLMの統合は予測精度を高める重要な可能性を持っているということだ。

Housing has emerged as a crucial concern among young individuals residing in major cities, including Shanghai. Given the unprecedented surge in property prices in this metropolis, young people have increasingly resorted to the rental market to address their housing needs. This study utilizes five traditional machine learning methods: multiple linear regression (MLR), ridge regression (RR), lasso regression (LR), decision tree (DT), and random forest (RF), along with a Large Language Model (LLM) approach using ChatGPT, for predicting the rental prices of lane houses in Shanghai. It applies these methods to examine a public data sample of about 2,609 lane house rental transactions in 2021 in Shanghai, and then compares the results of these methods. In terms of predictive power, RF has achieved the best performance among the traditional methods. However, the LLM approach, particularly in the 10-shot scenario, shows promising results that surpass traditional methods in terms of R-Squared value. The three performance metrics: mean squared error (MSE), mean absolute error (MAE), and R-Squared, are used to evaluate the models. Our conclusion is that while traditional machine learning models offer robust techniques for rental price prediction, the integration of LLM such as ChatGPT holds significant potential for enhancing predictive accuracy.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# Subspace Node Pruning

Subspace Node Pruning ( http://arxiv.org/abs/2405.17506v1 )

ライセンス: Link先を確認
Joshua Offergeld, Marcel van Gerven, Nasir Ahmad, (参考訳) ディープニューラルネットワークモデルの商用利用が大幅に増加したことで、効率的なAIの必要性が高まっている。 ノードプルーニング(ノードプルーニング)とは、ニューロン、フィルタ、アテンションヘッド、さらには層全体の計算ユニットを除去し、ネットワーク性能を最大に保つ技術である。 これにより、ディープネットワークの推論時間が大幅に短縮され、効率が向上する。 プルーニング中にネットワークパラメータを再編成することで、パフォーマンスを回復する能力を利用した以前の研究はほとんどない。 本研究では,最大精度を回復しながらノードのプルーニングを可能にするユニットアクティベーションからサブスペースを作成することを提案する。 実効ノードプルーニングでは, 三角変換行列を用いて部分空間を作成でき, この手順を自動化したGram-Schmidt直交化と同値であることを示す。 サブスペース形成前にネットワークを再編成することで,この手法をさらに改良する。 最後に、直交部分空間を利用して、レイヤーワイド情報のかなりの量の保持に適した層ワイドプルーニング比を同定する。 本稿では,VGGネットワーク上での既存のプルーニング手法よりも優れた性能を示す。 さらに,残余ネットワークなど他のネットワークアーキテクチャにも拡張可能であることを示す。

A significant increase in the commercial use of deep neural network models increases the need for efficient AI. Node pruning is the art of removing computational units such as neurons, filters, attention heads, or even entire layers while keeping network performance at a maximum. This can significantly reduce the inference time of a deep network and thus enhance its efficiency. Few of the previous works have exploited the ability to recover performance by reorganizing network parameters while pruning. In this work, we propose to create a subspace from unit activations which enables node pruning while recovering maximum accuracy. We identify that for effective node pruning, a subspace can be created using a triangular transformation matrix, which we show to be equivalent to Gram-Schmidt orthogonalization, which automates this procedure. We further improve this method by reorganizing the network prior to subspace formation. Finally, we leverage the orthogonal subspaces to identify layer-wise pruning ratios appropriate to retain a significant amount of the layer-wise information. We show that this measure outperforms existing pruning methods on VGG networks. We further show that our method can be extended to other network architectures such as residual networks.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# テレコムデータによる持続可能な都市移動予測の実現:時空間的枠組みによるアプローチ

Enhancing Sustainable Urban Mobility Prediction with Telecom Data: A Spatio-Temporal Framework Approach ( http://arxiv.org/abs/2405.17507v1 )

ライセンス: Link先を確認
ChungYi Lin, Shen-Lung Tung, Hung-Ting Su, Winston H. Hsu, (参考訳) センサデータの範囲によって制限される従来の交通予測は、包括的な交通管理では不十分である。 モバイルネットワークは、ネットワークのアクティビティカウントを利用して、有望な代替手段を提供するが、これらには重要な方向性がない。 そこで,道路上での移動方向の流れを予測するために,無方向の通信数と対応する方向流を特徴とするTeltoMobデータセットを提案する。 そこで本研究では,2段階の時空間グラフニューラルネットワーク(STGNN)フレームワークを提案する。 第1ステージは、事前訓練されたSTGNNを使用して通信データを処理し、第2ステージは、方向および地理的洞察を統合して正確な予測を行う。 本実験では,様々なSTGNNモデルとの互換性を実証し,その有効性を確認した。 また, この枠組みを現実の交通システムに組み込むことによって, 持続可能な都市モビリティを向上する方法も示す。

Traditional traffic prediction, limited by the scope of sensor data, falls short in comprehensive traffic management. Mobile networks offer a promising alternative using network activity counts, but these lack crucial directionality. Thus, we present the TeltoMob dataset, featuring undirected telecom counts and corresponding directional flows, to predict directional mobility flows on roadways. To address this, we propose a two-stage spatio-temporal graph neural network (STGNN) framework. The first stage uses a pre-trained STGNN to process telecom data, while the second stage integrates directional and geographic insights for accurate prediction. Our experiments demonstrate the framework's compatibility with various STGNN models and confirm its effectiveness. We also show how to incorporate the framework into real-world transportation systems, enhancing sustainable urban mobility.
翻訳日:2024-05-29 23:50:45 公開日:2024-05-26
# 謎を解き明かす:マスキング戦略がいかに時系列のインプットを形作るか

Unveiling the Secrets: How Masking Strategies Shape Time Series Imputation ( http://arxiv.org/abs/2405.17508v1 )

ライセンス: Link先を確認
Linglong Qian, Zina Ibrahim, Wenjie Du, Yiyuan Yang, Richard JB Dobson, (参考訳) 本研究では,異なるマスキング戦略が時系列計算モデルに与える影響について検討する。 プリマスキングとミニバッチマスキングの効果,正規化タイミング,人工欠損の増大とオーバーレイの選択について検討した。 3つの多様なデータセットを使用して、欠落率の異なる11の計算モデルをベンチマークする。 以上の結果から,マスキング手法が計算精度に大きな影響を与え,より高度でデータ駆動型マスキング設計がロバストなモデル評価に不可欠であることが示唆された。 我々は,実世界のパターンをより良くシミュレートするための改良された実験設計と包括的公開を提唱し,計算モデルの実用性を高めた。

In this study, we explore the impact of different masking strategies on time series imputation models. We evaluate the effects of pre-masking versus in-mini-batch masking, normalization timing, and the choice between augmenting and overlaying artificial missingness. Using three diverse datasets, we benchmark eleven imputation models with different missing rates. Our results demonstrate that masking strategies significantly influence imputation accuracy, revealing that more sophisticated and data-driven masking designs are essential for robust model evaluation. We advocate for refined experimental designs and comprehensive disclosureto better simulate real-world patterns, enhancing the practical applicability of imputation models.
翻訳日:2024-05-29 23:50:44 公開日:2024-05-26
# 教師なし光流におけるコスト関数の展開

Cost Function Unrolling in Unsupervised Optical Flow ( http://arxiv.org/abs/2011.14814v3 )

ライセンス: Link先を確認
Gal Lifshitz, Dan Raviv, (参考訳) ディープラーニングで一般的に使用されるステプスト降下アルゴリズムは、勾配をアシスまたはプレコンディショニングを用いた方向シフトの後に、降下方向として使用する。 多くのシナリオにおいて、勾配を計算することは、特に特異点の隣の複素あるいは微分不可能なコスト関数のために数値的に困難である。 本研究では、教師なしコスト関数でよく使われるトータル変分半ノルムの導出に焦点を当てる。 具体的には、コストアンロールと呼ばれる新しい反復スキームにおいて、ハードL1スムーズネス制約に対する微分可能なプロキシを導出する。 トレーニング中により正確な勾配を導出することにより、アーキテクチャを変更したり計算複雑性を増大させたりすることなく、収束を改善することで、与えられたDNNモデルのより詳細な予測が可能になる。 教師なし光学フロータスクにおいて,本手法を実証する。 MPI Sintel と KITTI 2015 の無監督光フローベンチマークの結果を報告する。 特に, よりシャープな動きエッジの検出が可能となる閉塞画素では, EPEが最大15.82%削減されたことを報告した。

Steepest descent algorithms, which are commonly used in deep learning, use the gradient as the descent direction, either as-is or after a direction shift using preconditioning. In many scenarios calculating the gradient is numerically hard due to complex or non-differentiable cost functions, specifically next to singular points. In this work we focus on the derivation of the Total Variation semi-norm commonly used in unsupervised cost functions. Specifically, we derive a differentiable proxy to the hard L1 smoothness constraint in a novel iterative scheme which we refer to as Cost Unrolling. Producing more accurate gradients during training, our method enables finer predictions of a given DNN model through improved convergence, without modifying its architecture or increasing computational complexity. We demonstrate our method in the unsupervised optical flow task. Replacing the L1 smoothness constraint with our unrolled cost during the training of a well known baseline, we report improved results on both MPI Sintel and KITTI 2015 unsupervised optical flow benchmarks. Particularly, we report EPE reduced by up to 15.82% on occluded pixels, where the smoothness constraint is dominant, enabling the detection of much sharper motion edges.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-26
# ロバストニューラルネットワーク最適化のための乗算重み付け

Multiplicative Reweighting for Robust Neural Network Optimization ( http://arxiv.org/abs/2102.12192v4 )

ライセンス: Link先を確認
Noga Bar, Tomer Koren, Raja Giryes, (参考訳) ニューラルネットワークは、その強力な性能のために広く使われている。 しかし、トレーニング時にノイズのあるラベルが存在すると劣化する。 専門家のアドバイスによる学習の設定にインスパイアされ、近年の乗算重み(MW)更新は、専門家のアドバイスによる適度なデータ破損に対して堅牢であることが示され、ニューラルネットワーク最適化の例を再重み付けするためにMWの使用を提案する。 我々は,勾配勾配勾配を用いた場合の手法の収束を理論的に確立し,その利点を1dの場合で証明する。 CIFAR-10, CIFAR-100, Clothing1Mのラベルノイズの有無で, MWはニューラルネットワークの精度を向上することを示した。 また、我々のアプローチが敵の堅牢性に与える影響も示す。

Neural networks are widespread due to their powerful performance. However, they degrade in the presence of noisy labels at training time. Inspired by the setting of learning with expert advice, where multiplicative weight (MW) updates were recently shown to be robust to moderate data corruptions in expert advice, we propose to use MW for reweighting examples during neural networks optimization. We theoretically establish the convergence of our method when used with gradient descent and prove its advantages in 1d cases. We then validate our findings empirically for the general case by showing that MW improves the accuracy of neural networks in the presence of label noise on CIFAR-10, CIFAR-100 and Clothing1M. We also show the impact of our approach on adversarial robustness.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-26
# 長編:因果学習におけるオオミテッド可変バイアス

Long Story Short: Omitted Variable Bias in Causal Machine Learning ( http://arxiv.org/abs/2112.13398v5 )

ライセンス: Link先を確認
Victor Chernozhukov, Carlos Cinelli, Whitney Newey, Amit Sharma, Vasilis Syrgkanis, (参考訳) 我々は、潜在的な結果の平均、平均的な治療効果、平均的な因果微分、共変量シフトによる政策効果など、幅広い共通因果パラメータに対する省略変数バイアスの一般的な理論を開発する。 我々の理論は非パラメトリックモデルに適用されるが、そのような仮定が成立すると(部分線型性のような)半パラメトリックな制限が自然に許される。 省略変数の最大説明力に対する簡易な可視性判定は, 偏差の大きさを束縛するのに十分であり, それ以外の複雑な非線形モデルでは感度解析が容易であることを示す。 最後に,最新の機械学習アルゴリズムを応用して推定を行う,フレキシブルで効率的な統計的推論手法を提案する。 これらの結果により、経験的研究者は、非常に単純で解釈可能なツールを使用して、機械学習型因果モデルの柔軟なクラスで感度分析を行うことができる。 2つの実証的な例で,本手法の有効性を実証する。

We develop a general theory of omitted variable bias for a wide range of common causal parameters, including (but not limited to) averages of potential outcomes, average treatment effects, average causal derivatives, and policy effects from covariate shifts. Our theory applies to nonparametric models, while naturally allowing for (semi-)parametric restrictions (such as partial linearity) when such assumptions are made. We show how simple plausibility judgments on the maximum explanatory power of omitted variables are sufficient to bound the magnitude of the bias, thus facilitating sensitivity analysis in otherwise complex, nonlinear models. Finally, we provide flexible and efficient statistical inference methods for the bounds, which can leverage modern machine learning algorithms for estimation. These results allow empirical researchers to perform sensitivity analyses in a flexible class of machine-learned causal models using very simple, and interpretable, tools. We demonstrate the utility of our approach with two empirical examples.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-26
# 可変化を考慮したCMDPのポリシーに基づくプリマルダイアル法

Policy-based Primal-Dual Methods for Concave CMDP with Variance Reduction ( http://arxiv.org/abs/2205.10715v4 )

ライセンス: Link先を確認
Donghao Ying, Mengzi Amy Guo, Hyunin Lee, Yuhao Ding, Javad Lavaei, Zuo-Jun Max Shen, (参考訳) 本研究では,コンケーブ制約付きマルコフ決定過程(Concave CMDP)について検討する。 本稿では, 基本変数をポリシー勾配の上昇により更新し, 2変数を予測下次降下により更新する可変生成プライマル・デュアルポリシーグラディエントアルゴリズム(VR-PDPG)を提案する。 付加性構造が失われることや問題の性質が失われることによって生じる課題にもかかわらず,我々は,隠された凹凸の形式を利用して,VR-PDPGのグローバル収束を確立する。 正確な設定では、平均最適性ギャップと制約違反の両方に対して$O(T^{-1/3})$収束率を証明し、さらに占有度測定における目的の強い凹凸の下で$O(T^{-1/2})$に改善する。 サンプルベース設定では、VR-PDPGが$\epsilon$-globalOptimityに対して$\widetilde{O}(\epsilon^{-4})$サンプル複雑性を達成することを示した。 さらに,制約に悲観的項を組み込むことにより,最適性ギャップの収束率を損なうことなく,VR-PDPGがゼロ制約違反を達成できることを示す。 最後に,本手法の有効性を数値実験により検証した。

We study Concave Constrained Markov Decision Processes (Concave CMDPs) where both the objective and constraints are defined as concave functions of the state-action occupancy measure. We propose the Variance-Reduced Primal-Dual Policy Gradient Algorithm (VR-PDPG), which updates the primal variable via policy gradient ascent and the dual variable via projected sub-gradient descent. Despite the challenges posed by the loss of additivity structure and the nonconcave nature of the problem, we establish the global convergence of VR-PDPG by exploiting a form of hidden concavity. In the exact setting, we prove an $O(T^{-1/3})$ convergence rate for both the average optimality gap and constraint violation, which further improves to $O(T^{-1/2})$ under strong concavity of the objective in the occupancy measure. In the sample-based setting, we demonstrate that VR-PDPG achieves an $\widetilde{O}(\epsilon^{-4})$ sample complexity for $\epsilon$-global optimality. Moreover, by incorporating a diminishing pessimistic term into the constraint, we show that VR-PDPG can attain a zero constraint violation without compromising the convergence rate of the optimality gap. Finally, we validate the effectiveness of our methods through numerical experiments.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-26
# シャッフルで失う: 誤りのあるネットワーク頂点ラベルの存在下でのテストパワー

Lost in the Shuffle: Testing Power in the Presence of Errorful Network Vertex Labels ( http://arxiv.org/abs/2208.08638v5 )

ライセンス: Link先を確認
Ayushi Saxena, Vince Lyzinski, (参考訳) 2サンプルネットワーク仮説テストは、医学、神経科学、社会学といった様々な分野に適用するための重要な推論タスクである。 これらのテスト手法の多くは、ネットワーク間の頂点対応が既知であるという暗黙の仮定の下で機能する。 この仮定はしばしば正しくないが、その後のテストのパワーは、ネットワーク全体に不整合/ラベルシャッフルの頂点が存在する場合に低下する。 このシャッフルによるパワー損失は、推定エッジ確率行列と隣接行列の間のFrobeniusノルム差に基づく一対の仮説テストのためのランダムドット積と確率ブロックモデルネットワークの文脈で理論的に検討されている。 テストパワーの損失は確率ブロックモデルとランダムドット積グラフモデルの両方において多くのシミュレーションや実験によってさらに強化され、最近提案された複数のテストにまたがるパワー損失が文献で考慮されている。 最後に、シャッフルが実データテストにもたらす影響は、神経科学とソーシャルネットワーク分析の2つの例で示される。

Two-sample network hypothesis testing is an important inference task with applications across diverse fields such as medicine, neuroscience, and sociology. Many of these testing methodologies operate under the implicit assumption that the vertex correspondence across networks is a priori known. This assumption is often untrue, and the power of the subsequent test can degrade when there are misaligned/label-shuffled vertices across networks. This power loss due to shuffling is theoretically explored in the context of random dot product and stochastic block model networks for a pair of hypothesis tests based on Frobenius norm differences between estimated edge probability matrices or between adjacency matrices. The loss in testing power is further reinforced by numerous simulations and experiments, both in the stochastic block model and in the random dot product graph model, where the power loss across multiple recently proposed tests in the literature is considered. Lastly, the impact that shuffling can have in real-data testing is demonstrated in a pair of examples from neuroscience and from social network analysis.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-26
# VISTANet:対話型マルチモーダル感情認識のための視覚音声テキスト付加ネット

VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition ( http://arxiv.org/abs/2208.11450v3 )

ライセンス: Link先を確認
Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li, (参考訳) 本稿では、画像、音声、テキストを含む入力によって反映された感情を個別のクラスに分類するマルチモーダル感情認識システム、VISTANetを提案する。 K-Average Additive exPlanation (KAAP) と呼ばれる新しい解釈可能性技術が開発され、重要な視覚的、音声的、テキスト的特徴を識別し、特定の感情クラスを予測する。 VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。 重み付き平均を計算しながら、中間出力の重みを自動的に調整する。 KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。 個別の感情クラスをラベル付けしたマルチモーダル感情データセットの欠如を軽減するため,画像,対応する音声,テキスト,感情ラベル(「アンジェリー」,「ハッピー」,「ヘイト」,「サド」)からなる大規模IIT-R MMEmoRecデータセットを構築した。 VISTANetは、IIT-R MMEmoRecデータセット上で、視覚、音声、テキストのモダリティを使用して、95.99%の感情認識精度を達成し、1つまたは2つのモダリティを使用する場合よりも優れていた。 IIT-R MMEmoRecデータセットはhttps://github.com/MIntelligence-Group/MMEmoRecでアクセスできる。

This paper proposes a multimodal emotion recognition system, VIsual Spoken Textual Additive Net (VISTANet), to classify emotions reflected by input containing image, speech, and text into discrete classes. A new interpretability technique, K-Average Additive exPlanation (KAAP), has been developed that identifies important visual, spoken, and textual features leading to predicting a particular emotion class. The VISTANet fuses information from image, speech, and text modalities using a hybrid of early and late fusion. It automatically adjusts the weights of their intermediate outputs while computing the weighted average. The KAAP technique computes the contribution of each modality and corresponding features toward predicting a particular emotion class. To mitigate the insufficiency of multimodal emotion datasets labeled with discrete emotion classes, we have constructed a large-scale IIT-R MMEmoRec dataset consisting of images, corresponding speech and text, and emotion labels ('angry,' 'happy,' 'hate,' and 'sad'). The VISTANet has resulted in 95.99% emotion recognition accuracy on the IIT-R MMEmoRec dataset using visual, audio, and textual modalities, outperforming when using any one or two modalities. The IIT-R MMEmoRec dataset can be accessed at https://github.com/MIntelligence-Group/MMEmoRec.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-26
# ZigZag: 2段階推論による万能サンプリング不要不確実性推定

ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference ( http://arxiv.org/abs/2211.11435v3 )

ライセンス: Link先を確認
Nikita Durasov, Nik Dorndorf, Hieu Le, Pascal Fua, (参考訳) 深層ネットワークが有用な予測を生成する能力は十分に実証されているが、これらの予測の信頼性を推定することは依然として困難である。 MC-DropoutやDeep Ensemblesのようなサンプリングアプローチがこの目的のために最も人気のあるアプローチとして登場した。 残念ながら、推論時に多くのフォワードパスが必要になるため、速度が低下する。 サンプリング不要なアプローチは高速だが、不確実性推定の信頼性の低下、使用の難しさ、さまざまなタスクやデータに対する適用性の制限など、他の欠点に悩まされる可能性がある。 本研究では,従来の手法と同等に信頼性の高い不確実性推定を計算コストを著しく低減しつつ,汎用的で展開が容易なサンプリングフリーな手法を提案する。 ネットワークをトレーニングして、それに関する追加情報なしで同じアウトプットを生成することを前提としている。 推論時には、事前情報が得られない場合、ネットワーク自身の予測を付加情報として使用する。 そして、予測と事前情報の有無の間の距離を不確実性尺度として捉えます。 いくつかの分類タスクと回帰タスクに対して,本手法を実証する。 結果がEnsemblesと同等だが,計算コストがはるかに低いことを示す。

Whereas the ability of deep networks to produce useful predictions has been amply demonstrated, estimating the reliability of these predictions remains challenging. Sampling approaches such as MC-Dropout and Deep Ensembles have emerged as the most popular ones for this purpose. Unfortunately, they require many forward passes at inference time, which slows them down. Sampling-free approaches can be faster but suffer from other drawbacks, such as lower reliability of uncertainty estimates, difficulty of use, and limited applicability to different types of tasks and data. In this work, we introduce a sampling-free approach that is generic and easy to deploy, while producing reliable uncertainty estimates on par with state-of-the-art methods at a significantly lower computational cost. It is predicated on training the network to produce the same output with and without additional information about it. At inference time, when no prior information is given, we use the network's own prediction as the additional information. We then take the distance between the predictions with and without prior information as our uncertainty measure. We demonstrate our approach on several classification and regression tasks. We show that it delivers results on par with those of Ensembles but at a much lower computational cost.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-26
# SGDにおけるパラメータ平均化はなぜ有益か? : 客観的スムースティングの視点から

Why is parameter averaging beneficial in SGD? An objective smoothing perspective ( http://arxiv.org/abs/2302.09376v2 )

ライセンス: Link先を確認
Atsushi Nitanda, Ryuhei Kikuchi, Shugo Maeda, Denny Wu, (参考訳) 確率勾配降下(SGD)とその変種は、良い一般化性能を持つ解を暗黙的に選択することがしばしば観察され、そのような暗黙バイアスは、ミニマの鋭さの点でしばしば特徴づけられる。 Kleinberg et al (2018) はこのバイアスと SGD の滑らかな効果を結びつけ、確率勾配雑音を用いた畳み込みによる急激な局所最小値の除去を行った。 我々は、Izmailov et al (2018)で実証的に観察されている一般的な平均SGDアルゴリズムを、平坦な最小値を好むために研究し、その結果、より良い一般化を実現する。 本研究では, ある問題設定において, 局所最小値の急激な最小化を回避するために, 平均値SGDを効率よく最適化できることを証明した。 実験では,本理論を検証し,適切なステップサイズでのパラメータ平均化がSGDの性能を著しく向上させることを示す。

It is often observed that stochastic gradient descent (SGD) and its variants implicitly select a solution with good generalization performance; such implicit bias is often characterized in terms of the sharpness of the minima. Kleinberg et al. (2018) connected this bias with the smoothing effect of SGD which eliminates sharp local minima by the convolution using the stochastic gradient noise. We follow this line of research and study the commonly-used averaged SGD algorithm, which has been empirically observed in Izmailov et al. (2018) to prefer a flat minimum and therefore achieves better generalization. We prove that in certain problem settings, averaged SGD can efficiently optimize the smoothed objective which avoids sharp local minima. In experiments, we verify our theory and show that parameter averaging with an appropriate step size indeed leads to significant improvement in the performance of SGD.
翻訳日:2024-05-29 12:47:48 公開日:2024-05-26
# データ拡張による連続時間動的グラフネットワークの長期予測性能の向上

Boosting long-term forecasting performance for continuous-time dynamic graph networks via data augmentation ( http://arxiv.org/abs/2304.05749v2 )

ライセンス: Link先を確認
Yuxing Tian, Mingjie Zhu, Jiachi Luo, Song Li, (参考訳) 本研究では,実世界のモデリングにおいて重要な連続時間動的グラフネットワーク(CTDGN)の長期予測(LTF)に焦点を当てた。 既存のCTDGNは、複雑な時間的依存を捕捉できるため、時間的グラフデータのモデリングに有効であるが、ほとんどのケースでは実用的ではない歴史的データに対してかなりの要求があるため、LTF上では不十分である。 この問題を解消するため、最も直感的な方法はデータ拡張である。 本研究では,CTDGNの中間層への埋め込みに不確実性を導入するために不確実性を推定するプラグイン・アンド・プレイ・モジュールを提案する。 UmmUはパラメータの数を増やすことなく任意のCTDGNに簡単に挿入できる。 実世界の3つの動的グラフデータセットの総合的な実験を行い、UmmUがCTDGNの長期予測性能を効果的に向上できることを実証した。

This study focuses on long-term forecasting (LTF) on continuous-time dynamic graph networks (CTDGNs), which is important for real-world modeling. Existing CTDGNs are effective for modeling temporal graph data due to their ability to capture complex temporal dependencies but perform poorly on LTF due to the substantial requirement for historical data, which is not practical in most cases. To relieve this problem, a most intuitive way is data augmentation. In this study, we propose \textbf{\underline{U}ncertainty \underline{M}asked \underline{M}ix\underline{U}p (UmmU)}: a plug-and-play module that conducts uncertainty estimation to introduce uncertainty into the embedding of intermediate layer of CTDGNs, and perform masked mixup to further enhance the uncertainty of the embedding to make it generalize to more situations. UmmU can be easily inserted into arbitrary CTDGNs without increasing the number of parameters. We conduct comprehensive experiments on three real-world dynamic graph datasets, the results demonstrate that UmmU can effectively improve the long-term forecasting performance for CTDGNs.
翻訳日:2024-05-29 12:38:03 公開日:2024-05-26
# ファウドネーションモデル時代の責任と安全AIに向けて:基礎モデルに基づくシステム設計のための参照アーキテクチャ

Towards Responsible and Safe AI in the Era of Foudnation Models: A Reference Architecture for Designing Foundation Model based Systems ( http://arxiv.org/abs/2304.11090v4 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle, (参考訳) ChatGPT、Gemini、その他の大規模言語モデルのリリースは、基礎モデルに大きな関心を集めている。 ファンデーションモデルが将来のAIシステムの基本的なビルディングブロックになる、という広いコンセンサスがある。 しかし、アーキテクチャ設計に関する体系的なガイダンスが不足している。 特に、ファンデーションモデルの急速な機能向上は、最終的にはAIシステムの他のコンポーネントを吸収し、アーキテクチャ設計における境界の移動とインターフェースの進化の課題を提起する。 さらに、基礎モデルをAIシステムに組み込むことは、不透明な性質と急速に進歩するインテリジェンスのために、責任と安全性に関する重要な懸念を提起する。 これらの課題に対処するため,本論文では,基礎モデル時代におけるAIシステムのアーキテクチャ進化について,"境界モデル・アズ・ア・コネクタ"から"境界モデル・ア・ア・モノリシックアーキテクチャ"へ移行した。 そこで本論文では,設計上の重要な決定事項を特定し,基礎モデルに基づくシステム設計のためのパターン指向参照アーキテクチャを提案する。 このパターンは、関連するリスクを確保しながら、ファンデーションモデルの可能性を可能にする。

The release of ChatGPT, Gemini, and other large language model has drawn huge interests on foundations models. There is a broad consensus that foundations models will be the fundamental building blocks for future AI systems. However, there is a lack of systematic guidance on the architecture design. Particularly, the the rapidly growing capabilities of foundations models can eventually absorb other components of AI systems, posing challenges of moving boundary and interface evolution in architecture design. Furthermore, incorporating foundations models into AI systems raises significant concerns about responsible and safe AI due to their opaque nature and rapidly advancing intelligence. To address these challenges, the paper first presents an architecture evolution of AI systems in the era of foundation models, transitioning from "foundation-model-as-a-connector" to "foundation-model-as-a-monolithic architecture". The paper then identifies key design decisions and proposes a pattern-oriented reference architecture for designing responsible foundation-model-based systems. The patterns can enable the potential of foundation models while ensuring associated risks.
翻訳日:2024-05-29 12:38:03 公開日:2024-05-26
# 連続的マルチモーダル知識グラフ構築

Continual Multimodal Knowledge Graph Construction ( http://arxiv.org/abs/2305.08698v3 )

ライセンス: Link先を確認
Xiang Chen, Jintian Zhang, Xiaohan Wang, Ningyu Zhang, Tongtong Wu, Yuxiang Wang, Yongheng Wang, Huajun Chen, (参考訳) 現在のマルチモーダル知識グラフ構築(MKGC)モデルは、絶えず出現する実体と関係の現実的なダイナミズムに苦しむ。 本研究では,連続的なMKGCドメインの開発を促進するためのベンチマークを紹介する。 マルチメディアデータ処理における既存のMKGCアプローチの欠点を克服するMSPTフレームワークについても紹介する。 MSPTは、学習知識(安定性)の保持と、新しいデータ(塑性)の統合を調和させ、現在の継続的な学習とマルチモーダルな手法より優れている。 以上の結果から,MSPTは知識環境の発達において優れた性能を示し,安定性と可塑性のバランスをとる能力を示した。

Current Multimodal Knowledge Graph Construction (MKGC) models struggle with the real-world dynamism of continuously emerging entities and relations, often succumbing to catastrophic forgetting-loss of previously acquired knowledge. This study introduces benchmarks aimed at fostering the development of the continual MKGC domain. We further introduce MSPT framework, designed to surmount the shortcomings of existing MKGC approaches during multimedia data processing. MSPT harmonizes the retention of learned knowledge (stability) and the integration of new data (plasticity), outperforming current continual learning and multimodal methods. Our results confirm MSPT's superior performance in evolving knowledge environments, showcasing its capacity to navigate balance between stability and plasticity.
翻訳日:2024-05-29 12:38:03 公開日:2024-05-26
# LaCon: ステアブルガイド画像合成のための遅延拘束拡散

LaCon: Late-Constraint Diffusion for Steerable Guided Image Synthesis ( http://arxiv.org/abs/2305.11520v6 )

ライセンス: Link先を確認
Chang Liu, Rui Li, Kaidong Zhang, Xin Luo, Dong Liu, (参考訳) 拡散モデルは、フォトリアリスティックでクリエイティブな画像を生成する際、印象的な能力を示している。 生成過程の制御性を高めるため,本論文では早期制約法として,余剰条件を活用し,事前学習した拡散モデルに組み込む既存研究について述べる。 特に、条件を別々に扱うために条件固有のモジュールを採用するものもあり、他の条件をまたいだ一般化に苦慮している。 後続の研究では一般化問題を解くために統一された解が提示されているが、追加の入力やパラメータ最適化といった追加の資源も必要であり、より柔軟で効率的な解がステアブルなガイド付き画像合成を実行することが期待されている。 本稿では,LaCon(Lat-Constraint Diffusion)という代替パラダイムを提案し,様々な条件を事前学習拡散モデルに統合する。 具体的には、LaConは拡散モデルの外部条件と内部特性のアライメントを確立し、そのアライメントを利用してターゲット条件を組み込み、サンプリングプロセスを誘導し、調整された結果を生成する。 COCOデータセットの実験結果は、様々な条件と条件下でのLaConの有効性と優れた一般化能力を示している。 アブレーション研究は、LaConにおける様々な成分の機能について研究し、拡散モデルに柔軟な制御性を提供するための効率的な解決策として機能する大きな可能性を示している。

Diffusion models have demonstrated impressive abilities in generating photo-realistic and creative images. To offer more controllability for the generation process, existing studies, termed as early-constraint methods in this paper, leverage extra conditions and incorporate them into pre-trained diffusion models. Particularly, some of them adopt condition-specific modules to handle conditions separately, where they struggle to generalize across other conditions. Although follow-up studies present unified solutions to solve the generalization problem, they also require extra resources to implement, e.g., additional inputs or parameter optimization, where more flexible and efficient solutions are expected to perform steerable guided image synthesis. In this paper, we present an alternative paradigm, namely Late-Constraint Diffusion (LaCon), to simultaneously integrate various conditions into pre-trained diffusion models. Specifically, LaCon establishes an alignment between the external condition and the internal features of diffusion models, and utilizes the alignment to incorporate the target condition, guiding the sampling process to produce tailored results. Experimental results on COCO dataset illustrate the effectiveness and superior generalization capability of LaCon under various conditions and settings. Ablation studies investigate the functionalities of different components in LaCon, and illustrate its great potential to serve as an efficient solution to offer flexible controllability for diffusion models.
翻訳日:2024-05-29 12:38:03 公開日:2024-05-26
# MixCE: フォワードとリバースエントロピーの混合による自己回帰型言語モデルのトレーニング

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies ( http://arxiv.org/abs/2305.16958v2 )

ライセンス: Link先を確認
Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg, (参考訳) 自己回帰言語モデルは、データ分布Pに対するモデル分布Qのクロスエントロピーを最小化し、すなわち最大推定値(MLE)に相当するフォワードクロスエントロピーを最小化する。 我々は、この方法で訓練されたモデルは、非人間的なテキストを生成するという意味で「過度に一般化する」可能性があることを見てきた。 さらに、逆のクロスエントロピー、すなわちQに対するPのクロスエントロピーは、人間がモデルによって生成されたテキストをどのように評価するかをよりよく反映していると信じている。 そこで我々は,前と逆のクロスエントロピーを混合する目的であるMixCEを用いた学習を提案する。 我々は、合成データ設定(Pが知られている)と実データに基づいて、この目的で訓練されたモデルを評価し、複雑な復号戦略を伴わずに、より優れた生成テキストを生成することを示す。 私たちのコードとモデルはhttps://github.com/bloomberg/mixce-acl2023で公開されています。

Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may "over-generalize", in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023
翻訳日:2024-05-29 12:28:18 公開日:2024-05-26
# 非有界な状態空間におけるオンライン強化学習の安定化のための学習

Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces ( http://arxiv.org/abs/2306.01896v3 )

ライセンス: Link先を確認
Brahma S. Pavse, Matthew Zurek, Yudong Chen, Qiaomin Xie, Josiah P. Hanna, (参考訳) 多くの強化学習(RL)アプリケーションでは、所望の状態に到達し、制御されたシステムを所望の状態の周囲の許容範囲内に一定期間保持する政策が望まれる。 この後者の目的は安定性と呼ばれ、状態空間が非有界であるときに特に重要である。 例えば、待ちジョブのキューがバウンドなしで成長可能な確率的キューネットワークでは、望ましい状態は全ゼロのキュー長である。 ここでは、安定したポリシはキュー長が有限であることを保証する一方で、最適なポリシはキュー長を最小化する。 最適ポリシーも安定しているので、RLアルゴリズムが暗黙的に安定ポリシーを与えると期待する。 しかし、本研究では、オンライントレーニング中に、望まれる状態との距離を直接最小化する深いRLアルゴリズムが、しばしば不安定なポリシー、すなわち、望まれる状態から遠ざかるポリシーをもたらすことを発見した。 我々は、この不安定さを、不安定化行動に対する信用割り当ての低さによるものとみなす。 次に、2つのアイデアに基づいたアプローチを紹介します。 1)リャプノフを基盤としたコスト形成技術及び方法 2)非有界状態空間への状態変換。 様々な待ち行列ネットワークや交通信号制御問題に関する実証的研究を行い、遷移力学の知識を生かした強力なベースラインに対して,本手法が競争力を発揮することを発見した。 私たちのコードは、https://github.com/Badger-RL/STOP.comで利用可能です。

In many reinforcement learning (RL) applications, we want policies that reach desired states and then keep the controlled system within an acceptable region around the desired states over an indefinite period of time. This latter objective is called stability and is especially important when the state space is unbounded, such that the states can be arbitrarily far from each other and the agent can drift far away from the desired states. For example, in stochastic queuing networks, where queues of waiting jobs can grow without bound, the desired state is all-zero queue lengths. Here, a stable policy ensures queue lengths are finite while an optimal policy minimizes queue lengths. Since an optimal policy is also stable, one would expect that RL algorithms would implicitly give us stable policies. However, in this work, we find that deep RL algorithms that directly minimize the distance to the desired state during online training often result in unstable policies, i.e., policies that drift far away from the desired state. We attribute this instability to poor credit-assignment for destabilizing actions. We then introduce an approach based on two ideas: 1) a Lyapunov-based cost-shaping technique and 2) state transformations to the unbounded state space. We conduct an empirical study on various queueing networks and traffic signal control problems and find that our approach performs competitively against strong baselines with knowledge of the transition dynamics. Our code is available here: https://github.com/Badger-RL/STOP.
翻訳日:2024-05-29 12:28:18 公開日:2024-05-26
# STG-MTL:データマップを用いたマルチタスク学習のためのスケーラブルタスクグループ化

STG-MTL: Scalable Task Grouping for Multi-Task Learning Using Data Map ( http://arxiv.org/abs/2307.03374v2 )

ライセンス: Link先を確認
Ammar Sherif, Abubakar Abid, Mustafa Elattar, Mohamed ElHelw, (参考訳) MTL(Multi-Task Learning)は、従来のSTL(Single-Task Learning)よりもパフォーマンスが向上し、人気を博した強力な技術である。 しかし、MTLには指数関数的な数のタスクグループ化が存在するため、いくつかのグループ化がタスク間の負の干渉によって性能劣化を引き起こす可能性があるため、最適なグループ化を選択するのが難しくなるため、しばしば困難である。 そのため、既存のソリューションはスケーラビリティの問題に悩まされており、実用的なアプリケーションに制限があります。 本稿では、これらの課題に対処する新しいデータ駆動手法を提案し、MTLトレーニング中の各分類タスクのトレーニングダイナミクスをキャプチャする、再提案されたデータ駆動機能に基づく分類タスクグループ化のためのスケーラブルでモジュール化されたソリューションであるData Mapsを提案する。 他の手法と理論的に比較することで、我々のアプローチが優れたスケーラビリティを持っていることを示すことができる。 CIFAR100では,前例のないタスク(最大100タスク)でも,優れた性能を示し,その有効性を検証した。 このようなタスクに最初に取り組み、結果のグルーピングの比較は、データセットであるCIFAR100と類似したグループ化を示している。 最後に、複数のデータセットやタスクの例を使って、統合とテストを簡単にするためのモジュール化された実装を提供します。

Multi-Task Learning (MTL) is a powerful technique that has gained popularity due to its performance improvement over traditional Single-Task Learning (STL). However, MTL is often challenging because there is an exponential number of possible task groupings, which can make it difficult to choose the best one because some groupings might produce performance degradation due to negative interference between tasks. That is why existing solutions are severely suffering from scalability issues, limiting any practical application. In our paper, we propose a new data-driven method that addresses these challenges and provides a scalable and modular solution for classification task grouping based on a re-proposed data-driven features, Data Maps, which capture the training dynamics for each classification task during the MTL training. Through a theoretical comparison with other techniques, we manage to show that our approach has the superior scalability. Our experiments show a better performance and verify the method's effectiveness, even on an unprecedented number of tasks (up to 100 tasks on CIFAR100). Being the first to work on such number of tasks, our comparisons on the resulting grouping shows similar grouping to the mentioned in the dataset, CIFAR100. Finally, we provide a modular implementation for easier integration and testing, with examples from multiple datasets and tasks.
翻訳日:2024-05-29 12:18:33 公開日:2024-05-26
# 工学設計知識を用いた検索拡張生成

Retrieval Augmented Generation using Engineering Design Knowledge ( http://arxiv.org/abs/2307.06985v8 )

ライセンス: Link先を確認
L. Siddharth, Jianxi Luo, (参考訳) 大規模言語モデル(LLM)は、設計プロセスにおける知識ベースのアプリケーションに適した事実応答を生成するために、RAG(Retrieval-Augmented Generation)を採用する必要がある。 本稿では,その形態の明示的な事実を識別するデータ駆動手法を提案する。 我々は、44,227文の独自のデータセットを用いて、RoBERTa Transformerベースのシーケンス分類モデルを訓練する。 文中のトークンをエンティティまたはリレーションシップとして分類すると、そのメソッドは、与えられたエンティティのペアの特定のリレーショントークンを識別するために、別の分類器を使用する。 BERT変換器をベースとしたトークン埋め込みを組み込んだ線形分類器とグラフニューラルネットワーク(GNN)の性能を比較し,実体と関係の関連性を予測する。 提案手法をファンシステム関連特許4,870件に適用し,約300万件のファクトを構成する知識ベースを蓄積する。 知識ベースを用いて,LLMのコンテキスト化のための一般知識と特定ドメイン知識の検索を実演する。

Large-language Models (LLMs) need to adopt Retrieval-Augmented Generation (RAG) to generate factual responses that are better suited to knowledge-based applications in the design process. We present a data-driven method to identify explicit facts of the form - head entity :: relationship :: tail entity from patented artefact descriptions. We train roBERTa Transformer-based sequence classification models using our proprietary dataset of 44,227 sentences. Upon classifying tokens in a sentence as entities or relationships, our method uses another classifier to identify specific relationship tokens for a given pair of entities. We compare the performances against linear classifiers and Graph Neural Networks (GNNs) that both incorporate BERT Transformer-based token embeddings to predict associations among the entities and relationships. We apply our method to 4,870 fan system related patents and populate a knowledge base that constitutes around 3 million facts. Using the knowledge base, we demonstrate retrieving generalisable and specific domain knowledge for contextualising LLMs.
翻訳日:2024-05-29 12:18:33 公開日:2024-05-26
# 異常結合をもつ$H\to ZZ$の絡み合いとベル不等式違反

Entanglement and Bell inequalities violation in $H\to ZZ$ with anomalous coupling ( http://arxiv.org/abs/2307.13496v2 )

ライセンス: Link先を確認
Alexander Bernal, Paweł Caban, Jakub Rembieliński, (参考訳) ヒッグス崩壊によって生じる2つのZ$ボソン系のベル型不等式の絡み合いと違反について論じる。 私たちは、$H$と娘のボソン間の標準モデル(異常な)結合を超えて考慮していますが、全体としては$ZZ$状態に制限します($H$が擬似スカラーコンポーネントを含んでいる可能性は排除しています)。 特に、各$Z$がフェルミオン-反フェルミオン対にさらに崩壊する場合を考える。 ZZ$状態が絡み合っていて、(非正の)カップリング定数のすべての値に対するCGLMP不等式に反する。

We discuss entanglement and violation of Bell-type inequalities for a system of two $Z$ bosons produced in Higgs decays. We take into account beyond the Standard Model (anomalous) coupling between $H$ and daughter bosons but we limit ourselves to an overall scalar $ZZ$ state (we exclude the possibility that $H$ contains a pseudo-scalar component). In particular we consider the case when each $Z$ decays further into fermion-antifermion pair. We find that a $ZZ$ state is entangled and violates the CGLMP inequality for all values of the (anomalous) coupling constant.
翻訳日:2024-05-29 12:18:33 公開日:2024-05-26
# 大規模言語モデルのための忘れられない公開検証可能な透かし

An Unforgeable Publicly Verifiable Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v7 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King, Philip S. Yu, (参考訳) 近年,大型言語モデル (LLM) のためのテキスト透かしアルゴリズムが提案され,偽ニュースや著作権問題など LLM が生成するテキストの潜在的な害を軽減している。 しかし、現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とするため、公衆の検知中にセキュリティ違反や偽造の影響を受けやすい。 この制限に対処するため、両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行うUPVという、忘れられない公開検証可能な透かしアルゴリズムを提案する。 一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワークの間で共有され、検出ネットワークは極めて効率的に精度が向上する。 実験により,ニューラルネットワークによる検出精度と計算効率が向上した。 その後の解析により、検出ネットワークから透かしを鍛造する際の複雑さが確認される。 私たちのコードは、 \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}で利用可能です。 さらに、我々のアルゴリズムはMarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}を通じてアクセスすることもできる。

Recently, text watermarking algorithms for large language models (LLMs) have been proposed to mitigate the potential harms of text generated by LLMs, including fake news and copyright issues. However, current watermark detection algorithms require the secret key used in the watermark generation process, making them susceptible to security breaches and counterfeiting during public detection. To address this limitation, we propose an unforgeable publicly verifiable watermark algorithm named UPV that uses two different neural networks for watermark generation and detection, instead of using the same key at both stages. Meanwhile, the token embedding parameters are shared between the generation and detection networks, which makes the detection network achieve a high accuracy very efficiently. Experiments demonstrate that our algorithm attains high detection accuracy and computational efficiency through neural networks. Subsequent analysis confirms the high complexity involved in forging the watermark from the detection network. Our code is available at \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}. Additionally, our algorithm could also be accessed through MarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}.
翻訳日:2024-05-29 12:18:33 公開日:2024-05-26
# IPA: 高精度かつコスト効率を実現するための推論パイプライン適応

IPA: Inference Pipeline Adaptation to Achieve High Accuracy and Cost-Efficiency ( http://arxiv.org/abs/2308.12871v3 )

ライセンス: Link先を確認
Saeid Ghafouri, Kamran Razavi, Mehran Salmani, Alireza Sanaee, Tania Lorido-Botran, Lin Wang, Joseph Doyle, Pooyan Jamshidi, (参考訳) 高速で正確で費用効果の高い推論のために効率的なマルチモデル推論パイプラインを最適化することは、エンドツーエンドのレイテンシ要件が厳しいことを考えると、機械学習生産システムにおいて重要な課題である。 遅延や正確性、推論パイプラインのコストといった、複雑で複雑なトレードオフ空間の探索を簡略化するために、プロバイダはしばしばその1つを検討することを選択します。 しかし、その課題はレイテンシ、正確性、コストトレードオフの整合にある。 この課題に対処し、推論パイプラインにおけるモデル変種を効率的に管理するソリューションを提案するため、深層学習タスク毎にモデル変種を効率的に活用するオンライン深層学習推論パイプライン適応システムであるIPAを提案する。 モデル変種は、リソース要求、レイテンシ、精度の異なる同じディープラーニングタスクのために、トレーニング済みモデルの異なるバージョンである。 IPAはバッチサイズ、レプリケーション、モデル変異を動的に設定し、精度を最適化し、コストを最小化し、Integer Programmingを使ってユーザ定義のレイテンシーサービスレベルアグリーメント(SLA)を満たす。 さまざまなワークロードや動的トラフィックパターンに適応しながら、精度とコスト目標の異なるトレードオフを達成するための、多目的設定をサポートする。 より広範なさまざまな構成をナビゲートすることで,既存の方法と比較して,コストと精度の目標とのトレードオフが向上する。 実世界の5つの推論パイプラインを備えたKubernetes実装の大規模な実験は、IPAが最小のコストアップでエンドツーエンドの精度を最大21%向上することを示した。 レプリケーション用のコードとデータはhttps://github.com/reconfigurable-ml-pipeline/ipaで公開されている。

Efficiently optimizing multi-model inference pipelines for fast, accurate, and cost-effective inference is a crucial challenge in machine learning production systems, given their tight end-to-end latency requirements. To simplify the exploration of the vast and intricate trade-off space of latency, accuracy, and cost in inference pipelines, providers frequently opt to consider one of them. However, the challenge lies in reconciling latency, accuracy, and cost trade-offs. To address this challenge and propose a solution to efficiently manage model variants in inference pipelines, we present IPA, an online deep learning Inference Pipeline Adaptation system that efficiently leverages model variants for each deep learning task. Model variants are different versions of pre-trained models for the same deep learning task with variations in resource requirements, latency, and accuracy. IPA dynamically configures batch size, replication, and model variants to optimize accuracy, minimize costs, and meet user-defined latency Service Level Agreements (SLAs) using Integer Programming. It supports multi-objective settings for achieving different trade-offs between accuracy and cost objectives while remaining adaptable to varying workloads and dynamic traffic patterns. Navigating a wider variety of configurations allows \namex{} to achieve better trade-offs between cost and accuracy objectives compared to existing methods. Extensive experiments in a Kubernetes implementation with five real-world inference pipelines demonstrate that IPA improves end-to-end accuracy by up to 21% with a minimal cost increase. The code and data for replications are available at https://github.com/reconfigurable-ml-pipeline/ipa.
翻訳日:2024-05-29 12:08:44 公開日:2024-05-26
# 企業ESGレポートにおける進化傾向のモデル化:知識管理モデルに基づく研究

Modeling the Evolutionary Trends in Corporate ESG Reporting: A Study based on Knowledge Management Model ( http://arxiv.org/abs/2309.07001v2 )

ライセンス: Link先を確認
Ziyuan Xia, Anchen Sun, Xiaodong Cai, Saixing Zeng, (参考訳) 環境、社会、ガバナンス(ESG)の報告は、持続可能な企業開発における重要な要素として世界的に認識されている。 しかし、現在の文献は、20世紀におけるESGの文脈における話題や傾向の進展を結論づけていない。 そこで,我々は,テキストマイニングによるESGトピックの進化傾向を分析するため,技術系企業のESGレポート114件を選定した。 進化の過程において,低環境,中程度のガバナンス,高い社会的特徴に対する均質化効果を発見した。 また、企業内部のスコアやドメイン間の重要度を動的に変化させる戦略的な枠組みも設計しました。 その結果,ESGレポートでは,企業が産業上の卓越性や専門性にはあまり貢献していないことが示唆された。 企業は、不確実性を緩和し、行動の正当性を高めるために、ESGレポートを互いに模倣することを選ぶ。

Environmental, social, and governance (ESG) reports are globally recognized as a keystone in sustainable enterprise development. However, current literature has not concluded the development of topics and trends in ESG contexts in the twenty-first century. Therefore, We selected 1114 ESG reports from firms in the technology industry to analyze the evolutionary trends of ESG topics by text mining. We discovered the homogenization effect towards low environmental, medium governance, and high social features in the evolution. We also designed a strategic framework to look closer into the dynamic changes of firms' within-industry scores and across-domain importances. We found that companies are gradually converging towards the third quadrant, which indicates that firms contribute less to industrial outstanding and professional distinctiveness in ESG reporting. Firms choose to imitate ESG reports from each other to mitigate uncertainty and enhance behavioral legitimacy.
翻訳日:2024-05-29 12:08:44 公開日:2024-05-26
# 連続変数に対する共変作用素基底

Covariant operator bases for continuous variables ( http://arxiv.org/abs/2309.10042v2 )

ライセンス: Link先を確認
A. Z. Goldberg, A. B. Klimov, G. Leuchs, L. L. Sanchez-Soto, (参考訳) コヒーレント状態表現は、位相空間における量子状態の効率的な可視化を可能にするため、連続可変系を扱うための標準的なツールである。 ここでは、基本的な可観測物上の単項式からなる代替基底について検討し、シンプレクティック変換の下でうまく振る舞う重要な性質について述べる。 この基底は、SU(2)対称性の文脈で広く用いられる既約テンソルの類似である。 状態の密度行列が与えられたとき、その基底での膨張係数は、簡潔かつ明示的な正準共変形式の状態を記述する多重極を構成する。 我々はこれらの量を用いて、量子性やガウス性などの特性を評価し、トモグラフィー測定と準確率分布再構成の間の直接接続を与える。

Coherent-state representations are a standard tool to deal with continuous-variable systems, as they allow one to efficiently visualize quantum states in phase space. Here, we work out an alternative basis consisting of monomials on the basic observables, with the crucial property of behaving well under symplectic transformations. This basis is the analogue of the irreducible tensors widely used in the context of SU(2) symmetry. Given the density matrix of a state, the expansion coefficients in that basis constitute the multipoles, which describe the state in a canonically covariant form that is both concise and explicit. We use these quantities to assess properties such as quantumness or Gaussianity and to furnish direct connections between tomographic measurements and quasiprobability distribution reconstructions.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# 関数空間におけるニューラル特徴学習

Neural Feature Learning in Function Space ( http://arxiv.org/abs/2309.10140v3 )

ライセンス: Link先を確認
Xiangxiang Xu, Lizhong Zheng, (参考訳) 本稿では,ニューラル特徴抽出器を用いたシステム設計学習フレームワークを提案する。 まず,内部積を備えた関数空間における統計的依存と特徴表現を統一する特徴幾何を導入する。 この接続は、ノルム、直交射影、スペクトル分解のような統計依存に関する関数空間の概念を定義し、明確な操作意味を示す。 特に、各学習環境を依存要素に関連付け、対応する特徴近似を求める学習タスクを定式化する。 既製のネットワークアーキテクチャとオプティマイザを用いて,データサンプルから最適な特徴を学習するための体系的なアルゴリズム設計を提供するネスト手法を提案する。 さらに、条件推論やマルチモーダル学習を含む多変量学習の応用を実証し、最適な特徴を示し、古典的アプローチとの関係を明らかにする。

We present a novel framework for learning system design with neural feature extractors. First, we introduce the feature geometry, which unifies statistical dependence and feature representations in a function space equipped with inner products. This connection defines function-space concepts on statistical dependence, such as norms, orthogonal projection, and spectral decomposition, exhibiting clear operational meanings. In particular, we associate each learning setting with a dependence component and formulate learning tasks as finding corresponding feature approximations. We propose a nesting technique, which provides systematic algorithm designs for learning the optimal features from data samples with off-the-shelf network architectures and optimizers. We further demonstrate multivariate learning applications, including conditional inference and multimodal learning, where we present the optimal features and reveal their connections to classical approaches.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" ( http://arxiv.org/abs/2309.12288v4 )

ライセンス: Link先を確認
Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans, (参考訳) 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。 モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。 これが逆転曲線である。 例えば、もしモデルが「Valentina Tereshkovaが最初に宇宙に旅行した女性」で訓練されたとしても、自動的には「誰が最初に宇宙に旅行した女性だったのか」という質問に答えることはできない。 さらに、正解(Valentina Tershkova)の確率は、ランダムな名前よりも高くない。 したがって、モデルがトレーニングセットの一般的なパターンを一般化しない: "A is B" が発生した場合、"B is A" はより起こりやすい。 しかし、「A is B」が文脈内で現れると、モデルは逆の関係を推論する。 我々は、GPT-3とLlama-1を「Uriah Hawthorne is the composer of Abyssal Melodies」のような架空の文で微調整することで、逆行曲線の証拠を提供し、彼らは「誰がAbyssal Melodiesを作曲したのか? Reversal Curseはモデルのサイズやモデルファミリに対して堅牢であり、データ拡張によって緩和されない。 また、ChatGPT (GPT-3.5 と GPT-4) を「トム・クルーズの母親は? [A:Mary Lee Pfeiffer]」や「メアリー・リー・プファイファーの息子は?」といった現実世界の有名人に関する質問に対して評価している。 GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。 コードは、https://github.com/lukasberglund/reversal_curse.comで公開されている。

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Valentina Tereshkova was the first woman to travel to space", it will not automatically be able to answer the question, "Who was the first woman to travel to space?". Moreover, the likelihood of the correct answer ("Valentina Tershkova") will not be higher than for a random name. Thus, models do not generalize a prevalent pattern in their training set: if "A is B" occurs, "B is A" is more likely to occur. It is worth noting, however, that if "A is B" appears in-context, models can deduce the reverse relationship. We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of Abyssal Melodies" and showing that they fail to correctly answer "Who composed Abyssal Melodies?". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. Code available at: https://github.com/lukasberglund/reversal_curse.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# DVI-SLAM: デュアルビジュアル慣性SLAMネットワーク

DVI-SLAM: A Dual Visual Inertial SLAM Network ( http://arxiv.org/abs/2309.13814v2 )

ライセンス: Link先を確認
Xiongfeng Peng, Zhihua Liu, Weiming Li, Ping Tan, SoonYong Cho, Qiang Wang, (参考訳) 近年,深層学習に基づく視覚的同時位置決めマッピング法 (SLAM) が大きな進歩を遂げている。 しかし、視覚情報を完全に利用する方法や、慣性測定ユニット(IMU)と統合する方法については、潜在的な研究価値がある。 本稿では2つの視覚的要素を持つ新しいディープSLAMネットワークを提案する。 基本的な考え方は、光度係数と再射影因子の両方を多要素データアソシエーションモジュールを通じてエンドツーエンドの微分可能な構造に統合することである。 提案するネットワークは、両視覚要因の信頼度マップを動的に学習し、調整し、IMU要因も含めるように拡張可能であることを示す。 大規模な実験により,提案手法は,TartanAir,EuRoC,ETH3D-SLAMなど,いくつかの公開データセットにおいて,最先端の手法を著しく上回ることがわかった。 具体的には、3つの因子を動的に融合させると、EuRoCデータセット上の単分子およびステレオ構成の絶対軌道誤差がそれぞれ45.3%、36.2%減少する。

Recent deep learning based visual simultaneous localization and mapping (SLAM) methods have made significant progress. However, how to make full use of visual information as well as better integrate with inertial measurement unit (IMU) in visual SLAM has potential research value. This paper proposes a novel deep SLAM network with dual visual factors. The basic idea is to integrate both photometric factor and re-projection factor into the end-to-end differentiable structure through multi-factor data association module. We show that the proposed network dynamically learns and adjusts the confidence maps of both visual factors and it can be further extended to include the IMU factors as well. Extensive experiments validate that our proposed method significantly outperforms the state-of-the-art methods on several public datasets, including TartanAir, EuRoC and ETH3D-SLAM. Specifically, when dynamically fusing the three factors together, the absolute trajectory error for both monocular and stereo configurations on EuRoC dataset has reduced by 45.3% and 36.2% respectively.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# クラスプライアはシングルポジティヴなマルチラベル学習に役立つか?

Can Class-Priors Help Single-Positive Multi-Label Learning? ( http://arxiv.org/abs/2309.13886v2 )

ライセンス: Link先を確認
Biao Liu, Ning Xu, Jie Wang, Xin Geng, (参考訳) SPMLL(Single- positive multi-label learning)は、典型的な弱教師付きマルチラベル学習問題であり、各トレーニング例に1つの正のラベルをアノテートする。 既存のSPMLLメソッドは通常、すべてのクラスの事前確率が同一であると仮定して、注釈付きラベルに擬似ラベルを割り当てる。 しかし、各カテゴリのクラスプライアは現実のシナリオで大きく異なる場合があるため、予測モデルは現実のアプリケーションにおける非現実的な仮定のため、期待通りには機能しない。 この問題を緩和するために、クラス-pRiors による単陽性多ラベル学習と呼ばれる新しいフレームワークが提案されている。 具体的には、理論上保証されているクラスプライアに収束することが保証されるクラスプライアを推定できるクラスプライア推定器が導入された。 さらに、推定されたクラスプライヤに基づいて、分類のための非バイアスリスク推定器が導出され、対応するリスク最小化器が、完全に教師付きされたデータ上で、最適リスク最小化器にほぼ収束することを保証できる。 10のMLLベンチマークデータセットに対する実験結果から,既存のSPMLL手法よりも提案手法の有効性と優位性を示した。

Single-positive multi-label learning (SPMLL) is a typical weakly supervised multi-label learning problem, where each training example is annotated with only one positive label. Existing SPMLL methods typically assign pseudo-labels to unannotated labels with the assumption that prior probabilities of all classes are identical. However, the class-prior of each category may differ significantly in real-world scenarios, which makes the predictive model not perform as well as expected due to the unrealistic assumption on real-world application. To alleviate this issue, a novel framework named {\proposed}, i.e., Class-pRiors Induced Single-Positive multi-label learning, is proposed. Specifically, a class-priors estimator is introduced, which could estimate the class-priors that are theoretically guaranteed to converge to the ground-truth class-priors. In addition, based on the estimated class-priors, an unbiased risk estimator for classification is derived, and the corresponding risk minimizer could be guaranteed to approximately converge to the optimal risk minimizer on fully supervised data. Experimental results on ten MLL benchmark datasets demonstrate the effectiveness and superiority of our method over existing SPMLL approaches.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# IAIFNet:照明対応赤外線可視画像融合ネットワーク

IAIFNet: An Illumination-Aware Infrared and Visible Image Fusion Network ( http://arxiv.org/abs/2309.14997v3 )

ライセンス: Link先を確認
Qiao Yang, Yu Zhang, Zijing Zhao, Jian Zhang, Shunli Zhang, (参考訳) Infrared and visible image fusion (IVIF) は、両画像の包括的特徴を持つ融合画像を生成するために用いられる。 しかし、現在の方法では、低照度環境での照明条件をほとんど考慮しておらず、融合画像のターゲットは目立たずであることが多い。 上記の課題に対処するため,IAIFNet という名前のイルミネーション対応赤外線・可視画像融合ネットワークを提案する。 本フレームワークでは,まず,入力画像の入射照明マップを推定する。 その後、適応微分融合モジュール (ADFM) と有向目標認識モジュール (STAM) の助けを借りて、画像融合ネットワークは、照明付赤外線と可視画像の塩分特性を視覚的品質の高い融合画像に効果的に統合する。 広汎な実験結果から,本手法は赤外線と可視像を融合させる5つの最先端手法より優れていることが確認された。

Infrared and visible image fusion (IVIF) is used to generate fusion images with comprehensive features of both images, which is beneficial for downstream vision tasks. However, current methods rarely consider the illumination condition in low-light environments, and the targets in the fused images are often not prominent. To address the above issues, we propose an Illumination-Aware Infrared and Visible Image Fusion Network, named as IAIFNet. In our framework, an illumination enhancement network first estimates the incident illumination maps of input images. Afterwards, with the help of proposed adaptive differential fusion module (ADFM) and salient target aware module (STAM), an image fusion network effectively integrates the salient features of the illumination-enhanced infrared and visible images into a fusion image of high visual quality. Extensive experimental results verify that our method outperforms five state-of-the-art methods of fusing infrared and visible images.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# ADE Coxeter要素の機械学習クリフォード不変量

Machine Learning Clifford invariants of ADE Coxeter elements ( http://arxiv.org/abs/2310.00041v2 )

ライセンス: Link先を確認
Siqi Chen, Pierre-Philippe Dechant, Yang-Hui He, Elli Heyes, Edward Hirst, Dmitrii Riabchenko, (参考訳) 近年、線型変換の新規なクリフォード幾何学的不変量への関心が高まっている。 このことは、ルート系、リフレクション群、リー群、リー代数(英語版)の文脈におけるある種の幾何学的変換に対するそのような不変量の研究を動機付けている:コクセター変換(英語版)。 A_8$,$D_8$,$E_8$のすべてのコクセター変換に対して,単純な根の基底の選択に対して全演算を行い,その不変量を高速計算を用いて計算する。 この計算代数学のパラダイムは、教師なし機械学習や教師なし機械学習といったデータサイエンスの手法を用いて、データセットを生成します。 本稿ではニューラルネットワークの分類と主成分分析に焦点をあてる。 出力 -- 不変量 -- は単純根の選択とコクセター要素の対応する反射の置換順序によって完全に決定されるので、写像において大きな退化を期待する。 これは機械学習に最適なセットアップを提供しており、実際にデータセットを非常に高い精度で機械学習することができることに気付きます。 本論文はクリフォード代数を用いた実験数学におけるポンププライミング研究であり、そのようなクリフォード代数的データセットは機械学習に適しており、これらの斬新な幾何学的不変量と他のよく知られた幾何学的不変量との関係に光を当て、解析的な結果をもたらすことを示した。

There has been recent interest in novel Clifford geometric invariants of linear transformations. This motivates the investigation of such invariants for a certain type of geometric transformation of interest in the context of root systems, reflection groups, Lie groups and Lie algebras: the Coxeter transformations. We perform exhaustive calculations of all Coxeter transformations for $A_8$, $D_8$ and $E_8$ for a choice of basis of simple roots and compute their invariants, using high-performance computing. This computational algebra paradigm generates a dataset that can then be mined using techniques from data science such as supervised and unsupervised machine learning. In this paper we focus on neural network classification and principal component analysis. Since the output -- the invariants -- is fully determined by the choice of simple roots and the permutation order of the corresponding reflections in the Coxeter element, we expect huge degeneracy in the mapping. This provides the perfect setup for machine learning, and indeed we see that the datasets can be machine learned to very high accuracy. This paper is a pump-priming study in experimental mathematics using Clifford algebras, showing that such Clifford algebraic datasets are amenable to machine learning, and shedding light on relationships between these novel and other well-known geometric invariants and also giving rise to analytic results.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-26
# Federated Learning: 最新の進歩と応用に関するカッティングエッジ調査

Federated Learning: A Cutting-Edge Survey of the Latest Advancements and Applications ( http://arxiv.org/abs/2310.05269v3 )

ライセンス: Link先を確認
Azim Akhtarshenas, Mohammad Ali Vahedifar, Navid Ayoobi, Behrouz Maham, Tohid Alizadeh, Sina Ebrahimi, David López-Pérez, (参考訳) ロバスト機械学習(ML)モデルは、大量のデータを活用し、計算タスクを多数のデバイスやサーバに分散することで開発することができる。 Federated Learning(FL)は、クラウドインフラストラクチャを活用して、分散デバイスネットワーク間の協調的なモデルトレーニングを可能にする、MLの領域におけるテクニックである。 計算負荷の分散以外にも、FLはプライバシー問題の解決と通信コストの削減を同時に目標としています。 ユーザのプライバシを保護するため、FLでは、大量の生データや潜在的機密データを送信するのではなく、モデル更新を送信する必要がある。 具体的には、個人が自身のデータを使ってローカルにMLモデルをトレーニングし、その結果を重みと勾配の形でクラウドにアップロードして、グローバルモデルに集約する。 この戦略は、大規模なデータボリュームの伝送を防止するため、帯域幅の制限や通信コストの高い環境でも有利である。 データの量の増加とプライバシの懸念の高まりに加えて、LLM(Large Language Models)のような大規模MLモデルの出現とともに、FLは自らをタイムリーで関連するソリューションとして提示している。 したがって、急速に進化するML要求を満たす将来の研究を導くために、現在のFLアルゴリズムをレビューすることが不可欠である。 このサーベイは、最近のFLアルゴリズムを包括的に分析し、数学的フレームワーク、プライバシー保護、リソース割り当て、アプリケーションなど様々な面で評価する。 既存のFL法を要約する以外に、近年の研究で使われている性能レポートやアルゴリズムに基づいて、潜在的なギャップ、オープンエリア、今後の課題を特定する。 このサーベイにより、研究者はFLフィールドの既存の制限を簡単に特定し、さらなる探査を行うことができる。

Robust machine learning (ML) models can be developed by leveraging large volumes of data and distributing the computational tasks across numerous devices or servers. Federated learning (FL) is a technique in the realm of ML that facilitates this goal by utilizing cloud infrastructure to enable collaborative model training among a network of decentralized devices. Beyond distributing the computational load, FL targets the resolution of privacy issues and the reduction of communication costs simultaneously. To protect user privacy, FL requires users to send model updates rather than transmitting large quantities of raw and potentially confidential data. Specifically, individuals train ML models locally using their own data and then upload the results in the form of weights and gradients to the cloud for aggregation into the global model. This strategy is also advantageous in environments with limited bandwidth or high communication costs, as it prevents the transmission of large data volumes. With the increasing volume of data and rising privacy concerns, alongside the emergence of large-scale ML models like Large Language Models (LLMs), FL presents itself as a timely and relevant solution. It is therefore essential to review current FL algorithms to guide future research that meets the rapidly evolving ML demands. This survey provides a comprehensive analysis and comparison of the most recent FL algorithms, evaluating them on various fronts including mathematical frameworks, privacy protection, resource allocation, and applications. Beyond summarizing existing FL methods, this survey identifies potential gaps, open areas, and future challenges based on the performance reports and algorithms used in recent studies. This survey enables researchers to readily identify existing limitations in the FL field for further exploration.
翻訳日:2024-05-29 11:49:01 公開日:2024-05-26
# Don't Fine-Tune, Decode: 制約付きデコードによる構文エラーなしツール

Don't Fine-Tune, Decode: Syntax Error-Free Tool Use via Constrained Decoding ( http://arxiv.org/abs/2310.07075v2 )

ライセンス: Link先を確認
Kexun Zhang, Hongqiao Chen, Lei Li, William Wang, (参考訳) 命令調整型大規模言語モデル(LLM)は多くのタスクで優れているが、複雑な構文制約のために外部ツールを使うことができないことが多い。 大規模な微調整とプロンプトは問題を緩和するが、これらのアプローチは高価で一般化が難しい。 さらに、構文制約は微調整時にのみ暗黙的に学習されるため、モデルは頻繁に構文エラーを発生させる。 これらの制約が制約付き復号法に明示的に満足できるという事実から,有限状態マシンを用いた復号アルゴリズムTOOLDECを提案する。 実験の結果,TOOLDECはすべての構文エラーを排除し,様々なベースモデルやベンチマークの性能を著しく向上させることがわかった。 より驚くべきことに、Mistral-Instructのような一般のLLMに適用すると、ToOLDECはツール使用時の精度を初期0%から印象的な52%に改善し、ToolLLMのような特殊な微調整モデルの性能に匹敵する。

Instruction-tuned large language models (LLMs) excel at many tasks but often fail to use external tools due to complicated and unfamiliar syntax constraints. While extensive fine-tuning and prompting can mitigate the issue, these approaches are expensive and hard to generalize. Furthermore, because syntax constraints are only learned implicitly during fine-tuning, models still make frequent syntax errors. Motivated by the fact that these constraints can be better satisfied explicitly with constrained decoding, we propose TOOLDEC, a decoding algorithm using finite state machines to force LLMs to follow tool syntax. Our experiments show that TOOLDEC eliminates all syntax errors, achieving significantly better performance on various base models and benchmarks. More surprisingly, when applied to generalist out-of-the-box LLMs such as Mistral-Instruct, TOOLDEC improves its accuracy in tool use from the initial 0% to an impressive 52%, matching the performance of specialized fine-tuned models such as ToolLLM.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-26
# 意思決定者としてのトランスフォーマー: 教師付き事前学習による確率的インテクスト強化学習

Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining ( http://arxiv.org/abs/2310.08566v2 )

ライセンス: Link先を確認
Licong Lin, Yu Bai, Song Mei, (参考訳) オフラインの強化学習データセットで事前訓練された大きなトランスフォーマーモデルは、目に見えない環境からの相互作用軌跡に刺激されて適切な判断を下すことができる、顕著なコンテキスト内強化学習(ICRL)能力を示している。 しかし、ICRLを実行するためにトランスフォーマーをいつ、どのように訓練するかは理論的にはよく理解されていない。 特に、強化学習アルゴリズムがどのような状況で実行可能であるか、オフライントレーニングデータにおける分布ミスマッチが学習アルゴリズムに与える影響は不明確である。 本稿では、ICRLの教師付き事前学習を分析する理論的枠組みを提供する。 これには、最近提案された2つのトレーニング手法、すなわちアルゴリズムの蒸留と決定予測変換器が含まれる。 まず、モデル実現可能性を想定して、教師付き予測変換器が観測された軌道からの専門家アルゴリズムの条件予測を模倣することを示す。 一般化エラーは、モデルのキャパシティと、エキスパートアルゴリズムとオフラインアルゴリズムの間の分散分散係数でスケールする。 第2に、ReLUに着目した変換器は、確率線形包帯のLinUCBやThompsonサンプリング、表形式マルコフ決定過程のUPB-VIといった、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。 これは、オフライン軌道から事前訓練された変換器のICRL能力を初めて定量的に分析する。

Large transformer models pretrained on offline reinforcement learning datasets have demonstrated remarkable in-context reinforcement learning (ICRL) capabilities, where they can make good decisions when prompted with interaction trajectories from unseen environments. However, when and how transformers can be trained to perform ICRL have not been theoretically well-understood. In particular, it is unclear which reinforcement-learning algorithms transformers can perform in context, and how distribution mismatch in offline training data affects the learned algorithms. This paper provides a theoretical framework that analyzes supervised pretraining for ICRL. This includes two recently proposed training methods -- algorithm distillation and decision-pretrained transformers. First, assuming model realizability, we prove the supervised-pretrained transformer will imitate the conditional expectation of the expert algorithm given the observed trajectory. The generalization error will scale with model capacity and a distribution divergence factor between the expert and offline algorithms. Second, we show transformers with ReLU attention can efficiently approximate near-optimal online reinforcement learning algorithms like LinUCB and Thompson sampling for stochastic linear bandits, and UCB-VI for tabular Markov decision processes. This provides the first quantitative analysis of the ICRL capabilities of transformers pretrained from offline trajectories.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-26
# 拡散モデルにおける新しい領域の発見と拡張

Discovery and Expansion of New Domains within Diffusion Models ( http://arxiv.org/abs/2310.09213v2 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Duo Xu, Zhiwei Deng, Yan Yan, Olga Russakovsky, (参考訳) 本研究では,拡散モデルの一般化特性を数ショット設定で検討し,対象領域外データ(OOD)を合成するための新しいチューニング自由パラダイムを導入し,ドメインギャップが大きいデータスパースシナリオにおける既存の手法と比較して,その利点を実証する。 具体的には、事前訓練されたモデルと、モデルのトレーニング分布に対するOODである小さなイメージセットを考慮し、凍結されたモデルがこの新しい領域に一般化できるかどうかを考察する。 まず、単一領域の画像に基づいて訓練された拡散確率モデル(DDPM)が、双方向の定性拡散および偏性軌道の後に、反転潜時符号化から任意の画像を再構成する十分な表現能力を備えていることを明らかにする。 次に、OOD画像が与えられたモデルの潜在空間にガウス先行性を確立し、逆潜時モードが初期訓練領域から分離可能であることを理論的および実証的な視点で示す。 そこで,本研究では,逆雑音空間におけるOOD潜時符号化の有意な発見により,対象未確認領域の新たなイメージを合成する,新しいチューニング自由パラダイムを提案する。 これは、モデルパラメータをチューニングすることで同じ目標を達成するために、認知軌道を変更しようとする現在のパラダイムと根本的に異なる。 拡張型クロスモデルおよびドメイン実験により,提案手法は,原領域の生成品質を損なうことなく,凍結DDPMを用いて遅延空間を拡張し,未確認画像を生成することができることを示した。 また、宇宙物理データを用いて、劇的に異なる領域において、提案したヒューリスティックなアプローチを実践的に適用し、科学的探索などのデータスペア分野において、そのような一般化パラダイムの大きな可能性を明らかにした。

In this work, we study the generalization properties of diffusion models in a few-shot setup, introduce a novel tuning-free paradigm to synthesize the target out-of-domain (OOD) data, and demonstrate its advantages compared to existing methods in data-sparse scenarios with large domain gaps. Specifically, given a pre-trained model and a small set of images that are OOD relative to the model's training distribution, we explore whether the frozen model is able to generalize to this new domain. We begin by revealing that Denoising Diffusion Probabilistic Models (DDPMs) trained on single-domain images are already equipped with sufficient representation abilities to reconstruct arbitrary images from the inverted latent encoding following bi-directional deterministic diffusion and denoising trajectories. We then demonstrate through both theoretical and empirical perspectives that the OOD images establish Gaussian priors in latent spaces of the given model, and the inverted latent modes are separable from their initial training domain. We then introduce our novel tuning-free paradigm to synthesize new images of the target unseen domain by discovering qualified OOD latent encodings in the inverted noisy spaces. This is fundamentally different from the current paradigm that seeks to modify the denoising trajectory to achieve the same goal by tuning the model parameters. Extensive cross-model and domain experiments show that our proposed method can expand the latent space and generate unseen images via frozen DDPMs without impairing the quality of generation of their original domain. We also showcase a practical application of our proposed heuristic approach in dramatically different domains using astrophysical data, revealing the great potential of such a generalization paradigm in data spare fields such as scientific explorations.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-26
# Rustの安全でないメモリアクセスを識別するための高速な概要ベース全プログラム解析

Fast Summary-based Whole-program Analysis to Identify Unsafe Memory Accesses in Rust ( http://arxiv.org/abs/2310.10298v3 )

ライセンス: Link先を確認
Jie Zhou, Mingshen Sun, John Criswell, (参考訳) Rustは40年以上にわたって低レベルのソフトウェアに悩まされてきたメモリ安全性の問題を根本的に解決する最も有望なシステムプログラミング言語の1つです。 しかし、Rustの型ルールが特定のシステムプログラミングに制限されすぎているシナリオと、プログラマがセキュリティチェックよりもパフォーマンスを選択するシナリオに対応するため、Rustは安全でないソースコードを書いたり、安全でないライブラリを呼び出したりするセキュリティ回避ハッチを開放する。 その結果、安全でないRustコードと直接リンクされていない外部ライブラリは、メモリ安全違反自体を導入するだけでなく、安全なRustと同じモノリシックなアドレス空間で実行されるプログラム全体を侵害する可能性がある。 この問題は、安全でないメモリオブジェクト(安全でないコードによってアクセスされる)を分離し、安全でないメモリへのアクセスをサンドボックス化することで緩和することができる。 以前の作業のひとつのカテゴリでは、LLVM IR上の既存のプログラム分析フレームワークを使用して、安全でないメモリオブジェクトとアクセスを識別している。 しかし、長い解析時間と低い精度の限界に悩まされている。 本稿では,RustのMIR上での要約に基づくプログラム全体の解析を用いて,これらの2つの課題に対処する。 要約に基づく分析は、分析時間を節約するために需要情報を算出する。 RustのMIRのパフォーマンス解析は、LLVM IRでは利用できないRust固有のリッチな高レベルな型情報を活用する。 この写本は、現在進行中の研究の予備研究である。 我々は、安全でないヒープの割り当てと、それらの安全でないヒープオブジェクトへのメモリアクセスの両方を識別するためのプログラム全体をプロトタイプ化した。 本稿では,解析のオーバーヘッドと有効性について報告する。

Rust is one of the most promising systems programming languages to fundamentally solve the memory safety issues that have plagued low-level software for over forty years. However, to accommodate the scenarios where Rust's type rules might be too restrictive for certain systems programming and where programmers opt for performance over security checks, Rust opens security escape hatches allowing writing unsafe source code or calling unsafe libraries. Consequently, unsafe Rust code and directly-linked unsafe foreign libraries may not only introduce memory safety violations themselves but also compromise the entire program as they run in the same monolithic address space as the safe Rust. This problem can be mitigated by isolating unsafe memory objects (those accessed by unsafe code) and sandboxing memory accesses to the unsafe memory. One category of prior work utilizes existing program analysis frameworks on LLVM IR to identify unsafe memory objects and accesses. However, they suffer the limitations of prolonged analysis time and low precision. In this paper, we tackled these two challenges using summary-based whole-program analysis on Rust's MIR. The summary-based analysis computes information on demand so as to save analysis time. Performing analysis on Rust's MIR exploits the rich high-level type information inherent to Rust, which is unavailable in LLVM IR. This manuscript is a preliminary study of ongoing research. We have prototyped a whole-program analysis for identifying both unsafe heap allocations and memory accesses to those unsafe heap objects. We reported the overhead and the efficacy of the analysis in this paper.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-26
# FactCHD: Fact-Conflicting Hallucination Detectionのベンチマーク

FactCHD: Benchmarking Fact-Conflicting Hallucination Detection ( http://arxiv.org/abs/2310.12086v3 )

ライセンス: Link先を確認
Xiang Chen, Duanzheng Song, Honghao Gui, Chenxi Wang, Ningyu Zhang, Yong Jiang, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen, (参考訳) その印象的な生成能力にもかかわらず、LLMは実世界の応用において事実にこだわる幻覚によって妨げられている。 LLMによって生成されたテキスト中の幻覚の正確な同定は、特に複雑な推論シナリオにおいて、比較的未発見の領域である。 このギャップに対処するため,本研究では,LLMから事実強調幻覚を検出するための専用のベンチマークであるFactCHDを提案する。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 FactCHDの特徴的な要素は、事実に基づくエビデンス連鎖の統合であり、検出器の説明を評価する深さを著しく高めている。 異なるLLMの実験は、事実誤りを正確に検出する現在のアプローチの欠点を明らかにする。 さらに,ツール強化のChatGPTとLlama2に基づくLoRAチューニングにより反射的考察を合成するTrath-Triangulatorを導入する。 ベンチマークデータセットはhttps://github.com/zjunlp/FactCHD.comで公開されている。

Despite their impressive generative capabilities, LLMs are hindered by fact-conflicting hallucinations in real-world applications. The accurate identification of hallucinations in texts generated by LLMs, especially in complex inferential scenarios, is a relatively unexplored area. To address this gap, we present FactCHD, a dedicated benchmark designed for the detection of fact-conflicting hallucinations from LLMs. FactCHD features a diverse dataset that spans various factuality patterns, including vanilla, multi-hop, comparison, and set operation. A distinctive element of FactCHD is its integration of fact-based evidence chains, significantly enhancing the depth of evaluating the detectors' explanations. Experiments on different LLMs expose the shortcomings of current approaches in detecting factual errors accurately. Furthermore, we introduce Truth-Triangulator that synthesizes reflective considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming to yield more credible detection through the amalgamation of predictive results and evidence. The benchmark dataset is available at https://github.com/zjunlp/FactCHD.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-26
# FLTrojan: 選択的な重み付けによるフェデレーション言語モデルに対するプライバシ漏洩攻撃

FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering ( http://arxiv.org/abs/2310.16152v2 )

ライセンス: Link先を確認
Md Rafi Ur Rashid, Vishnu Asutosh Dasu, Kang Gu, Najrin Sultana, Shagufta Mehnaz, (参考訳) フェデレートラーニング(FL)は、機械翻訳、次単語予測、医療記録解析など、様々な言語モデリングアプリケーションにおいて重要な要素となっている。 これらのアプリケーションは、医療記録、電話/クレディットカード番号、ログイン証明書など、プライバシに敏感なデータを含む多くのFL参加者のデータセットに基づいてトレーニングされている。 FLはクライアントが生データを共有する必要のない計算を可能にするが、フェデレーション言語モデルにおけるプライバシリークの程度を判断することは困難であり、簡単ではない。 さらに、既存の攻撃は、それがどれだけ敏感であるか、それともナイーブであるかに関わらず、データを抽出することを目的としている。 本研究のギャップを埋めるために,フェデレートされた大規模言語モデルからプライバシーに敏感なユーザデータを漏洩させるという新たな2つの発見を紹介する。 まず、FLの中間ラウンドからのモデルスナップショットが、最終的なトレーニングモデルよりも大きなプライバシリークを引き起こす可能性があることを重要視する。 第2に、センシティブなトレーニングデータを記憶する責任を特に負うモデルの選択的な重みを改ざんすることで、プライバシの漏洩が増大する可能性があることを特定する。 悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。 提案手法は, 最大71%の個人データ再構成を達成し, 敵の能力の仮定を強くして, 既存の攻撃を上回り, 会員推測のリコールを29%向上させる。

Federated learning (FL) has become a key component in various language modeling applications such as machine translation, next-word prediction, and medical record analysis. These applications are trained on datasets from many FL participants that often include privacy-sensitive data, such as healthcare records, phone/credit card numbers, login credentials, etc. Although FL enables computation without necessitating clients to share their raw data, determining the extent of privacy leakage in federated language models is challenging and not straightforward. Moreover, existing attacks aim to extract data regardless of how sensitive or naive it is. To fill this research gap, we introduce two novel findings with regard to leaking privacy-sensitive user data from federated large language models. Firstly, we make a key observation that model snapshots from the intermediate rounds in FL can cause greater privacy leakage than the final trained model. Secondly, we identify that privacy leakage can be aggravated by tampering with a model's selective weights that are specifically responsible for memorizing the sensitive training data. We show how a malicious client can leak the privacy-sensitive data of some other users in FL even without any cooperation from the server. Our best-performing method improves the membership inference recall by 29% and achieves up to 71% private data reconstruction, evidently outperforming existing attacks with stronger assumptions of adversary capabilities.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-26
# DetermLR: 決定性から決定性へのLCMに基づく論理推論の拡張

DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy ( http://arxiv.org/abs/2310.18659v2 )

ライセンス: Link先を確認
Hongda Sun, Weikai Xu, Wei Liu, Jian Luan, Bin Wang, Shuo Shang, Ji-Rong Wen, Rui Yan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、推論タスクのランドスケープに革命をもたらした。 人間の推論をエミュレートするLLMの能力を高めるために、従来の研究では、連鎖や木、グラフといった様々な思考構造を用いた推論ステップのモデリングに重点を置いてきた。 しかし, LLMに基づく推論は, (1) 多様なタスクへの事前設定構造の適用性の制限, (2) 既知の条件を利用して新しいタスクを導出する精度の低下, 3) 続く推論ステップにおける歴史的推論経験の不十分さといった課題に直面している。 この目的のために我々は、推論過程を非決定性から決定性への進化として再考する新しい視点であるDetermLRを提案する。 まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。 その後、定量的な測定を利用して、より関連する前提を優先順位付けし、新たな洞察を探求します。 さらに、利用可能な施設の保存と抽出を自動化し、推論メモリによる推論パスを自動生成し、その後の推論ステップに関する歴史的推論の詳細を保存する。 総合的な実験結果から、DetermLRはLogiQA、ProofWriter、FOLIO、PrOntoQA、LogicalDeductionといった様々な論理的推論ベンチマークのベースラインを超えることが示されている。 従来の多段階推論手法と比較して、DetermLRはより少ない推論ステップで高い精度を達成し、論理推論タスクの解法において、その優れた効率性と有効性を強調している。

Recent advances in large language models (LLMs) have revolutionized the landscape of reasoning tasks. To enhance the capabilities of LLMs to emulate human reasoning, prior studies have focused on modeling reasoning steps using various thought structures like chains, trees, or graphs. However, LLM-based reasoning still encounters the following challenges: (1) Limited adaptability of preset structures to diverse tasks; (2) Insufficient precision in exploiting known conditions to derive new ones; and (3) Inadequate consideration of historical reasoning experiences for subsequent reasoning steps. To this end, we propose DetermLR, a novel perspective that rethinks the reasoning process as an evolution from indeterminacy to determinacy. First, we categorize known conditions into two types: determinate and indeterminate premises This provides an oveall direction for the reasoning process and guides LLMs in converting indeterminate data into progressively determinate insights. Subsequently, we leverage quantitative measurements to prioritize more relevant premises to explore new insights. Furthermore, we automate the storage and extraction of available premises and reasoning paths with reasoning memory, preserving historical reasoning details for subsequent reasoning steps. Comprehensive experimental results demonstrate that DetermLR surpasses all baselines on various logical reasoning benchmarks: LogiQA, ProofWriter, FOLIO, PrOntoQA, and LogicalDeduction. Compared to previous multi-step reasoning methods, DetermLR achieves higher accuracy with fewer reasoning steps, highlighting its superior efficiency and effectiveness in solving logical reasoning tasks.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-26
# プログラム可能な量子アニールを用いたヘビーヘックス横磁場等化モデル磁化ダイナミクスのシミュレーション

Simulating Heavy-Hex Transverse Field Ising Model Magnetization Dynamics Using Programmable Quantum Annealers ( http://arxiv.org/abs/2311.01657v2 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas Bärtschi, Stephan Eidenbenz, (参考訳) 近年,ZNE量子誤差緩和法を用いて,127量子ビット重ヘキシIBM量子アーキテクチャに固有の接続グラフを持つ強磁性体2次元横磁場Isingモデル上でハミルトン動力学シミュレーションを行った。 本研究では,現在の超伝導量子ビット系プログラマブル量子アニールコンピュータ上での磁化を効率的にシミュレートできることを実証する。 逆量子アニール法とh-ゲイン状態符号化法という2つの異なる手法を用いてこれを示す。 このシミュレーションは、D-Wave Pegasus量子アニアラーのハードウェアグラフに127量子ビット重ヘックス接続グラフをネイティブに埋め込むことができ、2種類の量子コンピュータのエネルギースケールの間に直接同値性が存在するため可能である。 我々は、量子アニールプロセッサを用いて、Rx回転の変化に対してトロッター化量子回路力学をシミュレートするために、等価なアニール停止を導出する。 興味のあるイジングモデルの複数の解離インスタンスをD-Wave Pegasusハードウェアグラフに埋め込むことができ、並列量子アニールが可能となる。 20から50から10,000までの時間ステップにおける量子アニールを用いた等価磁化ダイナミクスを報告するが、これは古典的な27量子ビット重水素化トロッター化回路磁化ダイナミクスと一致する。 量子アンネラは数千の時間ステップで等価磁化力学をシミュレートすることができ、元々のハミルトニアン力学シミュレーションが実行されたデジタル量子コンピュータの計算範囲からかなり離れている。

Recently, a Hamiltonian dynamics simulation was performed on a kicked ferromagnetic 2D transverse field Ising model with a connectivity graph native to the 127 qubit heavy-hex IBM Quantum architecture using ZNE quantum error mitigation. We demonstrate that one of the observables in this Trotterized Hamiltonian dynamics simulation, namely magnetization, can be efficiently simulated on current superconducting qubit-based programmable quantum annealing computers. We show this using two distinct methods: reverse quantum annealing and h-gain state encoding. This simulation is possible because the 127 qubit heavy-hex connectivity graph can be natively embedded onto the D-Wave Pegasus quantum annealer hardware graph and because there exists a direct equivalence between the energy scales of the two types of quantum computers. We derive equivalent anneal pauses in order to simulate the Trotterized quantum circuit dynamics for varying Rx rotations $\theta_h \in (0, \frac{\pi}{2}]$, using quantum annealing processors. Multiple disjoint instances of the Ising model of interest can be embedded onto the D-Wave Pegasus hardware graph, allowing for parallel quantum annealing. We report equivalent magnetization dynamics using quantum annealing for time steps of 20, 50 up to 10,000, which we find are consistent with exact classical 27 qubit heavy-hex Trotterized circuit magnetization dynamics, and we observe reasonable, albeit noisy, agreement with the existing simulations for single site magnetization at 20 Trotter steps. The quantum annealers are able to simulate equivalent magnetization dynamics for thousands of time steps, significantly out of the computational reach of the digital quantum computers on which the original Hamiltonian dynamics simulations were performed.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-26
# 安定化器状態とクリフォードゲートの古典的仕様に対する高速アルゴリズム

Fast algorithms for classical specifications of stabiliser states and Clifford gates ( http://arxiv.org/abs/2311.10357v3 )

ライセンス: Link先を確認
Nadish de Silva, Wilfred Salmon, Ming Yin, (参考訳) 安定化器形式は、量子コンピューティング、エラー修正、フォールトトレランスにおいて中心的な役割を果たす。 安定化状態は計算基底状態のエンコードに使用される。 クリフォードゲートは、最も一般的な誤り訂正方式で容易にフォールトトレラントに実行できるゲートである。 その数学的性質は重要な研究対象となっている。 安定化器状態とクリフォードゲートの異なる仕様の変換と検証は、量子情報における多くの古典的アルゴリズムの重要な構成要素であり、例えば、ゲート合成、回路最適化、量子回路のシミュレーションである。 これらのコア関数は、安定化器形式論に関する数学的予想を定式化し、検証するために重要な数値実験でも用いられる。 我々は安定化状態とクリフォードゲートに関する新しい数学的洞察を開発し、それらの記述を明確にした。 次に、これらを利用して、既存の実装に対して漸近的な利点を提供する、新しい10の高速アルゴリズムを提供します。 ベクトルが安定化状態であることを迅速に検証し、その仕様を振幅、二次形式、チェック行列として相互変換する方法を示す。 これらの手法を利用して、与えられたユニタリ行列がクリフォードゲートであるかどうかを迅速に確認し、クリフォードゲートの行列とそのコンパクトな仕様をスタビライザーテーブルーとして相互変換する。 例えば、クリフォードゲート行列の安定化テーブルーを$O(N \log N)$ timeで$N^2$エントリで抽出する。 注目すべきは、その安定化テーブルーを抽出するためにクリフォード行列のすべての要素を読む必要はないことである。 これは、量子ビット数において超指数的な最もよく知られた方法に対する漸近的なスピードアップである。 アルゴリズムのサンプル実装をPythonで提供します。

The stabiliser formalism plays a central role in quantum computing, error correction, and fault-tolerance. Stabiliser states are used to encode computational basis states. Clifford gates are those which can be easily performed fault-tolerantly in the most common error correction schemes. Their mathematical properties are the subject of significant research interest. Conversions between and verifications of different specifications of stabiliser states and Clifford gates are important components of many classical algorithms in quantum information, e.g. for gate synthesis, circuit optimisation, and for simulating quantum circuits. These core functions are also used in the numerical experiments critical to formulating and testing mathematical conjectures on the stabiliser formalism. We develop novel mathematical insights concerning stabiliser states and Clifford gates that significantly clarify their descriptions. We then utilise these to provide ten new fast algorithms which offer asymptotic advantages over any existing implementations. We show how to rapidly verify that a vector is a stabiliser state, and interconvert between its specification as amplitudes, a quadratic form, and a check matrix. These methods are leveraged to rapidly check if a given unitary matrix is a Clifford gate and to interconvert between the matrix of a Clifford gate and its compact specification as a stabiliser tableau. For example, we extract the stabiliser tableau of a Clifford gate matrix with $N^2$ entries in $O(N \log N)$ time. Remarkably, it is not necessary to read all the elements of a Clifford matrix to extract its stabiliser tableau. This is an asymptotic speedup over the best-known method that is superexponential in the number of qubits. We provide example implementations of our algorithms in Python.
翻訳日:2024-05-29 08:35:04 公開日:2024-05-26
# ベイズ推定器のフレクシスト評価のためのWカーネルと必須部分空間

W-kernel and essential subspace for frequencist evaluation of Bayesian estimators ( http://arxiv.org/abs/2311.13017v2 )

ライセンス: Link先を確認
Yukito Iba, (参考訳) 各観測の対数類似度で定義される後続共分散行列Wは、ベイズ推定器の感度解析とフレクシスト評価において重要な役割を果たす。 この研究は行列 W とその主空間に焦点をあて、後者を必須部分空間と呼ぶ。 フレケニストの性質を扱うための重要な道具は、最近提案されたベイズ無限小ジャックニフ近似 (Giordano and Broderick (2023)) である。 マトリックスWは再生カーネルと解釈でき、Wカーネルと表記される。 W-カーネルを用いて、必須部分空間はカーネルの主成分分析によって与えられる主空間として表現される。 フィッシャー・カーネルとニューラル・タンジェント・カーネルの関係が確立され、古典的漸近理論との関係が解明される。 また、カーネルフレームワークから自然に現れるベイズ・フレクシズムの双対性についても論じる。 最後に、2つの応用について論じる: 近似ブートストラップにおける観測の代表的な集合の選択と次元還元である。 前者では、必須部分空間を計算するための効率的な方法として、不完全コレスキー分解を導入している。 後者では、後部手段に対する近似ブートストラップの異なる実装を比較する。

The posterior covariance matrix W defined by the log-likelihood of each observation plays important roles both in the sensitivity analysis and frequencist evaluation of the Bayesian estimators. This study is focused on the matrix W and its principal space; we term the latter as an essential subspace. A key tool for treating frequencist properties is the recently proposed Bayesian infinitesimal jackknife approximation (Giordano and Broderick (2023)). The matrix W can be interpreted as a reproducing kernel and is denoted as W-kernel. Using W-kernel, the essential subspace is expressed as a principal space given by the kernel principal component analysis. A relation to the Fisher kernel and neural tangent kernel is established, which elucidates the connection to the classical asymptotic theory. We also discuss a type of Bayesian-frequencist duality, which is naturally appeared from the kernel framework. Finally, two applications are discussed: the selection of a representative set of observations and dimensional reduction in the approximate bootstrap. In the former, incomplete Cholesky decomposition is introduced as an efficient method for computing the essential subspace. In the latter, different implementations of the approximate bootstrap for posterior means are compared.
翻訳日:2024-05-29 08:35:04 公開日:2024-05-26
# DAOにおける社会的感覚のデコード:ブロックチェーンガバナンスコミュニティの比較分析

Decoding Social Sentiment in DAO: A Comparative Analysis of Blockchain Governance Communities ( http://arxiv.org/abs/2311.14676v3 )

ライセンス: Link先を確認
Yutong Quan, Xintong Wu, Wanlin Deng, Luyao Zhang, (参考訳) ブロックチェーン技術は、さまざまな業界で革命的な変革を導いており、ブロックチェーンプロジェクトの成功と持続可能性に効果的なガバナンスが不可欠である。 分散型自律組織(DAO)の関与に重要なコミュニティフォーラムは、ブロックチェーンのガバナンス決定に大きな影響を与えている。 同時に、自然言語処理(NLP)、特に感情分析は、テキストデータから強力な洞察を提供する。 これまでの研究では、ソーシャルメディアの感情分析におけるNLPツールの可能性について検討されてきたが、ブロックチェーンガバナンスコミュニティの感情状況を理解するにはギャップがある。 DAOの最上位のフォーラムにおける言論と感情のダイナミクスはほとんど不明である。 本稿では、主要なDeFiプロジェクトの公開フォーラム(Aave, Uniswap, Curve DAO, Yearn.finance, Merit Circle, Balancer)における議論と感情のダイナミクスを深く掘り下げ、主にガバナンス問題に関する議論に焦点を当てる。 本研究は、分散化コミュニティの参加者が、Discord議論において、概して肯定的な感情を表現していることを示している。 さらに、議論の強度と感情のダイナミクスの間には潜在的な相互作用があり、より高い議論のボリュームは、コード分析によるより安定した感情に寄与する可能性がある。 この調査から得られた洞察は、ブロックチェーンガバナンスにおける意思決定者にとって価値があり、コミュニティの感情の解釈における感情分析の重要な役割と、ブロックチェーンガバナンスの展望に対するその進化的な影響を説明している。 この研究は、ブロックチェーンと社会の交差点の学際的な探索に大きく貢献し、特に分散化されたブロックチェーンガバナンスエコシステムを強調している。 GitHubのオープンアクセスとして、複製性のためのデータとコードを提供しています。

Blockchain technology is leading a revolutionary transformation across diverse industries, with effective governance being critical for the success and sustainability of blockchain projects. Community forums, pivotal in engaging decentralized autonomous organizations (DAOs), significantly impact blockchain governance decisions. Concurrently, Natural Language Processing (NLP), particularly sentiment analysis, provides powerful insights from textual data. While prior research has explored the potential of NLP tools in social media sentiment analysis, there is a gap in understanding the sentiment landscape of blockchain governance communities. The evolving discourse and sentiment dynamics on the forums of top DAOs remain largely unknown. This paper delves deep into the evolving discourse and sentiment dynamics on the public forums of leading DeFi projects: Aave, Uniswap, Curve DAO, Yearn.finance, Merit Circle, and Balancer, focusing primarily on discussions related to governance issues. Our study shows that participants in decentralized communities generally express positive sentiments during Discord discussions. Furthermore, there is a potential interaction between discussion intensity and sentiment dynamics; higher discussion volume may contribute to a more stable sentiment from code analysis. The insights gained from this study are valuable for decision-makers in blockchain governance, underscoring the pivotal role of sentiment analysis in interpreting community emotions and its evolving impact on the landscape of blockchain governance. This research significantly contributes to the interdisciplinary exploration of the intersection of blockchain and society, specifically emphasizing the decentralized blockchain governance ecosystem. We provide our data and code for replicability as open access on GitHub.
翻訳日:2024-05-29 08:35:04 公開日:2024-05-26
# リンドブラッドレート方程式を持つ量子ラチェット

Quantum ratchet with Lindblad rate equations ( http://arxiv.org/abs/2311.15713v2 )

ライセンス: Link先を確認
Luis Octavio Castaños-Cervantes, Jesús Casado-Pascual, (参考訳) 量子ランダムウォークモデルは、2つの可能な状態の間で変動する1次元周期格子上に成立する。 このモデルは、2つの格子状態間の遷移速度を含むリンドブラッドレート方程式によって定義される。 系の対称性を利用して、状態空間が無限次元であるにもかかわらず、粒子速度は有限の方程式を用いて記述することができる。 これらの方程式は、方向運動の特性を解析するために使用される長期限界における速度の解析的表現を与える。 特に、速度は複数の反転を示すことができ、指向運動を達成するためには格子状態間の非ゼロ遷移速度が必要である。

A quantum random walk model is established on a one-dimensional periodic lattice that fluctuates between two possible states. This model is defined by Lindblad rate equations that incorporate the transition rates between the two lattice states. Leveraging the system's symmetries, the particle velocity can be described using a finite set of equations, even though the state space is of infinite dimension. These equations yield an analytical expression for the velocity in the long-time limit, which is employed to analyze the characteristics of directed motion. Notably, the velocity can exhibit multiple inversions, and to achieve directed motion, distinct, nonzero transition rates between lattice states are required.
翻訳日:2024-05-29 08:35:04 公開日:2024-05-26
# 自己充足型コード生成

Self-Infilling Code Generation ( http://arxiv.org/abs/2311.17972v3 )

ライセンス: Link先を確認
Lin Zheng, Jianbo Yuan, Zhi Zhang, Hongxia Yang, Lingpeng Kong, (参考訳) この作業では、インフィル操作を自動回帰デコードに組み込む一般的なフレームワークであるセルフインフィルコード生成を導入している。 提案手法は,近年の組み込み可能言語モデルでは,事前定義したプレフィックスと接尾辞に基づいて中央を埋めることを目的としているのに対し,自己埋め込みは周囲のコンテキストと埋め込んだコンテンツの両方を逐次生成する。 従来の復号化において, 新たな割り込みとループ機構を導入し, 非単調なプロセスへと進化させる。 割り込みは、確定接尾辞が確立するまで特定のコードの生成を延期し、出力の制御を強化する。 一方、自己充足と左から右への復号という相補的な性質を生かしたループ機構は、各世代を反復的に更新・同期することができる。 提案する復号処理が,複数のコード生成ベンチマークにおける正規性と品質の両立に有効であることを示すため,大規模な実験を行った。

This work introduces self-infilling code generation, a general framework that incorporates infilling operations into auto-regressive decoding. Our approach capitalizes on the observation that recent infilling-capable code language models can self-infill: whereas infilling operations aim to fill in the middle based on a predefined prefix and suffix, self-infilling sequentially generates both such surrounding context and the infilled content. We utilize this capability to introduce novel interruption and looping mechanisms in conventional decoding, evolving it into a non-monotonic process. Interruptions allow for postponing the generation of specific code until a definitive suffix is established, enhancing control over the output. Meanwhile, the looping mechanism, which leverages the complementary nature of self-infilling and left-to-right decoding, can iteratively update and synchronize each piece of generation cyclically. Extensive experiments are conducted to demonstrate that our proposed decoding process is effective in enhancing both regularity and quality across several code generation benchmarks.
翻訳日:2024-05-29 08:25:17 公開日:2024-05-26
# 4D-fy:ハイブリッドスコア蒸留サンプリングによるテキストから4D生成

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling ( http://arxiv.org/abs/2311.17984v2 )

ライセンス: Link先を確認
Sherwin Bahmani, Ivan Skorokhodov, Victor Rong, Gordon Wetzstein, Leonidas Guibas, Peter Wonka, Sergey Tulyakov, Jeong Joon Park, Andrea Tagliasacchi, David B. Lindell, (参考訳) 最近のテキスト・ツー・4D生成のブレークスルーは、動的3Dシーンを生成するために、事前訓練されたテキスト・ツー・イメージとテキスト・ツー・ビデオモデルに依存している。 しかし、現在のテキストから4Dの手法は、シーンの外観、立体構造、動きの質の3方向のトレードオフに直面している。 例えば、テキスト・ツー・イメージモデルとその3D対応モデルは、インターネット規模の画像データセットに基づいてトレーニングされており、現実的な外観と3D構造を持つシーンを生成するために使用できる。 テキスト・トゥ・ビデオモデルは比較的小さなビデオデータセットでトレーニングされており、動きのあるシーンを生成することができるが、外観や3D構造はより貧弱である。 これらのモデルには相補的な長所があるが、相補的な短所もあるため、この3方向のトレードオフを軽減する方法でそれらを組み合わせることは困難である。 本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法について紹介する。 ハイブリッドSDSを用いて, 魅力的な外観, 3次元構造, 動きを持つ4次元シーンの合成を実演する。

Recent breakthroughs in text-to-4D generation rely on pre-trained text-to-image and text-to-video models to generate dynamic 3D scenes. However, current text-to-4D methods face a three-way tradeoff between the quality of scene appearance, 3D structure, and motion. For example, text-to-image models and their 3D-aware variants are trained on internet-scale image datasets and can be used to produce scenes with realistic appearance and 3D structure -- but no motion. Text-to-video models are trained on relatively smaller video datasets and can produce scenes with motion, but poorer appearance and 3D structure. While these models have complementary strengths, they also have opposing weaknesses, making it difficult to combine them in a way that alleviates this three-way tradeoff. Here, we introduce hybrid score distillation sampling, an alternating optimization procedure that blends supervision signals from multiple pre-trained diffusion models and incorporates benefits of each for high-fidelity text-to-4D generation. Using hybrid SDS, we demonstrate synthesis of 4D scenes with compelling appearance, 3D structure, and motion.
翻訳日:2024-05-29 08:25:17 公開日:2024-05-26
# セマンティックノイズ感度の緩和による非参照画像品質評価のための適応的特徴選択

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity ( http://arxiv.org/abs/2312.06158v2 )

ライセンス: Link先を確認
Xudong Li, Timin Gao, Runze Hu, Yan Zhang, Shengchuan Zhang, Xiawu Zheng, Jingyuan Zheng, Yunhang Shen, Ke Li, Yutao Liu, Pingyang Dai, Rongrong Ji, (参考訳) 現在最先端のNo-Reference Image Quality Assessment (NR-IQA) 手法は、すべての特徴が関連していると仮定して、上流のセマンティックバックボーンネットワークからの特徴抽出に依存している。 しかし、すべての特徴が有益である訳ではなく、有害なものもあり、慎重に選択する必要のあるものもあります。 実験により, 空間距離が小さい画像対は, 品質スコアが著しく異なることが判明し, 抽出した特徴量に有意な品質関連ノイズが生じる可能性が示唆された。 この問題に対処するため,上流タスクから有害なセマンティックノイズを除去するために,逆視点を用いたQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。 具体的には、QFM-IQMは、画像対を類似の品質スコアとマッチングすることでセマンティックノイズ識別能力を向上するが、対向的なセマンティックノイズとしてのセマンティック特徴の変化は、対向的なノイズ摂動に対する感度を低減し、上流タスクの特徴を適応的に調整する。 さらに, 蒸留フレームワークを用いてデータセットを拡張し, モデルの一般化能力を向上させる。 提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。

The current state-of-the-art No-Reference Image Quality Assessment (NR-IQA) methods typically rely on feature extraction from upstream semantic backbone networks, assuming that all extracted features are relevant. However, we make a key observation that not all features are beneficial, and some may even be harmful, necessitating careful selection. Empirically, we find that many image pairs with small feature spatial distances can have vastly different quality scores, indicating that the extracted features may contain a significant amount of quality-irrelevant noise. To address this issue, we propose a Quality-Aware Feature Matching IQA Metric (QFM-IQM) that employs an adversarial perspective to remove harmful semantic noise features from the upstream task. Specifically, QFM-IQM enhances the semantic noise distinguish capabilities by matching image pairs with similar quality scores but varying semantic features as adversarial semantic noise and adaptively adjusting the upstream task's features by reducing sensitivity to adversarial noise perturbation. Furthermore, we utilize a distillation framework to expand the dataset and improve the model's generalization ability. Our approach achieves superior performance to the state-of-the-art NR-IQA methods on eight standard IQA datasets.
翻訳日:2024-05-29 08:25:17 公開日:2024-05-26
# ポイントプロンプトインスタンスセグメンテーションのための意味認識SAM

Semantic-aware SAM for Point-Prompted Instance Segmentation ( http://arxiv.org/abs/2312.15895v2 )

ライセンス: Link先を確認
Zhaoyang Wei, Pengfei Chen, Xuehui Yu, Guorong Li, Jianbin Jiao, Zhenjun Han, (参考訳) 視覚タスクにおける単一点アノテーションは、ラベル付けコストを最小限にすることを目的としており、研究で注目されている。 最近、Segment Anything (SAM) のような視覚基盤モデルは、堅牢なゼロショット機能と例外的なアノテーション性能のために広く使われている。 しかし、SAMのクラスに依存しない出力と局所的セグメンテーションへの高い信頼は「意味的あいまいさ」を導入し、正確なカテゴリー別セグメンテーションに挑戦する。 本稿では,SAMを用いた費用対効果の高いカテゴリー別セグメンタを提案する。 この課題に対処するために,複数インスタンス学習(MIL)と整合性を備えたSAMとポイントプロンプトを備えたセマンティック・アウェア・インスタンスセグメンテーション・ネットワーク(SAPNet)を開発した。 SAPNetはSAMによって生成される最も代表的なマスクの提案を戦略的に選択し、セグメンテーションを監督する。 さらに,「グループ」と「ローカル」の課題を弱教師付きセグメンテーションにおいて緩和するために,ポイントディスタンスガイダンスとボックスマイニング戦略を導入する。 これらの戦略は、セグメンテーション全体のパフォーマンスをさらに向上させるのに役立つ。 Pascal VOCとCOCOの実験結果は、提案したSAPNetの有望な性能を示し、そのセマンティックマッチング機能と、ポイントプロンプトされたインスタンスセグメンテーションを前進させる可能性を強調した。 コードは公開されます。

Single-point annotation in visual tasks, with the goal of minimizing labelling costs, is becoming increasingly prominent in research. Recently, visual foundation models, such as Segment Anything (SAM), have gained widespread usage due to their robust zero-shot capabilities and exceptional annotation performance. However, SAM's class-agnostic output and high confidence in local segmentation introduce 'semantic ambiguity', posing a challenge for precise category-specific segmentation. In this paper, we introduce a cost-effective category-specific segmenter using SAM. To tackle this challenge, we have devised a Semantic-Aware Instance Segmentation Network (SAPNet) that integrates Multiple Instance Learning (MIL) with matching capability and SAM with point prompts. SAPNet strategically selects the most representative mask proposals generated by SAM to supervise segmentation, with a specific focus on object category information. Moreover, we introduce the Point Distance Guidance and Box Mining Strategy to mitigate inherent challenges: 'group' and 'local' issues in weakly supervised segmentation. These strategies serve to further enhance the overall segmentation performance. The experimental results on Pascal VOC and COCO demonstrate the promising performance of our proposed SAPNet, emphasizing its semantic matching capabilities and its potential to advance point-prompted instance segmentation. The code will be made publicly available.
翻訳日:2024-05-29 08:15:32 公開日:2024-05-26
# 悲観的二段階最適化による決定に焦点を当てた予測:計算的研究

Decision-focused predictions via pessimistic bilevel optimization: a computational study ( http://arxiv.org/abs/2312.17640v2 )

ライセンス: Link先を確認
Víctor Bucarey, Sophia Calderón, Gonzalo Muñoz, Frederic Semet, (参考訳) 最適化パラメータの不確実性に対処することは、重要かつ長年にわたる課題である。 通常、不確実なパラメータを正確に予測し、決定論的最適化問題を解く。 しかし、このいわゆる \emph{predict-then-Optimize} 手順による決定は、不確実なパラメータに非常に敏感である。 本研究は,<emph{regret>尺度を最小化することを目的として構築された予測モデルを構築することを目的とした,<emph{decision</de>予測の作成における最近の取り組みに貢献する。 まず、悲観的二段階最適化モデルとして、正確に予測された後悔最小化を定式化することから始める。 そして、厳密に制限された場合であっても、この問題のNP完全性を確立する。 双対性引数を用いて、非凸二次最適化問題として再定義する。 最後に,トラクタビリティを実現するための様々な計算手法を示す。 コストベクトルが不確実なショートパスの場合の計算結果について報告する。 提案手法は, 意思決定型学習の最先端手法であるElmachtoub と Grigas (2022) のアプローチにより, トレーニング性能を向上させることができることを示す。

Dealing with uncertainty in optimization parameters is an important and longstanding challenge. Typically, uncertain parameters are predicted accurately, and then a deterministic optimization problem is solved. However, the decisions produced by this so-called \emph{predict-then-optimize} procedure can be highly sensitive to uncertain parameters. In this work, we contribute to recent efforts in producing \emph{decision-focused} predictions, i.e., to build predictive models that are constructed with the goal of minimizing a \emph{regret} measure on the decisions taken with them. We begin by formulating the exact expected regret minimization as a pessimistic bilevel optimization model. Then, we establish NP-completeness of this problem, even in a heavily restricted case. Using duality arguments, we reformulate it as a non-convex quadratic optimization problem. Finally, we show various computational techniques to achieve tractability. We report extensive computational results on shortest-path instances with uncertain cost vectors. Our results indicate that our approach can improve training performance over the approach of Elmachtoub and Grigas (2022), a state-of-the-art method for decision-focused learning.
翻訳日:2024-05-29 08:15:32 公開日:2024-05-26
# 騙しの技:トリガーの動的積み重ねによるロバストなバックドア攻撃

The Art of Deception: Robust Backdoor Attack using Dynamic Stacking of Triggers ( http://arxiv.org/abs/2401.01537v2 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)の領域は、AI(Artificial Intelligence)産業の最近の進歩により、実装が増加している。 しかし、このスパイクはAI防衛機構、特に完全に信頼できないサードパーティプロバイダによる隠蔽攻撃に関する懸念を引き起こしている。 近年の研究では、聴覚バックドアが特定の変更を開始メカニズムとして用いる可能性があることが判明している。 DynamicTriggerは、巧妙にデザインされた微調整を使用して、破損したサンプルがクリーンと区別できないことを保証する動的バックドアアタックを実行するための方法論として紹介されている。 ゆらぎ信号のサンプリングレートと動音トリガーによる話者の身元をマスキングすることにより、音声認識システム(ASR)を欺くことができる。 実験的なテストでは、DynamicTriggerは強力かつステルス的であり、非ポゾンデータセットによる例外的な精度を維持しながら、隠蔽攻撃による顕著な成功率を実現しています。

The area of Machine Learning as a Service (MLaaS) is experiencing increased implementation due to recent advancements in the AI (Artificial Intelligence) industry. However, this spike has prompted concerns regarding AI defense mechanisms, specifically regarding potential covert attacks from third-party providers that cannot be entirely trusted. Recent research has uncovered that auditory backdoors may use certain modifications as their initiating mechanism. DynamicTrigger is introduced as a methodology for carrying out dynamic backdoor attacks that use cleverly designed tweaks to ensure that corrupted samples are indistinguishable from clean. By utilizing fluctuating signal sampling rates and masking speaker identities through dynamic sound triggers (such as the clapping of hands), it is possible to deceive speech recognition systems (ASR). Our empirical testing demonstrates that DynamicTrigger is both potent and stealthy, achieving impressive success rates during covert attacks while maintaining exceptional accuracy with non-poisoned datasets.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# より強力な拡散モデル, バックドアの容易性: 微調整パイプラインを調整せずに著作権侵害を誘発するデータポジショニング

The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline ( http://arxiv.org/abs/2401.04136v2 )

ライセンス: Link先を確認
Haonan Wang, Qianli Shen, Yao Tong, Yang Zhang, Kenji Kawaguchi, (参考訳) テキスト・ツー・イメージ拡散モデル(DM)の商業化は、潜在的な著作権上の懸念を引き起こす。 DMを著作権問題から保護しようとする試みは数多くあるが、これらのソリューションの脆弱性は過小評価されている。 本研究では,生成AIモデルに対する著作権侵害攻撃を形式化し,トレーニングプロセスへのアクセスや制御を必要とせずに著作権侵害を誘発するバックドア攻撃手法であるSilentBadDiffusionを提案する。 本手法は, 有害データに著作権情報とテキスト参照の接続を戦略的に埋め込むとともに, その情報を慎重に分散させ, クリーンデータセットに組み込んだ場合, 有害データを目立たなくする。 本実験は, 汚染データの盗みと有効性を示すものである。 特定のテキストプロンプトが与えられた場合、0.20%の毒性比で訓練されたDMは著作権のある画像を生成することができる。 さらに, DMの高度化が進むほど, 攻撃成功の容易化が図られた。 これらの知見は、広く普及している著作権保護戦略の潜在的な落とし穴を浮き彫りにし、DMの誤使用を防ぐための監視強化の必要性を浮き彫りにしている。

The commercialization of text-to-image diffusion models (DMs) brings forth potential copyright concerns. Despite numerous attempts to protect DMs from copyright issues, the vulnerabilities of these solutions are underexplored. In this study, we formalized the Copyright Infringement Attack on generative AI models and proposed a backdoor attack method, SilentBadDiffusion, to induce copyright infringement without requiring access to or control over training processes. Our method strategically embeds connections between pieces of copyrighted information and text references in poisoning data while carefully dispersing that information, making the poisoning data inconspicuous when integrated into a clean dataset. Our experiments show the stealth and efficacy of the poisoning data. When given specific text prompts, DMs trained with a poisoning ratio of 0.20% can produce copyrighted images. Additionally, the results reveal that the more sophisticated the DMs are, the easier the success of the attack becomes. These findings underline potential pitfalls in the prevailing copyright protection strategies and underscore the necessity for increased scrutiny to prevent the misuse of DMs.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# AutoAct: セルフプランニングによるQAのためのスクラッチからの自動エージェント学習

AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning ( http://arxiv.org/abs/2401.05268v4 )

ライセンス: Link先を確認
Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen, (参考訳) 言語エージェントは、様々な複雑な質問応答タスクにおいて、外部ツールで計画することで、かなりのパフォーマンスを達成した。 この分野での必要不可欠な探索にもかかわらず、既存の言語エージェントシステムは、コストがかかる、再現不可能なデータ依存に苦慮し、複数の機能に対して単一のモデルを説得するという課題に直面している。 そこで本研究では,大規模アノテートデータや,クローズドソースモデル(GPT-4)からの合成計画トラジェクトリに依存しない,QAのための自動エージェント学習フレームワークであるAutoActを紹介する。 ツールライブラリによる限られたデータから、AutoActはまず、人間や強力なクローズドソースモデルの助けなしに、計画トラジェクトリを自動で合成する。 次に、AutoActは、作業の分割戦略を利用して、目標とするタスク情報と軌跡を自動で識別し、タスクを完了させるサブエージェントグループを生成する。 我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能が得られることを示した。 さらに分析した結果,AutoActが生み出す軌道品質が他よりも優れており,作業戦略の分割の有効性が示された。 コードはhttps://github.com/zjunlp/AutoAct.comから入手できる。

Language agents have achieved considerable performance on various complex question-answering tasks by planning with external tools. Despite the incessant exploration in this field, existing language agent systems still struggle with costly, non-reproducible data reliance and face the challenge of compelling a single model for multiple functions. To this end, we introduce AutoAct, an automatic agent learning framework for QA that does not rely on large-scale annotated data and synthetic planning trajectories from closed-source models (e.g., GPT-4). Given limited data with a tool library, AutoAct first automatically synthesizes planning trajectories without any assistance from humans or strong closed-source models. Then, AutoAct leverages a division-of-labor strategy to automatically differentiate based on the target task information and synthesized trajectories, producing a sub-agent group to complete the task. We conduct comprehensive experiments with different LLMs, which demonstrates that AutoAct yields better or parallel performance compared to various strong baselines. Further analysis demonstrates the effectiveness of the division-of-labor strategy, with the trajectory quality generated by AutoAct generally outperforming that of others. Code will be available at https://github.com/zjunlp/AutoAct.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# 医用画像セグメンテーションのための高密度階層表現の自己教師型学習

Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation ( http://arxiv.org/abs/2401.06473v2 )

ライセンス: Link先を確認
Eytan Kats, Jochen G. Hirsch, Mattias P. Heinrich, (参考訳) 本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。 我々のアプローチは、階層的表現学習の既存の手法は、固有のアーキテクチャバイアスにより、局所的な特徴よりもグローバルな特徴を優先する傾向にある、という観察に由来する。 この課題に対処するために、複数のスケールからの機能のコントリビューションのバランスをとるトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。 当社の戦略は,(1)局所的なデータ拡張,(2)階層的にバランスのとれたアーキテクチャ,(3)ハイブリッドなコントラスト型損失関数の3つの改良を取り入れている。 我々はCTおよびMRIデータに対する本手法の評価を行い,本手法が限られた注釈付きデータを用いた微調整に特に有用であることを示す。

This paper demonstrates a self-supervised framework for learning voxel-wise coarse-to-fine representations tailored for dense downstream tasks. Our approach stems from the observation that existing methods for hierarchical representation learning tend to prioritize global features over local features due to inherent architectural bias. To address this challenge, we devise a training strategy that balances the contributions of features from multiple scales, ensuring that the learned representations capture both coarse and fine-grained details. Our strategy incorporates 3-fold improvements: (1) local data augmentations, (2) a hierarchically balanced architecture, and (3) a hybrid contrastive-restorative loss function. We evaluate our method on CT and MRI data and demonstrate that our new approach particularly beneficial for fine-tuning with limited annotated data and consistently outperforms the baseline counterpart in linear evaluation settings.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# VMamba: Visual State Space Model

VMamba: Visual State Space Model ( http://arxiv.org/abs/2401.10166v3 )

ライセンス: Link先を確認
Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu, (参考訳) 計算効率の良いネットワークアーキテクチャを設計することは、コンピュータビジョンにおける継続的な必要性として維持される。 本稿では,状態空間の言語モデルであるMambaを,線形時間複雑性で動作する視覚バックボーンであるVMambaに移植する。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。 SS2Dは4つの走査経路に沿って移動することで、1D選択走査の順序された性質と2D視覚データの非逐次構造とのギャップを埋めるのに役立ち、様々な情報源や視点からのコンテキスト情報の収集を容易にする。 VSSブロックに基づいて、VMambaアーキテクチャのファミリーを開発し、アーキテクチャと実装の強化を継承してそれらを加速します。 大規模な実験では、VMambaが様々な視覚的知覚タスクにまたがる有望なパフォーマンスを示し、既存のベンチマークモデルと比較して、入力スケーリング効率の利点を強調している。 ソースコードはhttps://github.com/MzeroMiko/VMamba.comで入手できる。

Designing computationally efficient network architectures persists as an ongoing necessity in computer vision. In this paper, we transplant Mamba, a state-space language model, into VMamba, a vision backbone that works in linear time complexity. At the core of VMamba lies a stack of Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module. By traversing along four scanning routes, SS2D helps bridge the gap between the ordered nature of 1D selective scan and the non-sequential structure of 2D vision data, which facilitates the gathering of contextual information from various sources and perspectives. Based on the VSS blocks, we develop a family of VMamba architectures and accelerate them through a succession of architectural and implementation enhancements. Extensive experiments showcase VMamba's promising performance across diverse visual perception tasks, highlighting its advantages in input scaling efficiency compared to existing benchmark models. Source code is available at https://github.com/MzeroMiko/VMamba.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# FLLIC:機能的にロスレスな画像圧縮

FLLIC: Functionally Lossless Image Compression ( http://arxiv.org/abs/2401.13616v2 )

ライセンス: Link先を確認
Xi Zhang, Xiaolin Wu, (参考訳) 近年、ロスレス画像符号化のためのDNNモデルは圧縮性能において従来のモデルを上回っており、自然色画像のビットレートを約10%削減している。 しかし、これらの進歩にもかかわらず、自然画像に対する数学的に損失のない画像圧縮(MLLIC)比は、現在でもなお、最も実用的な画像と視覚システムの帯域幅と費用対効果の要件に満たない。 MLLICの圧縮性能のボトルネックを解消するためには、ほとんどのデジタルセンサが本質的に取得ノイズを導入し、数学的に損失のない圧縮を非生産的にするので、MLLICの必要性を疑問視する。 そこで,MLLICとは対照的に,最適な復号化画像のロスレス圧縮を行うFLLIC (Functional Losless Image compression) と呼ばれる,共同の復号化・圧縮のパラダイムを提案する。 FLLICはノイズのないオリジナル画像の最高の再構成を実現することを目的としている。 広汎な実験により,FLLICは雑音画像の調音・圧縮において最先端の性能を達成し,計算コストの低減を図っている。

Recently, DNN models for lossless image coding have surpassed their traditional counterparts in compression performance, reducing the bit rate by about ten percent for natural color images. But even with these advances, mathematically lossless image compression (MLLIC) ratios for natural images still fall short of the bandwidth and cost-effectiveness requirements of most practical imaging and vision systems at present and beyond. To break the bottleneck of MLLIC in compression performance, we question the necessity of MLLIC, as almost all digital sensors inherently introduce acquisition noises, making mathematically lossless compression counterproductive. Therefore, in contrast to MLLIC, we propose a new paradigm of joint denoising and compression called functionally lossless image compression (FLLIC), which performs lossless compression of optimally denoised images (the optimality may be task-specific). Although not literally lossless with respect to the noisy input, FLLIC aims to achieve the best possible reconstruction of the latent noise-free original image. Extensive experiments show that FLLIC achieves state-of-the-art performance in joint denoising and compression of noisy images and does so at a lower computational cost.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-26
# 語彙決定セマンティックスによるLM潜時空間の絡み合いの実現

Realizing Disentanglement in LM Latent Space via Vocabulary-Defined Semantics ( http://arxiv.org/abs/2401.16184v5 )

ライセンス: Link先を確認
Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang, (参考訳) 言語モデル(LM)の潜在空間を理解することは、LMの性能と解釈可能性を向上させるために重要である。 既存の分析は、しばしば言語モデルのセマンティックな特性を利用する洞察を与えず、しばしば言語モデル適応の重要な側面を見落としている。 そこで我々は,LMラテント空間内のLM語彙を基盤とした参照フレームを確立する,語彙定義セマンティクス(vocabulary-defined semantics)という先駆的手法を提案する。 語彙上での絡み合いではなく,潜在空間における不絡み合いの対数や勾配を計算する新しい手法を提案する。 さらに,データ表現のセマンティッククラスタリングを,LM適応の新たな方法として実施する。 多様なテキスト理解データセットの広範な実験を通じて、本手法は検索強化生成とパラメータ効率の微調整の最先端手法より優れており、その有効性と効率性を示している。

Understanding the latent space of language models (LMs) is important for improving the performance and interpretability of LMs. Existing analyses often fail to provide insights that take advantage of the semantic properties of language models and often overlook crucial aspects of language model adaptation. In response, we introduce a pioneering approach called vocabulary-defined semantics, which establishes a reference frame grounded in LM vocabulary within the LM latent space. We propose a novel technique to compute disentangled logits and gradients in latent space, not entangled ones on vocabulary. Further, we perform semantical clustering on data representations as a novel way of LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach outperforms state-of-the-art methods of retrieval-augmented generation and parameter-efficient finetuning, showcasing its effectiveness and efficiency.
翻訳日:2024-05-29 07:54:38 公開日:2024-05-26
# 表現工学を用いた言語モデルにおけるアライメントとヘルプフルネスのトレードオフ

Tradeoffs Between Alignment and Helpfulness in Language Models with Representation Engineering ( http://arxiv.org/abs/2401.16332v3 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine, Amnon Shashua, (参考訳) 言語モデルのアライメントはAIの安全性の重要なコンポーネントとなり、望ましい行動を強化し、望ましくない行動を抑制することによって、人間と言語モデルの安全な相互作用を可能にする。 しばしば、モデルをチューニングしたり、プリセットされたアライメントプロンプトを挿入することで行われる。 近年,LLMの整列化に有効な表現工学(Zou et al , 2023a)が提案されている。 表現工学は、敵対的攻撃に対する抵抗や社会的偏見の減少など、アライメント指向のタスクに利益をもたらすが、モデルの基本的タスクを実行する能力の低下を引き起こすことも示されている。 本稿では,アライメントの増大とモデルの有用性の低下のトレードオフについて検討する。 この2つの量に境界を与える理論的枠組みを提案し、その妥当性を実証的に示す。 まず、我々のフレームワークの条件下では、アライメントは表現工学によって保証され、同時にそのプロセスにおいて有用性が害されることが分かる。 第2に,表現工学ベクトルのノルムにより有用性が2次的に損なわれる一方で,アライメントが線形に増加することを示し,表現工学を効果的に活用できる状態を示す。 その結果を実証的に検証し,その境界線をアライメントのための表現工学の有用性にグラフ化する。

Language model alignment has become an important component of AI safety, allowing safe interactions between humans and language models, by enhancing desired behaviors and inhibiting undesired ones. It is often done by tuning the model or inserting preset aligning prompts. Recently, representation engineering, a method which alters the model's behavior via changing its representations post-training, was shown to be effective in aligning LLMs (Zou et al., 2023a). Representation engineering yields gains in alignment oriented tasks such as resistance to adversarial attacks and reduction of social biases, but was also shown to cause a decrease in the ability of the model to perform basic tasks. In this paper we study the tradeoff between the increase in alignment and decrease in helpfulness of the model. We propose a theoretical framework which provides bounds for these two quantities, and demonstrate their relevance empirically. First, we find that under the conditions of our framework, alignment can be guaranteed with representation engineering, and at the same time that helpfulness is harmed in the process. Second, we show that helpfulness is harmed quadratically with the norm of the representation engineering vector, while the alignment increases linearly with it, indicating a regime in which it is efficient to use representation engineering. We validate our findings empirically, and chart the boundaries to the usefulness of representation engineering for alignment.
翻訳日:2024-05-29 07:54:38 公開日:2024-05-26
# ブロックチェーン上のブロックチェーン構築のための回路的アプローチ

A Circuit Approach to Constructing Blockchains on Blockchains ( http://arxiv.org/abs/2402.00220v3 )

ライセンス: Link先を確認
Ertem Nusret Tas, David Tse, Yifei Wang, (参考訳) 15年前にBitcoinが誕生して以来、無許可のブロックチェーンの数が爆発的に増えている。 これらのブロックチェーンは、誰でも読み書きできるオープンな台帳を提供する。 このマルチチェーンの世界では、重要な疑問が浮かび上がっています – 特定のブロックチェーンセットを読み書きすることで、よりセキュアなオーバーレイブロックチェーンを構築するにはどうすればよいのでしょう? スイッチング回路に類似した図を描き、ブロックチェーン間の2つの基本的な構成操作、シリアルと三角形の合成を定義し、これらの操作をビルディングブロックとして使用して、一般的なオーバーレイブロックチェーンを構築する。 部分的に同期した設定では、以下の結果が得られる。 1) 2つのブロックチェーン間のシリアル構成は、少なくとも2つのアンダーレイブロックチェーンのうちの1つが安全で、両方のアンダーレイブロックチェーンが稼働している場合はライブである場合、安全であるオーバーレイブロックチェーンを生成する。 2) スイッチング回路の並列構成に類似した3つのブロックチェーン間の三角形構成は,すべてのアンダーレイブロックチェーンが安全で,少なくとも半数が稼働している場合はライブである場合に,オーバレイブロックチェーンを生成する。 3) この2つの基本的な操作の繰り返し構成は、任意の数のアンダーレイチェーン上に構築されたオーバーレイブロックチェーンに対して、安全性と生存性のすべてのトレードオフをもたらすことができる。 結果は同期設定にも拡張される。

Since the creation of Bitcoin 15 years ago, there has been an explosion in the number of permissionless blockchains. Each of these blockchains provides an open ledger that anyone can read from and write to. In this multi-chain world, an important question emerges: how can we build a more secure overlay blockchain by reading from and writing to a given set of blockchains? Drawing an analogy with switching circuits, we approach the problem by defining two basic compositional operations between blockchains, serial and triangular compositions, and use these operations as building blocks to construct general overlay blockchains. Under the partially synchronous setting, we have the following results: 1) the serial composition, between two blockchains, yields an overlay blockchain that is safe if at least one of the two underlay blockchains is safe and that is live if both underlay blockchains are live; 2) the triangular composition between three blockchains, akin to parallel composition of switching circuits, yields an overlay blockchain that is safe if all underlay blockchains are safe and that is live if at least half of them are live; 3) repeated composition of these two basic operations can yield all possible tradeoffs of safety and liveness for an overlay blockchain built on arbitrary number of underlay chains. The results are also extended to the synchronous setting.
翻訳日:2024-05-29 07:54:38 公開日:2024-05-26
# InViT: 不変Nested View Transformerを用いた一般化可能なルーティング問題の解法

INViT: A Generalizable Routing Problem Solver with Invariant Nested View Transformer ( http://arxiv.org/abs/2402.02317v3 )

ライセンス: Link先を確認
Han Fang, Zhihao Song, Paul Weng, Yutong Ban, (参考訳) 近年,ルーティング問題を解くための高速ヒューリスティックスを学習する上で,深い強化学習が有望な成果を上げている。 一方、ほとんどの解法は、異なるスケールの未知の分布や分布への一般化に苦しむ。 Invariant Nested View Transformer (INViT) と呼ばれる新しいアーキテクチャを提案する。このアーキテクチャは、エンコーダ内部の不変ビューとともにネストされた設計を強制し、学習したソルバの一般化を促進する。 データ拡張によって強化されたポリシー勾配アルゴリズムを適用する。 提案したINViTは、様々な分布と異なる問題スケールを持つTSPとCVRPの両問題に対して、支配的な一般化性能を達成できることを実証する。

Recently, deep reinforcement learning has shown promising results for learning fast heuristics to solve routing problems. Meanwhile, most of the solvers suffer from generalizing to an unseen distribution or distributions with different scales. To address this issue, we propose a novel architecture, called Invariant Nested View Transformer (INViT), which is designed to enforce a nested design together with invariant views inside the encoders to promote the generalizability of the learned solver. It applies a modified policy gradient algorithm enhanced with data augmentations. We demonstrate that the proposed INViT achieves a dominant generalization performance on both TSP and CVRP problems with various distributions and different problem scales.
翻訳日:2024-05-29 07:44:38 公開日:2024-05-26
# Koopman演算子を用いた局所過勾配推定

Glocal Hypergradient Estimation with Koopman Operator ( http://arxiv.org/abs/2402.02741v2 )

ライセンス: Link先を確認
Ryuichiro Hataya, Yoshinobu Kawahara, (参考訳) 勾配に基づくハイパーパラメータ最適化手法は、ハイパーパラメータに対するメタ基準の勾配である過勾配を用いてハイパーパラメータを更新する。 これまでの研究では、2つの異なる更新戦略を使用していた。モデルトレーニングを完了した後に得られたグローバルなハイパーパラメータを使用したハイパーパラメータの最適化や、数回のモデル更新後に導出されたローカルなハイパーパラメータの最適化である。 グローバルなハイパーグラディエントは信頼性を提供するが、その計算コストは著しく、逆に局所的なハイパーグラディエントは速度を提供するが、しばしば準最適である。 本稿では,「グローバル」品質と「ローカル」効率をブレンドした*glocal*ハイパーグラディエント推定法を提案する。 この目的のために、我々はKoopman演算子理論を用いて超勾配の力学を線形化し、大域超勾配を局所超勾配の軌跡を用いてのみ効率的に近似することができる。 その結果、推定された大域的過度度を用いて過度パラメータを厳格に最適化することができ、信頼性と効率の両方を同時に達成できる。 最適化器の最適化を含むハイパーパラメータ最適化の数値実験を通じて,局所的過勾配推定の有効性を実証する。

Gradient-based hyperparameter optimization methods update hyperparameters using hypergradients, gradients of a meta criterion with respect to hyperparameters. Previous research used two distinct update strategies: optimizing hyperparameters using global hypergradients obtained after completing model training or local hypergradients derived after every few model updates. While global hypergradients offer reliability, their computational cost is significant; conversely, local hypergradients provide speed but are often suboptimal. In this paper, we propose *glocal* hypergradient estimation, blending "global" quality with "local" efficiency. To this end, we use the Koopman operator theory to linearize the dynamics of hypergradients so that the global hypergradients can be efficiently approximated only by using a trajectory of local hypergradients. Consequently, we can optimize hyperparameters greedily using estimated global hypergradients, achieving both reliability and efficiency simultaneously. Through numerical experiments of hyperparameter optimization, including optimization of optimizers, we demonstrate the effectiveness of the glocal hypergradient estimation.
翻訳日:2024-05-29 07:44:38 公開日:2024-05-26
# 道路シーン理解のためのマルチモーダルマルチタスク基礎モデルの構築:パラダイムの学習から

Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives ( http://arxiv.org/abs/2402.02968v2 )

ライセンス: Link先を確認
Sheng Luo, Wei Chen, Wanxin Tian, Rui Liu, Luanxuan Hou, Xiubao Zhang, Haifeng Shen, Ruiqi Wu, Shuyi Geng, Yi Zhou, Ling Shao, Yi Yang, Bojun Gao, Qun Li, Guobin Wu, (参考訳) ファンデーションモデルは様々な分野に大きな影響を与えており、インテリジェントシステムの能力を著しく形作る重要なコンポーネントとして現れている。 インテリジェントな車両の文脈では、基礎モデルのパワーを活用することは革新的であることが証明され、視覚的理解の顕著な進歩をもたらした。 マルチモーダル・マルチタスク学習機能を備えたマルチモーダル・マルチタスク視覚理解基盤モデル(MM-VUFM)は、多様なモーダルからのデータ処理と融合を効果的に行い、同時に様々な運転関連タスクを強力な適応性で処理し、周囲のシーンのより包括的な理解に寄与する。 本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。 我々の目標は、タスク固有のモデル、統合マルチモーダルモデル、統一マルチタスクモデル、基礎モデル推進技術など、共通プラクティスの包括的な概要を提供するだけでなく、多様な学習パラダイムにおける彼らの高度な能力を強調することにある。 これらのパラダイムには、オープンワールド理解、ロードシーンの効率的な転送、継続的な学習、インタラクティブで生成能力が含まれる。 さらに、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題や今後のトレンドに関する洞察を提供する。 道路シーンにおけるMM-VUFMの最近の発展を反映させるため,我々はhttps://github.com/rolsheng/MM-VUFM4DSに継続的に更新されたレポジトリを構築した。

Foundation models have indeed made a profound impact on various fields, emerging as pivotal components that significantly shape the capabilities of intelligent systems. In the context of intelligent vehicles, leveraging the power of foundation models has proven to be transformative, offering notable advancements in visual understanding. Equipped with multi-modal and multi-task learning capabilities, multi-modal multi-task visual understanding foundation models (MM-VUFMs) effectively process and fuse data from diverse modalities and simultaneously handle various driving-related tasks with powerful adaptability, contributing to a more holistic understanding of the surrounding scene. In this survey, we present a systematic analysis of MM-VUFMs specifically designed for road scenes. Our objective is not only to provide a comprehensive overview of common practices, referring to task-specific models, unified multi-modal models, unified multi-task models, and foundation model prompting techniques, but also to highlight their advanced capabilities in diverse learning paradigms. These paradigms include open-world understanding, efficient transfer for road scenes, continual learning, interactive and generative capability. Moreover, we provide insights into key challenges and future trends, such as closed-loop driving systems, interpretability, embodied driving agents, and world models. To facilitate researchers in staying abreast of the latest developments in MM-VUFMs for road scenes, we have established a continuously updated repository at https://github.com/rolsheng/MM-VUFM4DS
翻訳日:2024-05-29 07:44:38 公開日:2024-05-26
# 条件拡散のための球面ガウス制約による誘導

Guidance with Spherical Gaussian Constraint for Conditional Diffusion ( http://arxiv.org/abs/2402.03201v3 )

ライセンス: Link先を確認
Lingxiao Yang, Shutong Ding, Yifan Cai, Jingyi Yu, Jingya Wang, Ye Shi, (参考訳) 拡散モデルの最近の進歩は、追加の訓練を必要とせずに、異なる損失関数をガイダンスに利用することで条件付き生成タスクを処理しようとするものである。 これらの手法は一定の成功を収めたが、しばしばサンプルの品質を妥協し、小さなガイダンスのステップサイズを必要とするため、より長いサンプリングプロセスに繋がる。 本稿では, 損失誘導を行う際に, サンプリング過程における多様体偏差の基本的な問題を明らかにする。 損失誘導の推定誤差に対して, 一定の下界を確立することにより, 多様体偏差の存在を理論的に示す。 この問題を軽減するために,高次元ガウス分布における集中現象から着想を得た球状ガウス制約付き拡散(DSG)を提案する。 DSGは、最適化を通じて中間データ多様体内のガイダンスステップを効果的に制限し、より大きなガイダンスステップの使用を可能にする。 さらに、球面ガウスの制約を除いたDSGの閉形式解を提案する。 特にDSGは、既存のトレーニングフリー条件付き拡散メソッドにプラグインモジュールとしてシームレスに統合できる。 DSGを実装するには、余分な計算オーバーヘッドがほとんどない数行の追加コードだけで、パフォーマンスが大幅に向上する。 各種条件生成タスクにおける総合的な実験結果は,サンプル品質と時間効率の両面でDSGの優越性と適応性を検証した。

Recent advances in diffusion models attempt to handle conditional generative tasks by utilizing a differentiable loss function for guidance without the need for additional training. While these methods achieved certain success, they often compromise on sample quality and require small guidance step sizes, leading to longer sampling processes. This paper reveals that the fundamental issue lies in the manifold deviation during the sampling process when loss guidance is employed. We theoretically show the existence of manifold deviation by establishing a certain lower bound for the estimation error of the loss guidance. To mitigate this problem, we propose Diffusion with Spherical Gaussian constraint (DSG), drawing inspiration from the concentration phenomenon in high-dimensional Gaussian distributions. DSG effectively constrains the guidance step within the intermediate data manifold through optimization and enables the use of larger guidance steps. Furthermore, we present a closed-form solution for DSG denoising with the Spherical Gaussian constraint. Notably, DSG can seamlessly integrate as a plugin module within existing training-free conditional diffusion methods. Implementing DSG merely involves a few lines of additional code with almost no extra computational overhead, yet it leads to significant performance improvements. Comprehensive experimental results in various conditional generation tasks validate the superiority and adaptability of DSG in terms of both sample quality and time efficiency.
翻訳日:2024-05-29 07:34:54 公開日:2024-05-26
# 現代ホップフィールドモデルの計算極限について:細粒度複素度解析

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis ( http://arxiv.org/abs/2402.04520v4 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Thomas Lin, Zhao Song, Han Liu, (参考訳) 本稿では,最近のホップフィールドモデルにおけるメモリ検索力学の計算限界について,微粒化複雑性解析から検討する。 我々の重要な貢献は、パターンのノルムに基づく全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。 具体的には、入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。 この基準の下には、Strong Exponential Time hypothesis (SETH) を仮定して、現代のホップフィールドモデルの準四分法的(効率的な)変種が存在する。 この理論を実証するために、効率的な基準が成立すると、低ランク近似を用いた現代のホップフィールドモデルの効率的な構成の形式的な例を示す。 これには、計算時間に基づく低い境界の導出、記憶されているメモリパターンの$\max\{$\#、入力クエリシーケンス$\}$の長さの線形スケーリングが含まれる。 さらに,メモリ検索誤差と指数的メモリ容量を有界に証明する。

We investigate the computational limits of the memory retrieval dynamics of modern Hopfield models from the fine-grained complexity analysis. Our key contribution is the characterization of a phase transition behavior in the efficiency of all possible modern Hopfield models based on the norm of patterns. Specifically, we establish an upper bound criterion for the norm of input query patterns and memory patterns. Only below this criterion, sub-quadratic (efficient) variants of the modern Hopfield model exist, assuming the Strong Exponential Time Hypothesis (SETH). To showcase our theory, we provide a formal example of efficient constructions of modern Hopfield models using low-rank approximation when the efficient criterion holds. This includes a derivation of a lower bound on the computational time, scaling linearly with $\max\{$\# of stored memory patterns, length of input query sequence$\}$. In addition, we prove its memory retrieval error bound and exponential memory capacity.
翻訳日:2024-05-29 07:34:54 公開日:2024-05-26
# MEMORYLLM: 自己更新可能な大規模言語モデルを目指して

MEMORYLLM: Towards Self-Updatable Large Language Models ( http://arxiv.org/abs/2402.04624v2 )

ライセンス: Link先を確認
Yu Wang, Yifan Gao, Xiusi Chen, Haoming Jiang, Shiyang Li, Jingfeng Yang, Qingyu Yin, Zheng Li, Xian Li, Bing Yin, Jingbo Shang, Julian McAuley, (参考訳) 既存のLarge Language Models (LLM) は通常、デプロイ後に静的のままであり、モデルに新しい知識を注入するのは困難である。 我々は,自己更新可能なパラメータのかなりの部分を含むモデルの構築を目指しており,モデルが新たな知識を効果的かつ効率的に統合できるようにする。 そこで本研究では,変圧器の潜伏空間内に,変圧器と固定サイズのメモリプールを備えるモデルMEMORYLLMを紹介する。 MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。 本評価は,MEMORYLLMがモデル編集ベンチマークにおいて,新たな知識を効果的に活用できることを実証するものである。 一方、このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証される長期情報保持能力を示す。 MEMORYLLMは、100万近いメモリ更新後のパフォーマンス低下の兆候のない、運用上の整合性も示している。 私たちのコードとモデルはhttps://github.com/wangyu-ustc/MemoryLLM.comでオープンソース化されています。

Existing Large Language Models (LLMs) usually remain static after deployment, which might make it hard to inject new knowledge into the model. We aim to build models containing a considerable portion of self-updatable parameters, enabling the model to integrate new knowledge effectively and efficiently. To this end, we introduce MEMORYLLM, a model that comprises a transformer and a fixed-size memory pool within the latent space of the transformer. MEMORYLLM can self-update with text knowledge and memorize the knowledge injected earlier. Our evaluations demonstrate the ability of MEMORYLLM to effectively incorporate new knowledge, as evidenced by its performance on model editing benchmarks. Meanwhile, the model exhibits long-term information retention capacity, which is validated through our custom-designed evaluations and long-context benchmarks. MEMORYLLM also shows operational integrity without any sign of performance degradation even after nearly a million memory updates. Our code and model are open-sourced at https://github.com/wangyu-ustc/MemoryLLM.
翻訳日:2024-05-29 07:34:54 公開日:2024-05-26
# 拡散サンプリング器の非政治訓練の改善

Improved off-policy training of diffusion samplers ( http://arxiv.org/abs/2402.05098v3 )

ライセンス: Link先を確認
Marcin Sendera, Minsu Kim, Sarthak Mittal, Pablo Lemos, Luca Scimeca, Jarrid Rector-Brooks, Alexandre Adam, Yoshua Bengio, Nikolay Malkin, (参考訳) 与えられた非正規化密度やエネルギー関数を持つ分布からサンプルを採取するための拡散モデルの訓練問題について検討する。 本稿では,シミュレーションに基づく変分法や非政治的手法(連続生成フローネットワーク)など,拡散構造推論手法のベンチマークを行った。 我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。 また、リプレイバッファを用いて、ターゲット空間の局所探索に基づいて、オフ政治手法の新たな探索手法を提案し、様々なターゲット分布におけるサンプルの品質を向上させることを示す。 分析手法とベンチマークのコードはhttps://github.com/GFNOrg/gfn-diffusionで公開されている。

We study the problem of training diffusion models to sample from a distribution with a given unnormalized density or energy function. We benchmark several diffusion-structured inference methods, including simulation-based variational approaches and off-policy methods (continuous generative flow networks). Our results shed light on the relative advantages of existing algorithms while bringing into question some claims from past work. We also propose a novel exploration strategy for off-policy methods, based on local search in the target space with the use of a replay buffer, and show that it improves the quality of samples on a variety of target distributions. Our code for the sampling methods and benchmarks studied is made public at https://github.com/GFNOrg/gfn-diffusion as a base for future work on diffusion models for amortized inference.
翻訳日:2024-05-29 07:34:54 公開日:2024-05-26
# 助けを求めることで連続的な空間におけるカタストロフィを回避する

Avoiding Catastrophe in Continuous Spaces by Asking for Help ( http://arxiv.org/abs/2402.08062v2 )

ライセンス: Link先を確認
Benjamin Plaut, Hanlin Zhu, Stuart Russell, (参考訳) 公式な後悔の保証のある強化学習アルゴリズムのほとんどは、すべてのミスは可逆的であり、基本的にはあらゆる可能な振る舞いを試すことに依存していると仮定する。 このアプローチは、いくつかのミスが分離できない、あるいは破滅的な結果につながる。 本稿では,大惨事の可能性を最小化することが目的である文脈的盗賊問題の変種を提案する。 具体的には、各ラウンドのペイオフは、そのラウンドのカタストロフィを避けるチャンスを表し、そのラウンドの成果を最大化しようとする(大惨事を避ける全体的な可能性)。 我々は、メンターに対して限られた数のクエリを許容し、リプシッツ連続支払関数を仮定する。 まず、アルゴリズムが常にメンターに問い合わせるか、大惨事を引き起こすことがほぼ保証されているかを示す。 しかし、メンターポリシークラスがナタラジャン次元に有界であり、少なくともいくつかの「理にかなう」ポリシーを含んでいる場合、時間的地平線が大きくなるにつれて、メンターの双方を問うことの後悔と頻度が 0 に近づくアルゴリズムを提供する。 また,1次元状態空間におけるメンターの動作が一定回数変化した場合に,同じ後悔とクエリを保証するアルゴリズムを提案する。

Most reinforcement learning algorithms with formal regret guarantees assume all mistakes are reversible and essentially rely on trying all possible behaviors. This approach leads to poor outcomes when some mistakes are irreparable or even catastrophic. We propose a variant of the contextual bandit problem where the goal is to minimize the chance of catastrophe. Specifically, we assume that the payoff each round represents the chance of avoiding catastrophe that round, and try to maximize the product of payoffs (the overall chance of avoiding catastrophe). We allow a limited number of queries to a mentor and assume a Lipschitz continuous payoff function. We first show that in general, any algorithm either constantly queries the mentor or is nearly guaranteed to cause catastrophe. However, when the mentor policy class has bounded Natarajan dimension and contains at least some "reasonable" policies, we provide an algorithm whose regret and rate of querying the mentor both approach 0 as the time horizon grows. We also present an alternative algorithm which provides the same regret and query guarantees when the mentor's action changes a constant number of times in a 1D state space, and can handle adversarially chosen states.
翻訳日:2024-05-29 07:25:03 公開日:2024-05-26
# 長期連続予測のためのトラクターメモリ:カオス的視点

Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective ( http://arxiv.org/abs/2402.11463v2 )

ライセンス: Link先を確認
Jiaxi Hu, Yuehong Hu, Wei Chen, Ming Jin, Shirui Pan, Qingsong Wen, Yuxuan Liang, (参考訳) 長期間の時系列予測(LTSF)タスクでは、離散時系列は連続力学系に由来すると認識され、それらの動的構造をモデル化しようとするモデルが増えている。 実世界のデータのカオス性を認識し、カオス理論をLTSFに組み込んで、未知の高次元カオス力学系からの観測として実世界の時系列を知覚する。 アトラオスは、非パラメトリック位相空間再構成とマルチスケール動的メモリユニットを用いて、歴史的力学構造を記憶し、周波数を拡大した局所進化戦略によって予測する。 詳細な理論的分析と豊富な経験的証拠は、Attraosが主流のLTSFデータセットやカオスデータセットにおいて、PatchTSTと比較してたったの12分の1のパラメータで、LTSFメソッドよりも優れていることを一貫して示している。

In long-term time series forecasting (LTSF) tasks, an increasing number of models have acknowledged that discrete time series originate from continuous dynamic systems and have attempted to model their dynamical structures. Recognizing the chaotic nature of real-world data, our model, \textbf{\textit{Attraos}}, incorporates chaos theory into LTSF, perceiving real-world time series as observations from unknown high-dimensional chaotic dynamic systems. Under the concept of attractor invariance, Attraos utilizes non-parametric Phase Space Reconstruction embedding and the proposed multi-scale dynamic memory unit to memorize historical dynamics structure and predicts by a frequency-enhanced local evolution strategy. Detailed theoretical analysis and abundant empirical evidence consistently show that Attraos outperforms various LTSF methods on mainstream LTSF datasets and chaotic datasets with only one-twelfth of the parameters compared to PatchTST.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# メタランク付けによる応答信頼性判定のための弱LLMの導入

Enabling Weak LLMs to Judge Response Reliability via Meta Ranking ( http://arxiv.org/abs/2402.12146v2 )

ライセンス: Link先を確認
Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 幅広いタスクにわたる大規模言語モデル(LLM)の強いパフォーマンスにもかかわらず、信頼性の問題はまだ残っている。 従来の研究では, GPT-4-turbo のような強力な LLM は LLM からの応答の信頼性を評価するのに優れているが, 効率性や局所的な展開の問題に直面している。 そこで我々は, LLM応答の信頼性を効果的に評価するために, $\textit{Meta Ranking}$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 LLMのインコンテキスト学習機能のみをベースとした従来の数ショット方式とは異なり、MRは複数の参照クエリレスポンスペアでターゲットクエリレスポンスペアをペアにランク付けすることで信頼性を評価する。 MRは,Phi-2などの弱いLDMがGPT-3.5-turboのような強いベースラインを超え,参照サンプルが5つしか必要とせず,効率が著しく向上するLLM応答の誤差検出に極めて有効であることがわかった。 さらに、MRはモデルカスケーディングと命令チューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを実証する。 モデルカスケードでは,GPT-4-turboに匹敵する性能を低コストで達成するために,オープンソースとクローズドソースのLCMを組み合わせる。 インストラクションチューニングでは、反復的トレーニングデータフィルタリングにMRを使用し、データ処理時間を著しく短縮し、LLaMA-7BとPhi-2がより少ないトレーニングトークンでAlpaca-13Bを超えることができる。 これらの結果はMRの効率と有効性の両方において高い可能性を示している。

Despite the strong performance of large language models (LLMs) across a wide range of tasks, they still have reliability issues. Previous studies indicate that strong LLMs like GPT-4-turbo excel in evaluating the reliability of responses from LLMs, but face efficiency and local deployment issues. Thus, to enable weak LLMs to effectively assess the reliability of LLM responses, we propose a novel cross-query-comparison-based method called $\textit{Meta Ranking}$ (MR). Unlike previous few-shot methods that solely based on in-context learning capabilities in LLMs, MR assesses reliability by pairwisely ranking the target query-response pair with multiple reference query-response pairs. We found that MR is highly effective in error detection for LLM responses, where weak LLMs, such as Phi-2, could surpass strong baselines like GPT-3.5-turbo, requiring only five reference samples and significantly improving efficiency. We further demonstrate that MR can enhance strong LLMs' performance in two practical applications: model cascading and instruction tuning. In model cascading, we combine open- and closed-source LLMs to achieve performance comparable to GPT-4-turbo with lower costs. In instruction tuning, we use MR for iterative training data filtering, significantly reducing data processing time and enabling LLaMA-7B and Phi-2 to surpass Alpaca-13B with fewer training tokens. These results underscore the high potential of MR in both efficiency and effectiveness.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# 大規模言語モデルにおける安全度評価のための中国語データセット

A Chinese Dataset for Evaluating the Safeguards in Large Language Models ( http://arxiv.org/abs/2402.12193v2 )

ライセンス: Link先を確認
Yuxia Wang, Zenan Zhai, Haonan Li, Xudong Han, Lizhi Lin, Zhenxuan Zhang, Jingru Zhao, Preslav Nakov, Timothy Baldwin, (参考訳) 多くの研究は、大きな言語モデル(LLM)が有害な応答を発生し、LCMがデプロイされた時に予期せぬリスクにユーザをさらすことを実証している。 従来の研究では、LSMがもたらすリスクの包括的分類法や、LSMの安全性のメカニズムを調べるためのそれに対応するプロンプトが提案されている。 しかし、その焦点は英語に限られており、他の言語についてはほとんど語られていない。 ここではこのギャップを埋めることを目指しています。 まず、中国のLCMの安全性評価のためのデータセットを導入し、リスクの高いプロンプト拒絶という観点から、偽陰性および偽陽性の事例をよりよく識別するために使用可能な、他の2つのシナリオに拡張する。 さらに, リスクタイプごとに詳細な安全性評価基準を提示し, LLM応答の有害性の観点から手動のアノテーションと自動評価を容易にする。 5つのLSMに関する実験により、地域固有のリスクが一般的なリスクのタイプであることが示され、私たちが実験したすべての中国LSMにおいて大きな問題が提示される。 私たちのデータはhttps://github.com/Libr-AI/do-not-answer.comで公開されています。 警告:本論文は、攻撃的、有害、偏見のあるサンプルデータを含む。

Many studies have demonstrated that large language models (LLMs) can produce harmful responses, exposing users to unexpected risks when LLMs are deployed. Previous studies have proposed comprehensive taxonomies of the risks posed by LLMs, as well as corresponding prompts that can be used to examine the safety mechanisms of LLMs. However, the focus has been almost exclusively on English, and little has been explored for other languages. Here we aim to bridge this gap. We first introduce a dataset for the safety evaluation of Chinese LLMs, and then extend it to two other scenarios that can be used to better identify false negative and false positive examples in terms of risky prompt rejections. We further present a set of fine-grained safety assessment criteria for each risk type, facilitating both manual annotation and automatic evaluation in terms of LLM response harmfulness. Our experiments on five LLMs show that region-specific risks are the prevalent type of risk, presenting the major issue with all Chinese LLMs we experimented with. Our data is available at https://github.com/Libr-AI/do-not-answer. Warning: this paper contains example data that may be offensive, harmful, or biased.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# モデルベースLLMエージェントWorldCoder:コードを書くことによって世界モデルを構築し、環境と相互作用する

WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment ( http://arxiv.org/abs/2402.12275v2 )

ライセンス: Link先を確認
Hao Tang, Darren Key, Kevin Ellis, (参考訳) 我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。 世界モデルは、その相互作用を説明すると同時に、どのような報酬を達成できるかを楽観的に説明しようとします。 我々は、この楽観主義を、プログラムとプランナーの間の論理的制約として定義する。 我々は,グリッドワールド,タスクプランニングにおいて,我々のアプローチは深層RLに比べてサンプリング効率が良く,ReActスタイルのエージェントよりも計算効率が良く,コードを編集することで,その知識を環境間で伝達することができることを研究した。

We give a model-based agent that builds a Python program representing its knowledge of the world based on its interactions with the environment. The world model tries to explain its interactions, while also being optimistic about what reward it can achieve. We define this optimism as a logical constraint between a program and a planner. We study our agent on gridworlds, and on task planning, finding our approach is more sample-efficient compared to deep RL, more compute-efficient compared to ReAct-style agents, and that it can transfer its knowledge across environments by editing its code.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# 指導訓練型言語モデルはより優れた知識学習者である

Instruction-tuned Language Models are Better Knowledge Learners ( http://arxiv.org/abs/2402.12847v2 )

ライセンス: Link先を確認
Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer, (参考訳) 大規模言語モデル(LLM)ベースのアシスタントが進化する情報ニーズに効果的に適応するためには,新たなデータに対する継続的なトレーニングを通じて,事実知識を更新する必要がある。 標準的なレシピでは、新しいドキュメントの事前トレーニングを継続し、質問応答(QA)ペアのインストラクションチューニングを行う。 しかし、このレシピで訓練されたLCMは、ドキュメントの難易度が最小化されているにもかかわらず、質問に答えるのに苦労していることがわかった。 QAペアは一般的に単純であるのに対して、ドキュメントはより複雑であり、多くの事実文を複雑な方法で織り込むことが分かりました。 そこで我々は、複雑な文書から知識を符号化するプロセスが、この知識がどのようにアクセスされるかを考慮し、文書の事前訓練を継続する前に、LCMをQAペアに公開することが有益であると仮定した。 そこで本研究では,文書の学習に先立って,質問を指導するPIT(Pre-instruction-tuning)を提案する。 これは、ドキュメントのトレーニング後に知識を抽出する方法を学ぶ標準的な命令チューニングとは対照的である。 大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させ、標準命令チューニングを17.8%上回ったことが示されている。

In order for large language model (LLM)-based assistants to effectively adapt to evolving information needs, it must be possible to update their factual knowledge through continued training on new data. The standard recipe for doing so involves continued pre-training on new documents followed by instruction-tuning on question-answer (QA) pairs. However, we find that LLMs trained with this recipe struggle to answer questions, even though the perplexity of documents is minimized. We found that QA pairs are generally straightforward, while documents are more complex, weaving many factual statements together in an intricate manner. Therefore, we hypothesize that it is beneficial to expose LLMs to QA pairs before continued pre-training on documents so that the process of encoding knowledge from complex documents takes into account how this knowledge is accessed through questions. Based on this, we propose pre-instruction-tuning (PIT), a method that instruction-tunes on questions prior to training on documents. This contrasts with standard instruction-tuning, which learns how to extract knowledge after training on documents. Extensive experiments and ablation studies demonstrate that pre-instruction-tuning significantly enhances the ability of LLMs to absorb knowledge from new documents, outperforming standard instruction-tuning by 17.8%.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# オフライン政策学習のための深層生成モデル--チュートリアル, 調査, 今後の方向性の展望

Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions ( http://arxiv.org/abs/2402.13777v5 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, Vaneet Aggarwal, (参考訳) 深層生成モデル(DGM)は、特にオフラインデータからトレーニングされたモデルを使用したテキスト、画像、ビデオの生成において、さまざまな領域で大きな成功を収めている。 同様に、データ駆動意思決定とロボット制御は、オフラインデータからジェネレータ関数を学習し、戦略やポリシーとして機能する必要がある。 この場合、オフライン政策学習に深い生成モデルを適用することは大きな可能性を示し、この方向に多くの研究がなされている。 しかし、この分野には包括的なレビューがないため、異なるブランチの開発は比較的独立している。 本稿では,オフライン政策学習における深層生成モデルの適用について,最初の体系的レビューを行う。 特に, 変分自動エンコーダ, 生成適応ネットワーク, 正規化フロー, トランスフォーマー, 拡散モデル, オフライン強化学習(オフラインRL) と模倣学習(IL)の5つの主要な深層生成モデルについて述べる。 オフラインRLとILは、オフラインポリシー学習の2つの主要な分野であり、シーケンシャルな意思決定のための広く採用されている技術である。 特に,DGMをベースとしたオフライン政策学習の各分野において,基本的スキームを抽出し,DGMの使用状況に基づいて関連研究を分類し,その分野におけるアルゴリズムの開発プロセスを整理する。 本論では,本研究の今後の方向性を概観する上で,深層生成モデルとオフライン政策学習を要約として詳細に論じる。 この研究は、オフラインポリシー学習のための深い生成モデルの研究の進展をハンズオンで参照し、改良されたDGMベースのオフラインRLまたはILアルゴリズムを刺激することを目的としている。 便利のために、私たちはhttps://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learningのペーパーリストを保持します。

Deep generative models (DGMs) have demonstrated great success across various domains, particularly in generating texts, images, and videos using models trained from offline data. Similarly, data-driven decision-making and robotic control also necessitate learning a generator function from the offline data to serve as the strategy or policy. In this case, applying deep generative models in offline policy learning exhibits great potential, and numerous studies have explored in this direction. However, this field still lacks a comprehensive review and so developments of different branches are relatively independent. In this paper, we provide the first systematic review on the applications of deep generative models for offline policy learning. In particular, we cover five mainstream deep generative models, including Variational Auto-Encoders, Generative Adversarial Networks, Normalizing Flows, Transformers, and Diffusion Models, and their applications in both offline reinforcement learning (offline RL) and imitation learning (IL). Offline RL and IL are two main branches of offline policy learning and are widely-adopted techniques for sequential decision-making. Notably, for each type of DGM-based offline policy learning, we distill its fundamental scheme, categorize related works based on the usage of the DGM, and sort out the development process of algorithms in that field. Subsequent to the main content, we provide in-depth discussions on deep generative models and offline policy learning as a summary, based on which we present our perspectives on future research directions. This work offers a hands-on reference for the research progress in deep generative models for offline policy learning, and aims to inspire improved DGM-based offline RL or IL algorithms. For convenience, we maintain a paper list on https://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learning.
翻訳日:2024-05-29 07:15:18 公開日:2024-05-26
# IEPile: 大規模スキーマベースの情報抽出コーパス

IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus ( http://arxiv.org/abs/2402.14710v3 )

ライセンス: Link先を確認
Honghao Gui, Lin Yuan, Hongbin Ye, Ningyu Zhang, Mengshu Sun, Lei Liang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)は、様々な領域において顕著なポテンシャルを示すが、情報抽出(IE)において顕著な性能差を示す。 現在のIEデータセットは、スケールが小さく、断片化され、標準化されたスキーマが欠如している。 この目的のために、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスであるIEPileを紹介する。 我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。 IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。 NLPコミュニティに貴重なサポートを提供したいと思っています。

Large Language Models (LLMs) demonstrate remarkable potential across various domains; however, they exhibit a significant performance gap in Information Extraction (IE). Note that high-quality instruction data is the vital key for enhancing the specific capabilities of LLMs, while current IE datasets tend to be small in scale, fragmented, and lack standardized schema. To this end, we introduce IEPile, a comprehensive bilingual (English and Chinese) IE instruction corpus, which contains approximately 0.32B tokens. We construct IEPile by collecting and cleaning 33 existing IE datasets, and introduce schema-based instruction generation to unearth a large-scale corpus. Experimentally, IEPile enhance the performance of LLMs for IE, with notable improvements in zero-shot generalization. We open-source the resource and pre-trained models, hoping to provide valuable support to the NLP community.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-26
# 公共衛生における動的レスト・マルチアーム・バンディット・タスクのための意思決定言語モデル(DLM)

A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health ( http://arxiv.org/abs/2402.14807v3 )

ライセンス: Link先を確認
Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj Nagaraj, Milind Tambe, (参考訳) レストレス・マルチアーム・バンディット(RMAB)は、公衆衛生における大規模受益者に対する資源配分の最適化に成功している。 残念ながらRMABモデルは、公衆衛生政策の進化に適応する柔軟性に欠けています。 同時に、Large Language Models (LLMs) はロボット制御とナビゲーションの領域にまたがる自動プランナーとして登場した。 本稿では,RMAB に対する決定言語モデル (DLM) を提案する。 LLMを自動プランナーとして用いて、(1)人間の政策選好のプロンプトを解釈し、(2)マルチエージェントRMAB環境のコードとして報酬関数を提案し、(3)基底RMABシミュレーションからのフィードバックを用いて報酬関数を反復する。 インドを拠点とする非営利団体ARMMANと共同で、妊娠中の母親の予防ケアを推進しているDLMの適用について説明する。 我々は,ジェミニ・プロモデルを用いてシミュレーションを行い,人間のプロンプトのみを入力として,DLMが動的に政策成果を形作ることができることを示す。

Restless multi-armed bandits (RMAB) have demonstrated success in optimizing resource allocation for large beneficiary populations in public health settings. Unfortunately, RMAB models lack flexibility to adapt to evolving public health policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept automated planners across domains of robotic control and navigation. In this paper, we propose a Decision Language Model (DLM) for RMABs, enabling dynamic fine-tuning of RMAB policies in public health settings using human-language commands. We propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose reward functions as code for a multi-agent RMAB environment, and (3) iterate on the generated reward functions using feedback from grounded RMAB simulations. We illustrate the application of DLM in collaboration with ARMMAN, an India-based non-profit promoting preventative care for pregnant mothers, that currently relies on RMAB policies to optimally allocate health worker calls to low-resource populations. We conduct a technology demonstration in simulation using the Gemini Pro model, showing DLM can dynamically shape policy outcomes using only human prompts as input.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-26
# littleBenchmarks: 少ない例でLLMを評価する

tinyBenchmarks: evaluating LLMs with fewer examples ( http://arxiv.org/abs/2402.14992v2 )

ライセンス: Link先を確認
Felipe Maia Polo, Lucas Weber, Leshem Choshen, Yuekai Sun, Gongjun Xu, Mikhail Yurochkin, (参考訳) 大規模言語モデル(LLM)の汎用性は、様々な言語モデルの能力を徹底的にテストする多様なベンチマークの作成につながった。 これらのベンチマークは、LLMを非常に高価に評価する数万のサンプルで構成されている。 本稿では,LLMの性能評価に要する評価回数を削減するための手法について検討する。 例えば,14K例からなる人気マルチチョイスQAベンチマークであるMMLU上でのLLMの性能を正確に推定するには,このLLMを100個のキュレートされた例で評価するのに十分であることを示す。 Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0。 実験により,これらのツールと小さなベンチマークは,元の評価結果を確実かつ効率的に再現するのに十分であることを実証した。

The versatility of large language models (LLMs) led to the creation of diverse benchmarks that thoroughly test a variety of language models' abilities. These benchmarks consist of tens of thousands of examples making evaluation of LLMs very expensive. In this paper, we investigate strategies to reduce the number of evaluations needed to assess the performance of an LLM on several key benchmarks. For example, we show that to accurately estimate the performance of an LLM on MMLU, a popular multiple-choice QA benchmark consisting of 14K examples, it is sufficient to evaluate this LLM on 100 curated examples. We release evaluation tools and tiny versions of popular benchmarks: Open LLM Leaderboard, MMLU, HELM, and AlpacaEval 2.0. Our empirical analysis demonstrates that these tools and tiny benchmarks are sufficient to reliably and efficiently reproduce the original evaluation results.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-26
# 言語モデルにおける自己修復の探索

Explorations of Self-Repair in Language Models ( http://arxiv.org/abs/2402.15390v2 )

ライセンス: Link先を確認
Cody Rushing, Neel Nanda, (参考訳) 狭義の分布を研究する以前の解釈可能性の研究は、大規模言語モデルのコンポーネントが省略された場合、後のコンポーネントがその振る舞いを補正するために変更する現象である自己修復を予め特定している。 私たちの研究は、過去の文献から成り立っており、個々の注意をトレーニングの完全な分布に向けると、さまざまなモデルファミリーやサイズに自己修復が存在していることを実証しています。 さらに, 本研究は, 頭部の自己修復効果が完全には回復していないため, 自己修復の度合いが異なるプロンプトによって大きく異なるため, 自己修復が不十分であることを示す。 本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終段階のLayerNormスケーリング因子の変化と, アンチ・エロージャを実装した神経細胞のスパースセットについて述べる。 さらに、これらの結果が解釈可能性実践者に与える影響についても論じ、また、これらのモデルになぜ自己修復が起こるのかというミステリーに関するより投機的な議論に近づき、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を浮き彫りにしている。

Prior interpretability research studying narrow distributions has preliminarily identified self-repair, a phenomena where if components in large language models are ablated, later components will change their behavior to compensate. Our work builds off this past literature, demonstrating that self-repair exists on a variety of models families and sizes when ablating individual attention heads on the full training distribution. We further show that on the full training distribution self-repair is imperfect, as the original direct effect of the head is not fully restored, and noisy, since the degree of self-repair varies significantly across different prompts (sometimes overcorrecting beyond the original effect). We highlight two different mechanisms that contribute to self-repair, including changes in the final LayerNorm scaling factor and sparse sets of neurons implementing Anti-Erasure. We additionally discuss the implications of these results for interpretability practitioners and close with a more speculative discussion on the mystery of why self-repair occurs in these models at all, highlighting evidence for the Iterative Inference hypothesis in language models, a framework that predicts self-repair.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-26
# ヒルベルト表現による基礎政策

Foundation Policies with Hilbert Representations ( http://arxiv.org/abs/2402.15567v2 )

ライセンス: Link先を確認
Seohong Park, Tobias Kreiman, Sergey Levine, (参考訳) 次のトークン予測のような教師なしおよび自己管理の目的は、大量のラベルのないデータから事前訓練されたジェネリストモデルを可能にする。 しかし、強化学習(RL)では、オフラインデータからジェネラリストポリシーのための、真に汎用的でスケーラブルで教師なしの事前学習目標を見つけることが大きな疑問である。 目標条件付きRL、行動クローニング、教師なしスキルラーニングといった原則に基づいて、汎用的な自己教師型RLを実現する方法が提案されているが、そのような手法は、発見された行動の多様性、高品質な実演データの必要性、下流タスクへの明確な適応メカニズムの欠如のいずれかの観点から制限されている。 本研究では,ゼロショット方式で任意の新しいタスクに迅速に適応できるように,ラベル付けされていないオフラインデータから多種多様な,最適な,長い水平動作をキャプチャする一般政策を事前訓練するための,新しい教師なしフレームワークを提案する。 我々の重要な洞察は、下層の環境の時間的構造を保存する構造的表現を学習し、この学習された潜在空間を方向運動で広げることである。 ロボットのロコモーションと操作ベンチマークのシミュレーション実験を通じて、教師なしのポリシーがゴール条件付き、一般のRLタスクをゼロショットで解決できることを示した。 私たちのコードとビデオはhttps://seohong.me/projects/hilp/.com/で公開されています。

Unsupervised and self-supervised objectives, such as next token prediction, have enabled pre-training generalist models from large amounts of unlabeled data. In reinforcement learning (RL), however, finding a truly general and scalable unsupervised pre-training objective for generalist policies from offline data remains a major open question. While a number of methods have been proposed to enable generic self-supervised RL, based on principles such as goal-conditioned RL, behavioral cloning, and unsupervised skill learning, such methods remain limited in terms of either the diversity of the discovered behaviors, the need for high-quality demonstration data, or the lack of a clear adaptation mechanism for downstream tasks. In this work, we propose a novel unsupervised framework to pre-train generalist policies that capture diverse, optimal, long-horizon behaviors from unlabeled offline data such that they can be quickly adapted to any arbitrary new tasks in a zero-shot manner. Our key insight is to learn a structured representation that preserves the temporal structure of the underlying environment, and then to span this learned latent space with directional movements, which enables various zero-shot policy "prompting" schemes for downstream tasks. Through our experiments on simulated robotic locomotion and manipulation benchmarks, we show that our unsupervised policies can solve goal-conditioned and general RL tasks in a zero-shot fashion, even often outperforming prior methods designed specifically for each setting. Our code and videos are available at https://seohong.me/projects/hilp/.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-26
# 非対数分布のゼロ次サンプリング法:拡散を減らして転移性を緩和する

Zeroth-Order Sampling Methods for Non-Log-Concave Distributions: Alleviating Metastability by Denoising Diffusion ( http://arxiv.org/abs/2402.17886v3 )

ライセンス: Link先を確認
Ye He, Kevin Rojas, Molei Tao, (参考訳) 本稿では,非正規化密度の問合せに基づく非ログコンケーブ分布からのサンプリング問題について考察する。 最初に、ディフュージョン・モンテカルロ(DMC)というフレームワークについて記述し、一般的なモンテカルロ推定器で近似されたスコア関数を持つ偏微分拡散過程のシミュレーションに基づく。 DMCは神託に基づくメタアルゴリズムであり、その神託はモンテカルロスコア推定器を生成するサンプルへの推定アクセスである。 次に、このオラクルの実装を拒絶サンプリングに基づいて提供し、DMCをZOD-MC(Zeroth-Order Diffusion Monte Carlo)と呼ばれる真のアルゴリズムに変換する。 我々は、まず汎用フレームワーク、すなわちDMCの性能保証を構築することで収束解析を行い、ターゲット分布を対数凹凸と仮定したり、等尺不等式を満たすことなく、収束解析を行う。 そして、ZOD-MCが所望のサンプリング精度に逆多項式依存があることを証明した。 その結果、低次元分布では、ZOD-MCは非常に効率的なサンプリング装置であり、RDMCやRS-DMCを含む最新のサンプリング器よりも性能が高い。 最後に,ZOD-MCの非凸電位におけるモード間や不連続性に対する感受性を実験的に実証した。

This paper considers the problem of sampling from non-logconcave distribution, based on queries of its unnormalized density. It first describes a framework, Diffusion Monte Carlo (DMC), based on the simulation of a denoising diffusion process with its score function approximated by a generic Monte Carlo estimator. DMC is an oracle-based meta-algorithm, where its oracle is the assumed access to samples that generate a Monte Carlo score estimator. Then we provide an implementation of this oracle, based on rejection sampling, and this turns DMC into a true algorithm, termed Zeroth-Order Diffusion Monte Carlo (ZOD-MC). We provide convergence analyses by first constructing a general framework, i.e. a performance guarantee for DMC, without assuming the target distribution to be log-concave or satisfying any isoperimetric inequality. Then we prove that ZOD-MC admits an inverse polynomial dependence on the desired sampling accuracy, albeit still suffering from the curse of dimensionality. Consequently, for low dimensional distributions, ZOD-MC is a very efficient sampler, with performance exceeding latest samplers, including also-denoising-diffusion-based RDMC and RS-DMC. Last, we experimentally demonstrate the insensitivity of ZOD-MC to increasingly higher barriers between modes or discontinuity in non-convex potential.
翻訳日:2024-05-29 06:55:50 公開日:2024-05-26
# 文法的誤り訂正のためのメタ評価の再検討

Revisiting Meta-evaluation for Grammatical Error Correction ( http://arxiv.org/abs/2403.02674v2 )

ライセンス: Link先を確認
Masamune Kobayashi, Masato Mita, Mamoru Komachi, (参考訳) 計量は文法的誤り訂正(GEC)における自動評価の基礎であり、その評価は人間の判断との相関に依存する。 しかし、従来のGECのメタ評価は、評価粒度の不整合に起因するバイアスや、古典的なシステムを用いた時代遅れのセットアップなど、いくつかの課題に直面している。 これらの問題はメトリクスの誤解釈を招き、GEC技術の適用性を阻害する可能性がある。 これらの課題に対処するために,GECメタ評価のための新しいデータセットSEEDAを提案する。 SEEDAは、編集ベースと文ベースという2つの異なる粒度に沿って人間の評価を補正し、大きな言語モデル(LLM)を含む12の最先端システムと異なる焦点を持つ2つの人間の修正をカバーしている。 文レベルのメタ評価の粒度を調整して相関性を改善した結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。 さらに、古典的なシステムからニューラルネットワークへ変化すると、ほとんどのメトリクスの相関は減少し、伝統的なメトリクスは、多くの編集を施した流動的な修正文を評価するのに比較的貧弱であることを示す。

Metrics are the foundation for automatic evaluation in grammatical error correction (GEC), with their evaluation of the metrics (meta-evaluation) relying on their correlation with human judgments. However, conventional meta-evaluations in English GEC encounter several challenges including biases caused by inconsistencies in evaluation granularity, and an outdated setup using classical systems. These problems can lead to misinterpretation of metrics and potentially hinder the applicability of GEC techniques. To address these issues, this paper proposes SEEDA, a new dataset for GEC meta-evaluation. SEEDA consists of corrections with human ratings along two different granularities: edit-based and sentence-based, covering 12 state-of-the-art systems including large language models (LLMs), and two human corrections with different focuses. The results of improved correlations by aligning the granularity in the sentence-level meta-evaluation, suggest that edit-based metrics may have been underestimated in existing studies. Furthermore, correlations of most metrics decrease when changing from classical to neural systems, indicating that traditional metrics are relatively poor at evaluating fluently corrected sentences with many edits.
翻訳日:2024-05-29 06:45:59 公開日:2024-05-26
# 横断言語ホライズン:ベトナムの大規模言語モデルの微細化と包括的評価

Crossing Linguistic Horizons: Finetuning and Comprehensive Evaluation of Vietnamese Large Language Models ( http://arxiv.org/abs/2403.02715v2 )

ライセンス: Link先を確認
Sang T. Truong, Duc Q. Nguyen, Toan Nguyen, Dong D. Le, Nhi N. Truong, Tho Quan, Sanmi Koyejo, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人工知能の進化における重要性を裏付けている。 しかし、多言語データセットに対する事前トレーニングが広く行われているにもかかわらず、オープンソースLLMはベトナム語処理において限られた効果を示した。 この課題は、ベトナムのLLM評価に適した、体系的なベンチマークデータセットとメトリクスが存在しないことで悪化している。 これらの問題を緩和するため、ベトナム語に特化したLLMを微調整し、10の共通タスクと31のメトリクスを含む総合的な評価フレームワークを開発した。 以上の結果より, ベトナムでは, 微調整LDMは理解能力と生成能力が向上していることが明らかとなった。 さらに,パラメータがより多いモデルではバイアスや未調整のアウトプットが増加し,LLMのパフォーマンスに影響を及ぼす要因は,トレーニングや微調整のデータセットの品質である。 これらの知見は,LLMの性能向上において,高品質なデータセットを用いた精密微調整の重要性を浮き彫りにした。

Recent advancements in large language models (LLMs) have underscored their importance in the evolution of artificial intelligence. However, despite extensive pretraining on multilingual datasets, available open-sourced LLMs exhibit limited effectiveness in processing Vietnamese. The challenge is exacerbated by the absence of systematic benchmark datasets and metrics tailored for Vietnamese LLM evaluation. To mitigate these issues, we have finetuned LLMs specifically for Vietnamese and developed a comprehensive evaluation framework encompassing 10 common tasks and 31 metrics. Our evaluation results reveal that the fine-tuned LLMs exhibit enhanced comprehension and generative capabilities in Vietnamese. Moreover, our analysis indicates that models with more parameters can introduce more biases and uncalibrated outputs and the key factor influencing LLM performance is the quality of the training or fine-tuning datasets. These insights underscore the significance of meticulous fine-tuning with high-quality datasets in enhancing LLM performance.
翻訳日:2024-05-29 06:45:59 公開日:2024-05-26
# 協調型対話型エージェントによるツールの活用

Learning to Use Tools via Cooperative and Interactive Agents ( http://arxiv.org/abs/2403.03031v2 )

ライセンス: Link先を確認
Zhengliang Shi, Shen Gao, Xiuyi Chen, Lingyong Yan, Haibo Shi, Dawei Yin, Zhumin Chen, Pengjie Ren, Suzan Verberne, Zhaochun Ren, (参考訳) ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。 既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。 しかし, 1 つの LLM 固有の動作能力の制限, 2 つのタスクが失敗した時に誤りを適応的に修正する難しさにより, 複雑なタスクに対処する際の潜在的な性能劣化に悩まされている。 これらの問題を緩和するために,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化した協調対話型エージェントフレームワークであるConAgentsを提案する。 また,ツール環境からのフィードバックに基づいてエージェントを適応させるイテレーティブキャリブレーション(IterCali)手法も導入した。 3つのデータセットで行った実験は、ConAgentsの優位性を示している(例:SOTAベースラインよりも6点改善)。 さらに,フレームワークの効率性と一貫性について,粒度解析を行う。

Tool learning empowers large language models (LLMs) as agents to use external tools to extend their capability. Existing methods employ one single LLM-based agent to iteratively select and execute tools, thereafter incorporating the result into the next action prediction. However, they still suffer from potential performance degradation when addressing complex tasks due to: (1) the limitation of the inherent capability of a single LLM to perform diverse actions, and (2) the struggle to adaptively correct mistakes when the task fails. To mitigate these problems, we propose the ConAgents, a Cooperative and interactive Agents framework, which modularizes the workflow of tool learning into Grounding, Execution, and Observing agents. We also introduce an iterative calibration (IterCali) method, enabling the agents to adapt themselves based on the feedback from the tool environment. Experiments conducted on three datasets demonstrate the superiority of our ConAgents (e.g., 6 point improvement over the SOTA baseline). We further provide fine-granularity analysis for the efficiency and consistency of our framework.
翻訳日:2024-05-29 06:45:59 公開日:2024-05-26
# エルゴトロピーの量子力学と環境誘起研究

Qubit dynamics of ergotropy and environment-induced work ( http://arxiv.org/abs/2403.04698v2 )

ライセンス: Link先を確認
J. M. Z. Choquehuanca, P. A. C. Obando, F. M. de Paula, M. S. Sarandy, (参考訳) マルコフ的および非マルコフ的進化の下での開系におけるエルゴトロピーのダイナミクスについて検討する。 このシナリオでは、エネルギーとコヒーレンスの観点から任意のキュービット状態のエルゴトロピーを定式化することから始める。 そこで本研究では, システムバス相互作用の結果, エルゴトロピー凍結とエルゴトロピー急死の条件を決定する。 オープンシステムシナリオにおける仕事の形でエネルギー抽出の資源としてエルゴトロピーを利用するために、エントロピーに基づく量子熱力学の定式化を採用する。 このアプローチでは、この研究は環境によって引き起こされる追加の成分を得るが、これは定数ハミルトンに対しても存在するかもしれない。 次に,環境が引き起こす作業とエルゴトロピーの関係を解明し,環境が引き起こす作業をエルゴトロピーの変化の観点から解釈する。 特に、環境によって引き起こされた仕事によるエネルギー移動は、量子力学の初期状態と最後の受動的状態の間を移動するエネルギーコストによって支配される限界まで実行することができる。 非散逸的および散逸的量子過程の下で進化する量子ビット状態に対するこれらの結果について説明する。

We investigate the dynamics of ergotropy in open systems under Markovian and non-Markovian evolutions. In this scenario, we begin by formulating the ergotropy of an arbitrary qubit state in terms of energy and coherence. Thus, we determine the conditions for ergotropy freezing and ergotropy sudden death as a consequence of the system-bath interaction. In order to use ergotropy as a resource for energy extraction in the form of work in an open-system scenario, we adopt the entropy-based formulation of quantum thermodynamics. In this approach, the work gains an additional environment-induced component, which may be present even for constant Hamiltonians. We then establish an analytical relationship between the environment-induced work and ergotropy, providing an interpretation of environment-induced work in terms of variation of ergotropy. In particular, energy transfer by environment-induced work can be performed up to a limit, which is governed by the energy cost to transit between the initial and final passive states of the quantum dynamics. We illustrate these results for qubit states evolving under non-dissipative and dissipative quantum processes.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# ハイパーパラメータ最適化におけるエンコーダに基づくウォームスタート法の再検討

Rethinking of Encoder-based Warm-start Methods in Hyperparameter Optimization ( http://arxiv.org/abs/2403.04720v3 )

ライセンス: Link先を確認
Dawid Płudowski, Antoni Zajko, Anna Kozak, Katarzyna Woźnica, (参考訳) メタラーニングのための異種表形式のデータセットを効果的に表現することは、未解決の問題である。 以前のアプローチは、例えば統計測度やランドマークのような、事前に定義されたメタ機能に依存していた。 Dataset2Vecのようなエンコーダベースのモデルは、人間の介入なしに重要なメタ機能を自動的に抽出することができる。 この研究は、GitHub https://github.com/azoz01/liltabで利用可能なLiltabパッケージ内に実装された、新しいエンコーダベースのグラフデータセットの表現を導入している。 本パッケージは, 岩田友治, 熊谷篤俊両氏が提唱した異種表型データの確立したモデルに基づく。 提案手法では,Dataset2Vecのような既存手法と比較して,特徴関係を符号化し,代替表現を生成する。 どちらもデータセット類似性学習の基本的な前提を活用している。 本研究では、データセット全体とハイパーパラメータ最適化のウォームスタートを表す2つの一般的なメタタスク上で、Dataset2VecとLiltabを評価します。 しかし、独立したメタMIMICデータセットの検証は、表現学習における煩雑な課題を浮き彫りにする。 一般表現は,要求が抽出中に明示的に考慮されないメタタスクでは十分でないことを示す。

Effectively representing heterogeneous tabular datasets for meta-learning remains an open problem. Previous approaches rely on predefined meta-features, for example, statistical measures or landmarkers. Encoder-based models, such as Dataset2Vec, allow us to extract significant meta-features automatically without human intervention. This research introduces a novel encoder-based representation of tabular datasets implemented within the liltab package available on GitHub https://github.com/azoz01/liltab. Our package is based on an established model for heterogeneous tabular data proposed in [Tomoharu Iwata and Atsutoshi Kumagai. Meta-learning from Tasks with Heterogeneous Attribute Spaces. In Advances in Neural Information Processing Systems, 2020]. The proposed approach employs a different model for encoding feature relationships, generating alternative representations compared to existing methods like Dataset2Vec. Both of them leverage the fundamental assumption of dataset similarity learning. In this work, we evaluate Dataset2Vec and liltab on two common meta-tasks -- representing entire datasets and hyperparameter optimization warm-start. However, validation on an independent metaMIMIC dataset highlights the nuanced challenges in representation learning. We show that general representations may not suffice for some meta-tasks where requirements are not explicitly considered during extraction.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# 対称性を考慮したスペクトル境界を用いた量子位相推定におけるクエリ複雑性限界の評価

Assessing the query complexity limits of quantum phase estimation using symmetry aware spectral bounds ( http://arxiv.org/abs/2403.04737v2 )

ライセンス: Link先を確認
Cristian L. Cortes, Dario Rocca, Jerome Gonthier, Pauline J. Ollitrault, Robert M. Parrish, Gian-Luca R. Anselmetti, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif, (参考訳) 物理学や化学における量子アルゴリズムの計算コストは、その固有値の再スケーリングに必要な性質であるハミルトニアンのスペクトルと密接に関連している。 1-ノルムをスペクトルノルムの上界として用いて、ハミルトニアン・スーツを再スケールする典型的なアプローチは、有界エルミート作用素の最も一般的な場合であるが、化学系でよく見られる対称性の影響を無視している。 本研究では,ブロック符号化電子構造ハミルトニアンを用いた量子位相推定アルゴリズムの性能を統一的に理解するための対称性を考慮したスペクトル境界の階層化を提案する。 本稿では, 分子ベンチマークシステムにおいて, 計算された境界が従来のスペクトル境界よりも小さいことを示すために, 軌道最適化に基づいて, これらの境界を計算するための変分的かつ数値的に抽出可能な手法を提案する。 また、熱力学および完全基底集合極限におけるこれらの境界のユニークな解析的および数値的スケーリング挙動も強調する。 我々の研究は、1ノルムの削減には改善の余地があることを示し、二重因数分解やテンソルハイパーコントラクションのような方法ではまだ達成されていないが、1ノルムの削減技術だけでは小さな定数因子を超えた現在の量子アルゴリズムの性能向上の潜在的な課題を浮き彫りにしている。

The computational cost of quantum algorithms for physics and chemistry is closely linked to the spectrum of the Hamiltonian, a property that manifests in the necessary rescaling of its eigenvalues. The typical approach of using the 1-norm as an upper bound to the spectral norm to rescale the Hamiltonian suits the most general case of bounded Hermitian operators but neglects the influence of symmetries commonly found in chemical systems. In this work, we introduce a hierarchy of symmetry-aware spectral bounds that provide a unified understanding of the performance of quantum phase estimation algorithms using block-encoded electronic structure Hamiltonians. We present a variational and numerically tractable method for computing these bounds, based on orbital optimization, to demonstrate that the computed bounds are smaller than conventional spectral bounds for a variety of molecular benchmark systems. We also highlight the unique analytical and numerical scaling behavior of these bounds in the thermodynamic and complete basis set limits. Our work shows that there is room for improvement in reducing the 1-norm, not yet achieved through methods like double factorization and tensor hypercontraction, but highlights potential challenges in improving the performance of current quantum algorithms beyond small constant factors through 1-norm reduction techniques alone.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# 効率的な非凸軌道最適化のための制約拡散モデルと数値解の組合せ

Combining Constrained Diffusion Models and Numerical Solvers for Efficient and Robust Non-Convex Trajectory Optimization ( http://arxiv.org/abs/2403.05571v3 )

ライセンス: Link先を確認
Anjian Li, Zihan Ding, Adji Bousso Dieng, Ryne Beeson, (参考訳) 計算効率と信頼性の高い制約満足度を備えたオープンループ最適制御問題の解法の必要性から,拡散モデルと数値最適化解法を組み合わせた一般的な枠組みを導入する。 最適制御問題は閉形式で解くことは滅多にないため、しばしば数値軌道最適化問題に書き起こされ、初期推定を必要とする。 これらの最初の推測は拡散モデルによって我々のフレームワークに供給される。 問題制約に違反するサンプルの効果を軽減するため,本研究では,局所最適解の真の分布を学習時に付加的な制約違反損失で近似する,新しい制約付き拡散モデルを開発した。 このロバスト性をさらに高めるために、初期推定値としての拡散サンプルを数値解法に供給し、最終的な最適解を洗練し、導出する。 提案手法を用いて, 制約満足度と計算効率を4$\times$から30$\times$Accelerrationで検証した。

Motivated by the need to solve open-loop optimal control problems with computational efficiency and reliable constraint satisfaction, we introduce a general framework that combines diffusion models and numerical optimization solvers. Optimal control problems are rarely solvable in closed form, hence they are often transcribed into numerical trajectory optimization problems, which then require initial guesses. These initial guesses are supplied in our framework by diffusion models. To mitigate the effect of samples that violate the problem constraints, we develop a novel constrained diffusion model to approximate the true distribution of locally optimal solutions with an additional constraint violation loss in training. To further enhance the robustness, the diffusion samples as initial guesses are fed to the numerical solver to refine and derive final optimal (and hence feasible) solutions. Experimental evaluations on three tasks verify the improved constraint satisfaction and computational efficiency with 4$\times$ to 30$\times$ acceleration using our proposed framework, which generalizes across trajectory optimization problems and scales well with problem complexity.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# LTGC:LLMによる生成コンテンツを活用したLong-tail認識

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content ( http://arxiv.org/abs/2403.05854v4 )

ライセンス: Link先を確認
Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu, (参考訳) 尾の認識は、尾のカテゴリから良い表現を学習し、すべてのカテゴリで不均衡に対処する必要があるため、困難である。 本稿では,生成コンテンツを利用した長期認識のための新しい生成・微調整フレームワークLTGCを提案する。 まず、大規模モデル(例えば、大規模言語モデル、LLM)における豊富な暗黙の知識にインスパイアされたLTGCは、これらのモデルのパワーを活用して、オリジナルのテールデータを解析し、推論し、多様なテールクラスのコンテンツを生成する。 そこで我々は,生成したデータの品質を保証し,生成したデータとオリジナルデータの両方を用いてモデルを効率よく微調整する,LTGCの新しい設計を提案する。 可視化はLTGCにおける生成モジュールの有効性を示し、正確で多様なテールデータを生成する。 さらに, 実験結果から, LTGCは, 一般的なロングテールベンチマークにおいて, 既存の最先端手法よりも優れていることが示された。

Long-tail recognition is challenging because it requires the model to learn good representations from tail categories and address imbalances across all categories. In this paper, we propose a novel generative and fine-tuning framework, LTGC, to handle long-tail recognition via leveraging generated content. Firstly, inspired by the rich implicit knowledge in large-scale models (e.g., large language models, LLMs), LTGC leverages the power of these models to parse and reason over the original tail data to produce diverse tail-class content. We then propose several novel designs for LTGC to ensure the quality of the generated data and to efficiently fine-tune the model using both the generated and original data. The visualization demonstrates the effectiveness of the generation module in LTGC, which produces accurate and diverse tail data. Additionally, the experimental results demonstrate that our LTGC outperforms existing state-of-the-art methods on popular long-tailed benchmarks.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# 誤報は悪い事実ではない:フリンジ内容の生成と消費の分析

Misinformation is not about Bad Facts: An Analysis of the Production and Consumption of Fringe Content ( http://arxiv.org/abs/2403.08391v2 )

ライセンス: Link先を確認
JooYoung Lee, Emily Booth, Hany Farid, Marian-Andrei Rizoiu, (参考訳) もし誤報が情報問題ではないとしたら? ニュース出版社が意図しない誤報を広める役割を理解するために,既存のニュースメディア記事と極右・極右のオンライングループがどのように共有し,活用し,物語を前進させるかを検討する。 本研究は,コンセンサスに基づく「実際に正しい」コンテンツの利用を通じて,オンラインのフロンティアイデオロギーが広まることを示唆する。 オーストラリアでは、中道派と極右派の両方の政治的傾向を持つニュースパブリッシャーが、情報完全性と品質のレベルを同等に含んでいることがわかりました。 しかし、次の2つの要因を考えると、大きな違いが現れる。 1) 極右利用者による記事の狭い話題選択は、既存の世界観や特定の関心事に関わるニュース記事のみを選ぶことを示唆している。 2) 記事の書き方を検討する際, 中道・極右の出版社の違いについて検討した。 さらに,コミュニケーションスタイルに基づいて誤情報を共有する傾向のあるユーザを識別する。 これらの発見は、特定のトピックに対する個人的偏見と出版社の執筆スタイルが、オンラインにおけるフリンジイデオロギーを増幅する強力な役割を浮き彫りにするため、オンラインの誤報に対処する上で重要な意味を持つ。

What if misinformation is not an information problem at all? To understand the role of news publishers in potentially unintentionally propagating misinformation, we examine how far-right and fringe online groups share and leverage established legacy news media articles to advance their narratives. Our findings suggest that online fringe ideologies spread through the use of content that is consensus-based and "factually correct". We found that Australian news publishers with both moderate and far-right political leanings contain comparable levels of information completeness and quality; and furthermore, that far-right Twitter users often share from moderate sources. However, a stark difference emerges when we consider two additional factors: 1) the narrow topic selection of articles by far-right users, suggesting that they cherry pick only news articles that engage with their preexisting worldviews and specific topics of concern, and 2) the difference between moderate and far-right publishers when we examine the writing style of their articles. Furthermore, we can identify users prone to sharing misinformation based on their communication style. These findings have important implications for countering online misinformation, as they highlight the powerful role that personal biases towards specific topics and publishers' writing styles have in amplifying fringe ideologies online.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# 最小二乗問題に対するプレコンディショニングによるSGDの帰納規則化の改善

Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems ( http://arxiv.org/abs/2403.08585v3 )

ライセンス: Link先を確認
Junwei Su, Difan Zou, Chuan Wu, (参考訳) 確率勾配降下 (SGD) はアルゴリズムの正則化効果が強く、現代の機械学習の一般化において重要な役割を果たしている。 しかし、従来の研究では、SGDの一般化性能が、異なる次元に沿った不均一な最適化のため、リッジ回帰よりも悪いことが判明している。 プレコンディショニングは、最適化を異なる方向に再バランスすることで、この問題に自然な解決策を提供する。 しかし, プレコンディショニングによってSGDの一般化性能が向上し, 既存の溝をリッジレグレッションで橋渡しできるかどうかは不明である。 本稿では,最小二乗問題に対する事前条件付きSGDの一般化性能について検討する。 プレコンディション付きSGDと(標準 \&プレコンディション付き)リッジレグレッションの総合的な比較を行う。 本研究は,プレコンディショニングによるSGDの理解と改善にいくつかの重要な貢献をしている。 まず、任意の事前条件行列の下で事前条件付きSGDとリッジ回帰に対する過剰リスク境界(一般化性能)を確立する。 第二に、プレコンディショニングされたSGDとリッジ回帰の過度なリスク特性を利用して、(構成を通して)SGDを(標準的な \&プレコンディショニングされた)リッジ回帰に匹敵する単純なプレコンディショニング行列が存在することを示す。 最後に,提案したプレコンディショニング行列は,理論的改善を維持しつつ,有限標本からのロバストな推定を可能にするほど単純であることを示す。 予備条件付きSGDの高次正則化効果を総合的に示し, 実験結果と理論的知見が一致した。

Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice and plays an important role in the generalization of modern machine learning. However, prior research has revealed instances where the generalization performance of SGD is worse than ridge regression due to uneven optimization along different dimensions. Preconditioning offers a natural solution to this issue by rebalancing optimization across different directions. Yet, the extent to which preconditioning can enhance the generalization performance of SGD and whether it can bridge the existing gap with ridge regression remains uncertain. In this paper, we study the generalization performance of SGD with preconditioning for the least squared problem. We make a comprehensive comparison between preconditioned SGD and (standard \& preconditioned) ridge regression. Our study makes several key contributions toward understanding and improving SGD with preconditioning. First, we establish excess risk bounds (generalization performance) for preconditioned SGD and ridge regression under an arbitrary preconditions matrix. Second, leveraging the excessive risk characterization of preconditioned SGD and ridge regression, we show that (through construction) there exists a simple preconditioned matrix that can make SGD comparable to (standard \& preconditioned) ridge regression. Finally, we show that our proposed preconditioning matrix is straightforward enough to allow robust estimation from finite samples while maintaining a theoretical improvement. Our empirical results align with our theoretical findings, collectively showcasing the enhanced regularization effect of preconditioned SGD.
翻訳日:2024-05-29 06:36:16 公開日:2024-05-26
# 量子アドバイスでさえPPを解くことは不可能である

Even quantum advice is unlikely to solve PP ( http://arxiv.org/abs/2403.09994v2 )

ライセンス: Link先を確認
Justin Yirka, (参考訳) PP $\subseteq$ BQP/qpoly ならば、[Aaronson 2006 arXiv:cs/0504048] が主張したように、カウント階層は崩壊する。 これは、PP が量子アドバイスでさえ任意の固定サイズ $n^k$ の回路を持っていないという関連する無条件の主張を回復させる。 YQP*(QMA $\cap$ coQMA)がAPPに含まれており、PP-lowも同様です。

We give a corrected proof that if PP $\subseteq$ BQP/qpoly, then the Counting Hierarchy collapses, as originally claimed by [Aaronson 2006 arXiv:cs/0504048]. This recovers the related unconditional claim that PP does not have circuits of any fixed size $n^k$ even with quantum advice. We do so by proving that YQP*, an oblivious version of (QMA $\cap$ coQMA), is contained in APP, and so is PP-low.
翻訳日:2024-05-29 06:26:32 公開日:2024-05-26
# GCN-DevLSTM:骨格に基づく行動認識のためのパス開発

GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2403.15212v2 )

ライセンス: Link先を確認
Lei Jiang, Weixin Yang, Xin Zhang, Hao Ni, (参考訳) ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。 SARの最近の最先端(SOTA)モデルは、主に骨格データの空間情報抽出に強力なグラフ畳み込みニューラルネットワーク(GCN)に基づいている。 しかし、このようなGCNベースのモデルが人間の行動系列の時間的ダイナミクスを効果的に捉えることは、まだ明らかではない。 この目的のために、リー群構造を利用して、シーケンシャルデータに対する原則的かつ同相な表現である経路開発を利用するG-Dev層を提案する。 G-Dev層を統合することで、G-DevLSTMモジュールは従来のLSTMを強化し、高周波情報を保持しながら時間次元を短縮する。 既存の高度なGCNベースのモデルを補完して、任意の時間グラフデータに便利に適用することができる。 NTU60, NTU120およびChalearn2013データセットに関する実証研究により、提案したGCN-DevLSTMネットワークは、強いGCNベースラインモデルを一貫して改善し、SARタスクの堅牢性に優れたSOTA結果が得られることを示した。 コードはhttps://github.com/DeepIntoStreams/GCN-DevLSTMで公開されている。

Skeleton-based action recognition (SAR) in videos is an important but challenging task in computer vision. The recent state-of-the-art (SOTA) models for SAR are primarily based on graph convolutional neural networks (GCNs), which are powerful in extracting the spatial information of skeleton data. However, it is yet clear that such GCN-based models can effectively capture the temporal dynamics of human action sequences. To this end, we propose the G-Dev layer, which exploits the path development -- a principled and parsimonious representation for sequential data by leveraging the Lie group structure. By integrating the G-Dev layer, the hybrid G-DevLSTM module enhances the traditional LSTM to reduce the time dimension while retaining high-frequency information. It can be conveniently applied to any temporal graph data, complementing existing advanced GCN-based models. Our empirical studies on the NTU60, NTU120 and Chalearn2013 datasets demonstrate that our proposed GCN-DevLSTM network consistently improves the strong GCN baseline models and achieves SOTA results with superior robustness in SAR tasks. The code is available at https://github.com/DeepIntoStreams/GCN-DevLSTM.
翻訳日:2024-05-29 06:26:32 公開日:2024-05-26
# カルトグラムによる深層学習によるオープンシステムにおける需要予測の改善

Improving Demand Forecasting in Open Systems with Cartogram-Enhanced Deep Learning ( http://arxiv.org/abs/2403.16049v2 )

ライセンス: Link先を確認
Sangjoon Park, Yongsung Kwon, Hyungjoon Soh, Mi Jin Lee, Seung-Woo Son, (参考訳) 様々な領域にまたがる時間的パターンの予測は、そのニュアンスでしばしば非線形な軌道が原因で大きな課題となる。 この課題に対処するため、予測フレームワークは、データ駆動統計手法、数学的モデル、機械学習を用いて、継続的に洗練されてきた。 近年,都市の制約や環境問題から,公営自転車などの共有交通システムの普及が進んでいる。 自転車駅におけるレンタル・リターンパターンの予測は, システムの開放性と駅間の利用パターンの不均衡が原因で, 依然として困難な課題である。 本研究では,カルトグラム手法を用いてレンタル・リターンパターンを予測するためのディープラーニングフレームワークを提案する。 カルトグラム手法は、トレーニングデータのない新設置駅の需要予測と、これまで達成されていない長期予測を容易にする。 本手法を韓国ソウルの自転車レンタル・リターンデータに適用し,空間的・時間的畳み込みグラフアテンションネットワークを用いた。 改良されたアーキテクチャでは、バッチアテンションと修正ノード機能のアップデートが組み込まれ、さまざまな時間スケールでの予測精度が向上します。 時間的パターンの予測におけるフレームワークの有効性とその可能性を示す。

Predicting temporal patterns across various domains poses significant challenges due to their nuanced and often nonlinear trajectories. To address this challenge, prediction frameworks have been continuously refined, employing data-driven statistical methods, mathematical models, and machine learning. Recently, as one of the challenging systems, shared transport systems such as public bicycles have gained prominence due to urban constraints and environmental concerns. Predicting rental and return patterns at bicycle stations remains a formidable task due to the system's openness and imbalanced usage patterns across stations. In this study, we propose a deep learning framework to predict rental and return patterns by leveraging cartogram approaches. The cartogram approach facilitates the prediction of demand for newly installed stations with no training data as well as long-period prediction, which has not been achieved before. We apply this method to public bicycle rental-and-return data in Seoul, South Korea, employing a spatial-temporal convolutional graph attention network. Our improved architecture incorporates batch attention and modified node feature updates for better prediction accuracy across different time scales. We demonstrate the effectiveness of our framework in predicting temporal patterns and its potential applications.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# LLMエージェントはリフレクトしているか?オンライン学習とゲームにおけるケーススタディ

Do LLM Agents Have Regret? A Case Study in Online Learning and Games ( http://arxiv.org/abs/2403.16843v2 )

ライセンス: Link先を確認
Chanwoo Park, Xiangyu Liu, Asuman Ozdaglar, Kaiqing Zhang, (参考訳) 大規模言語モデル(LLM)は、LLMベースの自律エージェントの開発を通じて、(対話的な)意思決定にますます採用されている。 彼らの成功にもかかわらず、意思決定におけるLLMエージェントの性能は、特に実世界のLLMエージェントアプリケーションにおける典型的なシナリオである、相互に相互作用するマルチエージェント設定において、定量化によって完全には研究されていない。 対話型環境におけるLLMエージェントの限界をよりよく理解するために,オンライン学習とゲーム理論におけるベンチマーク決定設定におけるそれらの相互作用について,emph{regret}のパフォーマンス指標を用いて検討することを提案する。 まず,LLMエージェントが繰り返しプレイすることで対話する際の平衡の出現とともに,標準的(定常的でない)オンライン学習問題における LLM の {no-regret} 挙動を実証的に研究した。 次に、データを生成する人間の意思決定者の教師付き事前学習と合理性モデルについて、LLMエージェントの非回帰行動に関する理論的知見を提供する。 また, GPT-4 などの先進性 LLM が非再発性でない (単純) 症例も同定した。 本研究は,非学習行動を促進するために,教師付き事前学習障害とは対照的に,(最適)行動のラベルを必要としない,新規なemph{unsupervised}トレーニング損失のemph{regret-loss}を提案する。 そして,この損失を最小限に抑えることで,未知の学習アルゴリズムを自動生成する,という最適化の保証を行ない,後悔の少ない最小化に縛られる一般化の統計的保証を確立する。 我々のさらなる実験は、特に上記の『レグレタブル』ケースに対処する上で、後悔の欠如の有効性を実証するものである。

Large language models (LLMs) have been increasingly employed for (interactive) decision-making, via the development of LLM-based autonomous agents. Despite their emerging successes, the performance of LLM agents in decision-making has not been fully investigated through quantitative metrics, especially in the multi-agent setting when they interact with each other, a typical scenario in real-world LLM-agent applications. To better understand the limits of LLM agents in these interactive environments, we propose to study their interactions in benchmark decision-making settings in online learning and game theory, through the performance metric of \emph{regret}. We first empirically study the {no-regret} behaviors of LLMs in canonical (non-stationary) online learning problems, as well as the emergence of equilibria when LLM agents interact through playing repeated games. We then provide some theoretical insights into the no-regret behaviors of LLM agents, under certain assumptions on the supervised pre-training and the rationality model of human decision-makers who generate the data. Notably, we also identify (simple) cases where advanced LLMs such as GPT-4 fail to be no-regret. To promote the no-regret behaviors, we propose a novel \emph{unsupervised} training loss of \emph{regret-loss}, which, in contrast to the supervised pre-training loss, does not require the labels of (optimal) actions. We then establish the statistical guarantee of generalization bound for regret-loss minimization, followed by the optimization guarantee that minimizing such a loss may automatically lead to known no-regret learning algorithms. Our further experiments demonstrate the effectiveness of our regret-loss, especially in addressing the above ``regrettable'' cases.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# 大規模言語モデルは文法的誤り訂正のための最先端評価器である

Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction ( http://arxiv.org/abs/2403.17540v2 )

ライセンス: Link先を確認
Masamune Kobayashi, Masato Mita, Mamoru Komachi, (参考訳) 大規模言語モデル(LLM)は、テキスト要約や機械翻訳などのタスクにおいて、既存の自動評価指標より優れていることが報告されている。 しかし,文法的誤り訂正(GEC)における評価器としてのLLMの研究は乏しい。 本研究では,従来の研究から着想を得た各種評価基準を取り入れたプロンプトを用いて,GEC評価におけるLCMの性能について検討した。 以上の結果から, GPT-4はKendallの0.662と人的判断の相関を達成し, 既存のすべての手法を上回る結果となった。 さらに,近年のGEC評価では,LLMs尺度の重要性が強調され,評価基準における流速の重要性が特に強調されている。

Large Language Models (LLMs) have been reported to outperform existing automatic evaluation metrics in some tasks, such as text summarization and machine translation. However, there has been a lack of research on LLMs as evaluators in grammatical error correction (GEC). In this study, we investigate the performance of LLMs in GEC evaluation by employing prompts designed to incorporate various evaluation criteria inspired by previous research. Our extensive experimental results demonstrate that GPT-4 achieved Kendall's rank correlation of 0.662 with human judgments, surpassing all existing methods. Furthermore, in recent GEC evaluations, we have underscored the significance of the LLMs scale and particularly emphasized the importance of fluency among evaluation criteria.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# GPFL: 効果的なフェデレーション学習のための段階的プロジェクションベースクライアント選択フレームワーク

GPFL: A Gradient Projection-Based Client Selection Framework for Efficient Federated Learning ( http://arxiv.org/abs/2403.17833v2 )

ライセンス: Link先を確認
Shijie Na, Yuzhi Liang, Siu-Ming Yiu, (参考訳) モデルの精度と通信効率のバランスを保ちながら、参加するクライアントを決定するためには、フェデレーションラーニングクライアントの選択が不可欠である。 既存の手法では、データの不均一性、計算負荷、クライアントの独立処理に制限がある。 これらの課題に対処するため,GPFLを提案する。 また,性能向上のためのエクスプロイト・エクスプローラー機構も採用している。 FEMINSTとCIFAR-10データセットの実験結果から、GPFLは非IIDシナリオにおいてベースラインよりも優れ、FEMINSTテスト精度が96%以上向上していることが示された。 さらにGPFLは,フェデレート学習における事前選択とパラメータ再利用により,計算時間を短縮する。

Federated learning client selection is crucial for determining participant clients while balancing model accuracy and communication efficiency. Existing methods have limitations in handling data heterogeneity, computational burdens, and independent client treatment. To address these challenges, we propose GPFL, which measures client value by comparing local and global descent directions. We also employ an Exploit-Explore mechanism to enhance performance. Experimental results on FEMINST and CIFAR-10 datasets demonstrate that GPFL outperforms baselines in Non-IID scenarios, achieving over 9\% improvement in FEMINST test accuracy. Moreover, GPFL exhibits shorter computation times through pre-selection and parameter reuse in federated learning.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# 第二言語学習における分散型エージェントと生成AIによる教育

Distributed agency in second language learning and teaching through generative AI ( http://arxiv.org/abs/2403.20216v3 )

ライセンス: Link先を確認
Robert Godwin-Jones, (参考訳) 生成AIは、言語学習に重要な機会を提供する。 ChatGPTのようなツールは、文章や音声形式のチャットを通じて非公式の第二言語プラクティスを提供することができ、学習者は習熟度、言語レジスタ、議論トピックなどの会話パラメータを指示する。 AIは、修正的なフィードバックを与えたり、実践演習を作成したり、拡張された研究計画を開発するように指示することができる。 インストラクタはAIを使って、さまざまなメディアで学習と評価材料を構築することができる。 AIは没入型技術をより強力で多用途にし、スクリプトによるインタラクションから遠ざかる可能性が高い。 学習者と教師の双方にとって、純粋に統計的に人間の言語モデルから生じるAIシステムの限界を理解することが重要である。 さらに、AIシステムの構築方法に関する倫理的な懸念や、その使用に関する実践的な制約、特に特権の少ない人口に対する懸念もある。 AIツールのパワーと汎用性は、多くの人々の生活において(スマートフォンと同じく)価値ある、絶え間ない仲間になり、単純なツールの使用以上の密接なつながりを生み出すだろう。 社会物質主義のような生態学理論は、密接なユーザーとAIの相互作用を通して発展する共有機関を調べるのに役立つ。

Generative AI offers significant opportunities for language learning. Tools like ChatGPT can provide informal second language practice through chats in written or voice forms, with the learner specifying through prompts conversational parameters such as proficiency level, language register, and discussion topics. AI can be instructed to give corrective feedback, create practice exercises, or develop an extended study plan. Instructors can use AI to build learning and assessment materials in a variety of media. AI is likely to make immersive technologies more powerful and versatile, moving away from scripted interactions. For both learners and teachers, it is important to understand the limitations of AI systems that arise from their purely statistical model of human language, which limits their ability to deal with nuanced social and cultural aspects of language use. Additionally, there are ethical concerns over how AI systems are created as well as practical constraints in their use, especially for less privileged populations. The power and versatility of AI tools are likely to turn them into valuable and constant companions in many peoples lives (akin to smartphones), creating a close connection that goes beyond simple tool use. Ecological theories such as sociomaterialism are helpful in examining the shared agency that develops through close user-AI interactions, as are the perspectives on human-object relations from Indigenous cultures.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# 量子回路欠陥がネットワークおよびコンピュータ応用に与える影響のモデル化

Modelling the Impact of Quantum Circuit Imperfections on Networks and Computer Applications ( http://arxiv.org/abs/2404.00062v3 )

ライセンス: Link先を確認
Savo Glisic, (参考訳) ポスト量子および量子暗号スキームは、7Gネットワークのための実現可能な量子コンピュータアプリケーションである。 これらのスキームは、既存のスキームを置き換える可能性がある。 これらのアルゴリズムは、Shorアルゴリズムのような量子コンピュータ上で動作する量子検索アルゴリズムの進歩によって妥協された。 Shorアルゴリズムは、既存のアルゴリズムの基礎となる整数の素因子を見つけるための量子アルゴリズムである。 これはESAアルゴリズムを危険にさらすために利用可能な量子コンピュータアプリケーションとなった。 最近の論文では、7Gネットワークにおける量子および量子暗号アルゴリズムの適用性に着目したポスト量子および量子暗号アルゴリズムの研究について詳細に調査している。 本論文では、暗号アルゴリズムを追従するものとして、量子ネットワーク最適化のための新しいフレームワークを提供し、7Gにおける量子ハードウェアの最も重要な部分を含む、これらのアルゴリズムの実用的な実装のための技術(量子ハードウェア)の実現に向けた研究を詳細に調査する。 エンジニアリングの実践ではいつものように、実践的なソリューションは、実装のパフォーマンスと複雑さを妥協させるものです。 そこで本研究では,実装の不完全性を含むネットワークおよびコンピュータアプリケーション最適化フレームワークを提案する。 このツールは、次世代の実用的なコンピュータシステム設計を最適化するのに有用である。 その後、量子ハードウェアに関する既存の研究を包括的に調査し、これらの不完全性の原因を指摘した。 これにより、量子ハードウェアの改善に対する投資がシステム全体のパフォーマンス向上にどの程度貢献するかを公平に評価することができる。 このようにして、ハードウェアへの投資とシステムレベルの複雑さの間の適切なパーティショニングを決定することができる。

Post Quantum and Quantum Cryptography schemes are feasible quantum computer applications for 7G networks. These schemes could possibly replace existing schemes. These algorithms have been compromised by advances in quantum search algorithms run on quantum computers like Shor algorithm. Shor algorithm is a quantum algorithm for finding the prime factors of an integer which is the basis of existing algorithm. This has become an available quantum computer application putting the use of ESA algorithm at risk. Our recent paper provides a detailed survey of the work on post quantum and quantum cryptography algorithms with focus on their applicability in 7G networks. Since the paper focuses on the cryptography algorithms as a follow up, in this paper, we provide a new framework for quantum network optimization and survey in detail the work on enabling technologies (quantum hardware) for the practical implementation of these algorithms including the most important segments of quantum hardware in 7G. As always in engineering practice practical solutions are a compromise between the performance and complexity of the implementation. For this reason, as the main contribution, the paper presents a network and computer applications optimization framework that includes implementation imperfections. The tools should be useful in optimizing future generation practical computer system design. After that a comprehensive survey of the existing work on quantum hardware is presented pointing out the sources of these imperfections. This enables us to make a fair assessment of how much investment into quantum hardware improvements contributes to the performance enhancement of the overall system. In this way a decision can be made on proper partitioning between the investment in hardware and system level complexity.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-26
# ポセットを用いた機械学習とデータ分析:調査

Machine Learning and Data Analysis Using Posets: A Survey ( http://arxiv.org/abs/2404.03082v2 )

ライセンス: Link先を確認
Arnauld Mesinga Mwafise, (参考訳) ポセット(英: Poset)は、データ分析や機械学習の幅広い応用において、ユビキタスな離散的な数学的構造である。 データサイエンス領域にポーズを接続する研究は、長年にわたって続けられてきた。 本稿では,データ解析とポーズを用いた機械学習に関する幅広い研究を,その理論,アルゴリズム,応用の観点から概説する。 さらに、形式的概念解析の格子理論の適用領域も、機械学習の応用の観点から強調される。

Posets are discrete mathematical structures which are ubiquitous in a broad range of data analysis and machine learning applications. Research connecting posets to the data science domain has been ongoing for many years. In this paper, a comprehensive review of a wide range of studies on data analysis and machine learning using posets are examined in terms of their theory, algorithms and applications. In addition, the applied lattice theory domain of formal concept analysis will also be highlighted in terms of its machine learning applications.
翻訳日:2024-05-29 06:07:03 公開日:2024-05-26
# 非定常データを用いたカーネルヒルベルト空間再現におけるオンライン正規化統計的学習の収束条件

Convergence Conditions of Online Regularized Statistical Learning in Reproducing Kernel Hilbert Space With Non-Stationary Data ( http://arxiv.org/abs/2404.03211v2 )

ライセンス: Link先を確認
Xiwei Zhang, Tao Li, (参考訳) 本研究では,RKHS空間における再帰的正規化学習アルゴリズムの収束性について検討した。 まず,RKHSにおけるランダム差分方程式の平均二乗漸近安定性について検討する。 第2に,ランダムなチコノフ正規化経路の概念を導入し,正規化経路が何らかの意味でゆっくりと時間変化している場合,アルゴリズムの出力は平均二乗の正規化経路と一致していることを示す。 さらに、データストリームが励起条件のRKHS持続性も満たしている場合、すなわち、各時間周期で蓄積された入力データによって誘導される演算子の条件予測の固有値が時間的に一様正の低い値であるような一定期間の周期が存在する場合、アルゴリズムの出力は平均二乗の未知関数と一致する。 最後に、独立および非同一分散データストリームの場合、入力データによって誘導される限界確率測度が徐々に時間変化し、各固定期間の平均測度が一様正の正下限を有する場合、平均二乗整合をアルゴリズムが達成する。

We study the convergence of recursive regularized learning algorithms in the reproducing kernel Hilbert space (RKHS) with dependent and non-stationary online data streams. Firstly, we study the mean square asymptotic stability of a class of random difference equations in RKHS, whose non-homogeneous terms are martingale difference sequences dependent on the homogeneous ones. Secondly, we introduce the concept of random Tikhonov regularization path, and show that if the regularization path is slowly time-varying in some sense, then the output of the algorithm is consistent with the regularization path in mean square. Furthermore, if the data streams also satisfy the RKHS persistence of excitation condition, i.e. there exists a fixed length of time period, such that each eigenvalue of the conditional expectation of the operators induced by the input data accumulated over every time period has a uniformly positive lower bound with respect to time, then the output of the algorithm is consistent with the unknown function in mean square. Finally, for the case with independent and non-identically distributed data streams, the algorithm achieves the mean square consistency provided the marginal probability measures induced by the input data are slowly time-varying and the average measure over each fixed-length time period has a uniformly strictly positive lower bound.
翻訳日:2024-05-29 06:07:03 公開日:2024-05-26
# LaVy: ベトナムのマルチモーダル大言語モデル

LaVy: Vietnamese Multimodal Large Language Model ( http://arxiv.org/abs/2404.07922v5 )

ライセンス: Link先を確認
Chi Tran, Huong Le Thanh, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。 一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。 本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 私たちのプロジェクトはhttps://github.com/baochi0212/LaVyで公開されています。

Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. Our project is public at https://github.com/baochi0212/LaVy
翻訳日:2024-05-29 05:57:17 公開日:2024-05-26
# 機能最小値最適化のためのニューラル確率勾配勾配の平均場解析

A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization ( http://arxiv.org/abs/2404.12312v2 )

ライセンス: Link先を確認
Yuchen Zhu, Yufeng Zhang, Zhaoran Wang, Zhuoran Yang, Xiaohong Chen, (参考訳) 本稿では、過パラメータ化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 特に、目的関数が函数空間において二次的である条件付き期待によって定義される線形汎関数方程式を推定することから生じるミニマックス最適化問題を考察する。 特集にあたって (i)確率勾配降下指数アルゴリズムの収束とその応用 (II)ニューラルネットワークの表現学習 最適化力学の連続時間および無限幅極限を考慮し、平均場状態下で収束を確立する。 この状態下では、確率勾配勾配は、ニューラルネットワークパラメータの空間上で定義された確率測度の空間上のワッサーシュタイン勾配の流れに対応する。 ワッサーシュタイン勾配流は、$O(T^{-1} + \alpha^{-1})$ sublinear rateでミニマックス対象の定常点に大域的に収束し、さらに、ミニマックス対象の正則化が強い凸であるときに函数方程式の解を求める。 ここで$T$は時間を表し、$\alpha$はニューラルネットワークのスケーリングパラメータである。 表現学習では,ニューラルネットワークによって誘導される特徴表現が,ワッサーシュタイン距離で測定された$O(\alpha^{-1})$で初期表現から逸脱することが認められた。 最後に, 政策評価, 非パラメトリック機器変数回帰, 資産価格, 逆Riesz代表者推定などの具体例に適用する。

This paper studies minimax optimization problems defined over infinite-dimensional function classes of overparameterized two-layer neural networks. In particular, we consider the minimax optimization problem stemming from estimating linear functional equations defined by conditional expectations, where the objective functions are quadratic in the functional spaces. We address (i) the convergence of the stochastic gradient descent-ascent algorithm and (ii) the representation learning of the neural networks. We establish convergence under the mean-field regime by considering the continuous-time and infinite-width limit of the optimization dynamics. Under this regime, the stochastic gradient descent-ascent corresponds to a Wasserstein gradient flow over the space of probability measures defined over the space of neural network parameters. We prove that the Wasserstein gradient flow converges globally to a stationary point of the minimax objective at a $O(T^{-1} + \alpha^{-1})$ sublinear rate, and additionally finds the solution to the functional equation when the regularizer of the minimax objective is strongly convex. Here $T$ denotes the time and $\alpha$ is a scaling parameter of the neural networks. In terms of representation learning, our results show that the feature representation induced by the neural networks is allowed to deviate from the initial one by the magnitude of $O(\alpha^{-1})$, measured in terms of the Wasserstein distance. Finally, we apply our general results to concrete examples including policy evaluation, nonparametric instrumental variable regression, asset pricing, and adversarial Riesz representer estimation.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-26
# AmbigDocs: 同じ名前で異なるエンティティに関するドキュメントをまたぐ推論

AmbigDocs: Reasoning across Documents on Different Entities under the Same Name ( http://arxiv.org/abs/2404.12447v2 )

ライセンス: Link先を確認
Yoonsang Lee, Xi Ye, Eunsol Choi, (参考訳) 同じ名前の異なるエンティティを区別することは困難である。 混乱したエンティティの言及を扱うことは、言語モデル(LM)にとって重要なスキルです。 例えば、「マイケル・ジョーダンはどこで教育を受けたのか?」という問いや、マイケル・ジョーダンという名前の異なる人々について議論する一連の文書を考えると、LMはエンティティの言及を区別して、この質問に対する結束的な回答を生成することができるだろうか? この能力をテストするために、新しいベンチマークであるAmbigDocsを導入しました。 ウィキペディアの曖昧なページを利用して、曖昧な名前を共有する異なるエンティティに属する文書の集合を識別する。 これらの文書から、あいまいな名前とそれに対応する答えの集合を含む質問を生成する。 我々の分析によると、現在の最先端モデルは、しばしば曖昧な答えや、異なるエンティティに属する情報を誤ってマージする。 我々は,4種類の不完全な回答と自動評価指標を分類し,それらのカテゴリを同定するオントロジーを確立する。 我々は、曖昧なエンティティを持つ複数のドキュメントをまたがる推論に関する将来の研究の基礎を築いた。

Different entities with the same name can be difficult to distinguish. Handling confusing entity mentions is a crucial skill for language models (LMs). For example, given the question "Where was Michael Jordan educated?" and a set of documents discussing different people named Michael Jordan, can LMs distinguish entity mentions to generate a cohesive answer to the question? To test this ability, we introduce a new benchmark, AmbigDocs. By leveraging Wikipedia's disambiguation pages, we identify a set of documents, belonging to different entities who share an ambiguous name. From these documents, we generate questions containing an ambiguous name and their corresponding sets of answers. Our analysis reveals that current state-of-the-art models often yield ambiguous answers or incorrectly merge information belonging to different entities. We establish an ontology categorizing four types of incomplete answers and automatic evaluation metrics to identify such categories. We lay the foundation for future work on reasoning across multiple documents with ambiguous entities.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-26
# Vim4Path: 病理画像のための自己監督型視覚マンバ

Vim4Path: Self-Supervised Vision Mamba for Histopathology Images ( http://arxiv.org/abs/2404.13222v2 )

ライセンス: Link先を確認
Ali Nasiri-Sarvi, Vincent Quoc-Huy Trinh, Hassan Rivaz, Mahdi S. Hosseini, (参考訳) Gigapixel Whole Slide Images (WSI) からの表現学習は、組織構造の複雑な性質とラベル付きデータの不足により、計算病理学において重要な課題となっている。 マルチインスタンス学習手法はこの課題に対処し、イメージパッチを活用し、自己監視学習(SSL)アプローチを用いた事前学習モデルを用いたスライドの分類を行っている。 SSLとMILの両方のパフォーマンスは、機能エンコーダのアーキテクチャに依存している。 本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。 我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。 以上の結果から,Vim は ViT と比較して性能が向上し,特に比較的小規模なモデルでは ROC AUC が8.21 増加していることが明らかとなった。 説明可能性分析は、Vimの機能をさらに強調し、Vimが病理学者のワークフローに似ていないViTを独自にエミュレートしていることを明らかにした。 この人間の専門的分析との整合性は、現実的な診断におけるヴィムの可能性を強調し、計算病理学における効果的な表現学習アルゴリズムの開発に大きく貢献する。 コードと事前訓練されたウェイトは、 \url{https://github.com/AtlasAnalyticsLab/Vim4Path}でリリースします。

Representation learning from Gigapixel Whole Slide Images (WSI) poses a significant challenge in computational pathology due to the complicated nature of tissue structures and the scarcity of labeled data. Multi-instance learning methods have addressed this challenge, leveraging image patches to classify slides utilizing pretrained models using Self-Supervised Learning (SSL) approaches. The performance of both SSL and MIL methods relies on the architecture of the feature encoder. This paper proposes leveraging the Vision Mamba (Vim) architecture, inspired by state space models, within the DINO framework for representation learning in computational pathology. We evaluate the performance of Vim against Vision Transformers (ViT) on the Camelyon16 dataset for both patch-level and slide-level classification. Our findings highlight Vim's enhanced performance compared to ViT, particularly at smaller scales, where Vim achieves an 8.21 increase in ROC AUC for models of similar size. An explainability analysis further highlights Vim's capabilities, which reveals that Vim uniquely emulates the pathologist workflow-unlike ViT. This alignment with human expert analysis highlights Vim's potential in practical diagnostic settings and contributes significantly to developing effective representation-learning algorithms in computational pathology. We release the codes and pretrained weights at \url{https://github.com/AtlasAnalyticsLab/Vim4Path}.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-26
# RealTCD:大規模言語モデルを用いたインターベンショナルデータからの時間因果発見

RealTCD: Temporal Causal Discovery from Interventional Data with Large Language Model ( http://arxiv.org/abs/2404.14786v2 )

ライセンス: Link先を確認
Peiwen Li, Xin Wang, Zeyang Zhang, Yuan Meng, Fang Shen, Yue Li, Jialong Wang, Yang Li, Wenweu Zhu, (参考訳) 情報技術操作のための人工知能の分野では、因果発見はグラフ構築の操作と維持に欠かせないものであり、根本原因分析などの下流産業業務を容易にしている。 時間的因果発見は、介入データを利用して、観察から直接変数間の時間的因果関係を同定することを目的としている。 しかし、既存の手法は主に介入対象に大きく依存した合成データセットに焦点を当て、現実のシステムに隠されたテキスト情報を無視し、実際の産業シナリオの因果的発見を行なわなかった。 この問題に対処するため,産業シナリオにおける時間的因果発見について検討する。 1【実施に要する介入対象を伴わない因果関係の発見方法】 2) 産業環境において複雑でありながら豊富なシステムにおいて, テキスト情報を活用した因果関係の発見方法について検討した。 これらの課題に対処するために,ドメイン知識を活用して,介入対象のない時間的因果関係の発見が可能なRealTCDフレームワークを提案する。 具体的には,まず,戦略的マスキングと正規化によって介入対象に頼らずに根本原因分析の因果関係を発見できるスコアベースの時間因果探索法を開発した。 さらに,Large Language Models (LLMs) を用いてテキストを処理し,ドメイン知識を統合することにより,LLM誘導メタ初期化を導入し,システムに隠されたテキスト情報からメタ知識を抽出し,発見の質を高める。 本研究では,時間的因果構造を発見する上で,既存のベースラインよりもRealTCDフレームワークの方が優れていることを示すため,シミュレーションと実世界のデータセットに関する広範な実験を行った。

In the field of Artificial Intelligence for Information Technology Operations, causal discovery is pivotal for operation and maintenance of graph construction, facilitating downstream industrial tasks such as root cause analysis. Temporal causal discovery, as an emerging method, aims to identify temporal causal relationships between variables directly from observations by utilizing interventional data. However, existing methods mainly focus on synthetic datasets with heavy reliance on intervention targets and ignore the textual information hidden in real-world systems, failing to conduct causal discovery for real industrial scenarios. To tackle this problem, in this paper we propose to investigate temporal causal discovery in industrial scenarios, which faces two critical challenges: 1) how to discover causal relationships without the interventional targets that are costly to obtain in practice, and 2) how to discover causal relations via leveraging the textual information in systems which can be complex yet abundant in industrial contexts. To address these challenges, we propose the RealTCD framework, which is able to leverage domain knowledge to discover temporal causal relationships without interventional targets. Specifically, we first develop a score-based temporal causal discovery method capable of discovering causal relations for root cause analysis without relying on interventional targets through strategic masking and regularization. Furthermore, by employing Large Language Models (LLMs) to handle texts and integrate domain knowledge, we introduce LLM-guided meta-initialization to extract the meta-knowledge from textual information hidden in systems to boost the quality of discovery. We conduct extensive experiments on simulation and real-world datasets to show the superiority of our proposed RealTCD framework over existing baselines in discovering temporal causal structures.
翻訳日:2024-05-29 05:47:26 公開日:2024-05-26
# 画像スティッチパイプラインの再構築:融合と整形を統一塗布モデルに統合する

Reconstructing the Image Stitching Pipeline: Integrating Fusion and Rectangling into a Unified Inpainting Model ( http://arxiv.org/abs/2404.14951v2 )

ライセンス: Link先を確認
Ziqi Xie, Weidong Zhao, Xianhui Liu, Jian Zhao, Ning Jia, (参考訳) 深層学習に基づく画像縫合パイプラインは通常、登録、融合、整形という3つのカスケードステージに分けられる。 各ステージには独自のネットワークトレーニングが必要で、他のステージと密結合されているため、エラーの伝搬が発生し、パラメータチューニングやシステムの安定性に重大な課題が生じる。 本稿では, 画像縫合パイプラインを簡素化し, 画像縫合パイプラインを再構築する簡易・ロバスト・スティッカー (SRStitcher) を提案する。 融合および整形段階の問題定義を再構築し, 効果的に着色作業に統合できることを実証する。 さらに,重み付きマスクを設計して,大規模拡散モデルの逆過程を導出し,この統合インペイントタスクを単一推論で実装する。 広汎な実験により,SRStitcherが性能と安定性の両方において最先端の手法より優れていることを示す。 コード:https://github.com/yayoyo66/SRStitcher

Deep learning-based image stitching pipelines are typically divided into three cascading stages: registration, fusion, and rectangling. Each stage requires its own network training and is tightly coupled to the others, leading to error propagation and posing significant challenges to parameter tuning and system stability. This paper proposes the Simple and Robust Stitcher (SRStitcher), which revolutionizes the image stitching pipeline by simplifying the fusion and rectangling stages into a unified inpainting model, requiring no model training or fine-tuning. We reformulate the problem definitions of the fusion and rectangling stages and demonstrate that they can be effectively integrated into an inpainting task. Furthermore, we design the weighted masks to guide the reverse process in a pre-trained largescale diffusion model, implementing this integrated inpainting task in a single inference. Through extensive experimentation, we verify the interpretability and generalization capabilities of this unified model, demonstrating that SRStitcher outperforms state-of-the-art methods in both performance and stability. Code: https://github.com/yayoyo66/SRStitcher
翻訳日:2024-05-29 05:47:26 公開日:2024-05-26
# セマンティックセグメンテーションを用いたX線画像における大腿骨頭頂部線維角の計算

Calculation of Femur Caput Collum Diaphyseal angle for X-Rays images using Semantic Segmentation ( http://arxiv.org/abs/2404.17083v2 )

ライセンス: Link先を確認
Muhammad Abdullah, Anne Querfurth, Deepak Bhatia, Mahdi Mantash, (参考訳) 本稿では, 深層学習手法を用いてX線画像から大腿部腹側下垂体(CCD)の角度を推定する。 CCD角は股関節疾患の診断において重要な測定であり、正しい予測は外科手術の計画に有効である。 一方、この角度を手動で測定することは、時間集約的で、サーバ間の変動に弱い。 本稿では,X線画像から大腿骨CCD角を確実に推定できるディープラーニングアルゴリズムを提案する。 モデルの性能を訓練し,テストするために,X線画像データセットを用いて大腿骨CCD角計測を行った。 さらに,結果の予測を提示し,ユーザが予測と対話できるようにプロトタイプを構築した。 手術中は不妊状態にあるため,音声コマンドでのみ使用可能なインターフェースを拡張した。 以上の結果から,X線画像上での深層学習モデルでは,左大腿骨では4.3度,右大腿骨では4.9度で,大腿骨のCCD角を精度良く予測できることがわかった。 以上の結果から,深層学習は大腿骨CCD角の予測により効率的かつ正確な手法を提供する可能性が示唆された。

This paper investigates the use of deep learning approaches to estimate the femur caput-collum-diaphyseal (CCD) angle from X-ray images. The CCD angle is an important measurement in the diagnosis of hip problems, and correct prediction can help in the planning of surgical procedures. Manual measurement of this angle, on the other hand, can be time-intensive and vulnerable to inter-observer variability. In this paper, we present a deep-learning algorithm that can reliably estimate the femur CCD angle from X-ray images. To train and test the performance of our model, we employed an X-ray image dataset with associated femur CCD angle measurements. Furthermore, we built a prototype to display the resulting predictions and to allow the user to interact with the predictions. As this is happening in a sterile setting during surgery, we expanded our interface to the possibility of being used only by voice commands. Our results show that our deep learning model predicts the femur CCD angle on X-ray images with great accuracy, with a mean absolute error of 4.3 degrees on the left femur and 4.9 degrees on the right femur on the test dataset. Our results suggest that deep learning has the potential to give a more efficient and accurate technique for predicting the femur CCD angle, which might have substantial therapeutic implications for the diagnosis and management of hip problems.
翻訳日:2024-05-29 05:47:26 公開日:2024-05-26
# 言語モデルアライメントのためのセルフプレイ選好最適化

Self-Play Preference Optimization for Language Model Alignment ( http://arxiv.org/abs/2405.00675v3 )

ライセンス: Link先を確認
Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu, (参考訳) 従来の人間フィードバックからの強化学習(RLHF)アプローチは、Bradley-Terryモデルのようなパラメトリックモデルに依存している。 近年の進歩は、好みの確率で直接作業することで、人間の好みをより正確に反映し、より柔軟で正確な言語モデルアライメントを可能にすることを示唆している。 本稿では,ナッシュ均衡政策の同定を目的とした,言語モデルアライメントのための自己遊び型手法を提案する。 提案手法は,SPPO (textit{Self-play Probabilistic Preference Optimization}) と呼ばれ,反復的なポリシー更新を通じてナッシュ均衡を近似し,理論的収束を保証する。 提案手法は, 直接選好最適化 (DPO) や同一性選好最適化 (IPO) などの対称的ペアワイズ損失によって, 容易に達成できないような, 選択された応答のログ類似度を効果的に向上し, 拒否された応答のログ類似度を減少させることができる。 実験では,UltraFeedbackデータセットからの60kプロンプトのみを使用し,0.4Bパラメータのみを事前学習した選好モデルPairRMを利用することで,AlpacaEval 2.0のGPT-4-Turboに対して28.53\%の精度を持つ微調整Mistral-7B-Instruct-v0.2からモデルを得ることができた。 また、MT-BenchとOpen LLM Leaderboardで(興味深い)DPOとIPOを上回っている。 特に、SPPOの強い性能は、GPT-4や他の強力な言語モデルから追加の外部監督(例えば、応答、嗜好など)なしで達成される。

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed \textit{Self-play Probabilistic Preference Optimization} (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys a theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53\% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.
翻訳日:2024-05-29 05:37:42 公開日:2024-05-26
# 前向きコントラスト学習の改善

Improved Forward-Forward Contrastive Learning ( http://arxiv.org/abs/2405.03432v3 )

ライセンス: Link先を確認
Gananath R, (参考訳) バックプロパゲーションアルゴリズム(バックプロパゲーションアルゴリズム、英: backpropagation algorithm)は、ディープラーニングにおいて広く利用されている最適化手法である。 バックプロップで訓練されたモデルが神経データを正確に説明できるという証拠が増えているが、生物学の脳では、バックプロップのような方法がまだ見つかっていない。 さらに、脳内のバックプロップの素直な実装を利用することには、いくつかの欠点がある。 2022年、ジェフリー・ヒントン (Geoffrey Hinton) はフォワード・フォワード (FF) アルゴリズムと呼ばれる生物学的に妥当な学習法を提案した。 この記事の直後にFFCLと呼ばれる改良版が導入された。 しかし、FFCLには制限があり、特に3段階の学習システムであり、最終段階は通常のバックプロパゲーションに依存していた。 提案手法では,FFCLの最後の2段階を除去し,通常のバックプロパゲーションを完全に除去することで,これらの欠点に対処する。 代わりに、ローカルアップデートにのみ依存し、より生物学的に可能な代替手段を提供しています。

The backpropagation algorithm, or backprop, is a widely utilized optimization technique in deep learning. While there's growing evidence suggesting that models trained with backprop can accurately explain neuronal data, no backprop-like method has yet been discovered in the biological brain for learning. Moreover, employing a naive implementation of backprop in the brain has several drawbacks. In 2022, Geoffrey Hinton proposed a biologically plausible learning method known as the Forward-Forward (FF) algorithm. Shortly after this paper, a modified version called FFCL was introduced. However, FFCL had limitations, notably being a three-stage learning system where the final stage still relied on regular backpropagation. In our approach, we address these drawbacks by eliminating the last two stages of FFCL and completely removing regular backpropagation. Instead, we rely solely on local updates, offering a more biologically plausible alternative.
翻訳日:2024-05-29 05:37:42 公開日:2024-05-26
# エッジデバイスにおける分散脅威インテリジェンス - 大規模言語モデル駆動アプローチ

Distributed Threat Intelligence at the Edge Devices: A Large Language Model-Driven Approach ( http://arxiv.org/abs/2405.08755v2 )

ライセンス: Link先を確認
Syed Mhamudul Hasan, Alaa M. Alotaibi, Sajedul Talukder, Abdur R. Shahid, (参考訳) エッジデバイスの普及に伴い、これらのデバイスに対する攻撃面が著しく増加する。 エッジデバイスへの脅威インテリジェンスの分散デプロイと、Large Language Models (LLMs)のコンテキスト内学習機能のような適応機械学習技術は、リソース制約されたエッジデバイス上でのサイバーセキュリティを強化するための有望なパラダイムである。 このアプローチでは、エッジデバイスに直接軽量機械学習モデルをデプロイして、ネットワークトラフィックやシステムログなどのローカルデータストリームをリアルタイムで分析する。 さらに、エッジサーバに計算タスクを分散することでレイテンシが減少し、応答性が向上すると同時に、機密データをローカルに処理することでプライバシも向上する。 LLMサーバは、これらのエッジサーバが進化する脅威や攻撃パターンに自律的に適応できるようにし、モデルを継続的に更新して検出精度を改善し、偽陽性を減らすことができる。 さらに、協調学習機構は、エッジデバイス間のピアツーピアで信頼性の高い知識共有を促進し、ネットワークの集合的知性を高め、検出された異常に対応するデバイス隔離のような動的脅威軽減対策を可能にする。 エッジデバイスはネットワークトラフィックやシステムログの変更といった不審な情報のみを送信し、ネットワークエッジにおける新興のサイバー脅威と戦うためのレジリエントで効率的なソリューションを提供する。 提案フレームワークは,ネットワークからエッジデバイスを分離することにより,サイバー脅威の検出と緩和において,より優れたセキュリティを提供することにより,エッジコンピューティングのセキュリティを向上させることができる。

With the proliferation of edge devices, there is a significant increase in attack surface on these devices. The decentralized deployment of threat intelligence on edge devices, coupled with adaptive machine learning techniques such as the in-context learning feature of Large Language Models (LLMs), represents a promising paradigm for enhancing cybersecurity on resource-constrained edge devices. This approach involves the deployment of lightweight machine learning models directly onto edge devices to analyze local data streams, such as network traffic and system logs, in real-time. Additionally, distributing computational tasks to an edge server reduces latency and improves responsiveness while also enhancing privacy by processing sensitive data locally. LLM servers can enable these edge servers to autonomously adapt to evolving threats and attack patterns, continuously updating their models to improve detection accuracy and reduce false positives. Furthermore, collaborative learning mechanisms facilitate peer-to-peer secure and trustworthy knowledge sharing among edge devices, enhancing the collective intelligence of the network and enabling dynamic threat mitigation measures such as device quarantine in response to detected anomalies. The scalability and flexibility of this approach make it well-suited for diverse and evolving network environments, as edge devices only send suspicious information such as network traffic and system log changes, offering a resilient and efficient solution to combat emerging cyber threats at the network edge. Thus, our proposed framework can improve edge computing security by providing better security in cyber threat detection and mitigation by isolating the edge devices from the network.
翻訳日:2024-05-29 05:27:58 公開日:2024-05-26
# 疑似因果発見

Argumentative Causal Discovery ( http://arxiv.org/abs/2405.11250v2 )

ライセンス: Link先を確認
Fabrizio Russo, Anna Rapberger, Francesca Toni, (参考訳) 因果発見は、データの特徴間の因果関係を発掘することにつながる。 因果推論に欠かせないものであり、高価または不可能なランダム化制御試験に頼らずに科学的知識を構築するために必要なものである。 本稿では,記号表現を用いた推論が因果発見にどのように役立つかを検討する。 具体的には、因果関係を反映したグラフを学習するために、因果関係理論と組み合わせて、十分に確立された強力な知識表現形式である仮定に基づく議論(ABA)を展開する。 我々は,本手法が望ましい特性を示すことを証明し,特に自然条件下では,地底因果グラフを検索できることを示す。 また、因果探索における標準ベンチマークから得られた4つのデータセットに対して、応答セットプログラミング(ASP)による手法の実装実験を行い、本手法が確立された基準値と良好に比較したことを示す。

Causal discovery amounts to unearthing causal relationships amongst features in data. It is a crucial companion to causal inference, necessary to build scientific knowledge without resorting to expensive or impossible randomised control trials. In this paper, we explore how reasoning with symbolic representations can support causal discovery. Specifically, we deploy assumption-based argumentation (ABA), a well-established and powerful knowledge representation formalism, in combination with causality theories, to learn graphs which reflect causal dependencies in the data. We prove that our method exhibits desirable properties, notably that, under natural conditions, it can retrieve ground-truth causal graphs. We also conduct experiments with an implementation of our method in answer set programming (ASP) on four datasets from standard benchmarks in causal discovery, showing that our method compares well against established baselines.
翻訳日:2024-05-29 03:28:24 公開日:2024-05-26
# UPAM:テキスト・ツー・イメージ生成モデルにおけるテキスト・フィルタとビジュアル・チェッカーの両方に対する統一されたプロンプト・アタック

UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers ( http://arxiv.org/abs/2405.11336v2 )

ライセンス: Link先を確認
Duo Peng, Qiuhong Ke, Jun Liu, (参考訳) テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。 本稿では,攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。 既存の攻撃方法とは異なり、UPAMはT2Iモデルにおけるテキストと視覚の両方の防御を欺くことを目的としている。 UPAMは勾配に基づく最適化を可能にし、従来の方法よりも高い効率と効率を提供する。 T2Iモデルが防御機構によって結果を返すことができないことを考慮し、結果が返されない場合でも勾配最適化をサポートするSPL(Sphere-Probing Learning)方式を導入する。 さらに、セマンティック・エンハンシング・ラーニング(SEL)方式を考案し、UPAMを微調整し、目標に整列した画像を生成する。 私たちのフレームワークは、攻撃のステルス性も保証します。 大規模な実験はUPAMの有効性と効率を実証している。

Text-to-Image (T2I) models have raised security concerns due to their potential to generate inappropriate or harmful images. In this paper, we propose UPAM, a novel framework that investigates the robustness of T2I models from the attack perspective. Unlike most existing attack methods that focus on deceiving textual defenses, UPAM aims to deceive both textual and visual defenses in T2I models. UPAM enables gradient-based optimization, offering greater effectiveness and efficiency than previous methods. Given that T2I models might not return results due to defense mechanisms, we introduce a Sphere-Probing Learning (SPL) scheme to support gradient optimization even when no results are returned. Additionally, we devise a Semantic-Enhancing Learning (SEL) scheme to finetune UPAM for generating target-aligned images. Our framework also ensures attack stealthiness. Extensive experiments demonstrate UPAM's effectiveness and efficiency.
翻訳日:2024-05-29 03:28:24 公開日:2024-05-26
# Octo: オープンソースのジェネラリストロボットポリシー

Octo: An Open-Source Generalist Robot Policy ( http://arxiv.org/abs/2405.12213v2 )

ライセンス: Link先を確認
Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Lawrence Yunliang Chen, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine, (参考訳) 多様なロボットデータセットで事前訓練された大規模なポリシーは、ロボット学習を変革する可能性がある。 しかし、さまざまなロボット学習シナリオ、環境、タスクに広く適用するためには、このようなポリシーは多様なセンサーやアクションスペースを扱い、よく使われる様々なロボットプラットフォームに対応し、新しいドメインに簡単かつ効率的に精査する必要がある。 本研究は,ロボット操作のための汎用的ポリシーを,オープンソースで広く適用するための基盤となることを目的としている。 最初のステップとして,これまでで最大のロボット操作データセットであるOpen X-Embodimentデータセットから800kの軌道上でトレーニングされた,大規模なトランスフォーマーベースのポリシであるOctoを紹介した。 言語コマンドやゴールイメージを通じて指示することができ、標準のGPU上で数時間以内に新しい感覚入力とアクションスペースを備えたロボットセットアップに効果的に微調整することができる。 9つのロボットプラットフォームにわたる実験において、Octoは、新しい観測と行動空間に効果的に微調整できる多目的ポリシー初期化として機能することを実証した。 また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。

Large policies pretrained on diverse robot datasets have the potential to transform robotic learning: instead of training new policies from scratch, such generalist robot policies may be finetuned with only a little in-domain data, yet generalize broadly. However, to be widely applicable across a range of robotic learning scenarios, environments, and tasks, such policies need to handle diverse sensors and action spaces, accommodate a variety of commonly used robotic platforms, and finetune readily and efficiently to new domains. In this work, we aim to lay the groundwork for developing open-source, widely applicable, generalist policies for robotic manipulation. As a first step, we introduce Octo, a large transformer-based policy trained on 800k trajectories from the Open X-Embodiment dataset, the largest robot manipulation dataset to date. It can be instructed via language commands or goal images and can be effectively finetuned to robot setups with new sensory inputs and action spaces within a few hours on standard consumer GPUs. In experiments across 9 robotic platforms, we demonstrate that Octo serves as a versatile policy initialization that can be effectively finetuned to new observation and action spaces. We also perform detailed ablations of design decisions for the Octo model, from architecture to training data, to guide future research on building generalist robot models.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-26
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v3 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-26
# 交互方向SGHMCアルゴリズムの収束性について

On Convergence of the Alternating Directions SGHMC Algorithm ( http://arxiv.org/abs/2405.13140v2 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz Nowicki, (参考訳) 本研究では, 目標分布(SGHMC)に対する確率勾配オラクルの温和条件下での跳躍フロッグ積分を用いたハミルトンモンテカルロアルゴリズムの収束率について検討した。 提案手法は, 汎用的な補助分布を用いることにより, 標準HMCを拡張し, 代替方向の新たな手順により実現した。 収束解析は、アルゴリズムを駆動するマルコフ連鎖に付随するディリクレ形式の研究に基づいている。 この目的のために、ハミルトン運動に対する跳躍積分器の誤差について、運動エネルギー関数とポテンシャルエネルギー関数の両方を一般形式として詳細に解析する。 本研究では,問題次元,目標分布と補助分布の両方の機能特性,およびオラクルの品質といった重要なパラメータに対する収束率の明示的依存性を特徴付ける。

We study convergence rates of Hamiltonian Monte Carlo (HMC) algorithms with leapfrog integration under mild conditions on stochastic gradient oracle for the target distribution (SGHMC). Our method extends standard HMC by allowing the use of general auxiliary distributions, which is achieved by a novel procedure of Alternating Directions. The convergence analysis is based on the investigations of the Dirichlet forms associated with the underlying Markov chain driving the algorithms. For this purpose, we provide a detailed analysis on the error of the leapfrog integrator for Hamiltonian motions with both the kinetic and potential energy functions in general form. We characterize the explicit dependence of the convergence rates on key parameters such as the problem dimension, functional properties of both the target and auxiliary distributions, and the quality of the oracle.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-26
# 大規模リコメンダシステムにおけるストリームクラスタリングとメモリネットワークに基づくユーザ関心の強化

Enhancing User Interest based on Stream Clustering and Memory Networks in Large-Scale Recommender Systems ( http://arxiv.org/abs/2405.13238v2 )

ライセンス: Link先を確認
Peng Liu, Nian Wang, Cong Xu, Ming Zhao, Bin Wang, Yi Ren, (参考訳) Recommender Systems (RS) は、様々なプラットフォームで広く使われているユーザの関心に基づいてパーソナライズされたレコメンデーションサービスを提供している。 しかし, 消費行動の欠如による関心の低い利用者が多く, 推奨結果の低さを招いている。 この問題は大規模RSで広く知られており、特に対処は困難である。 この問題を解決するために,ユーザプロファイルやユーザ履歴の動作シーケンスを含むユーザの興味を向上するUIE(User Interest Enhancement)と,ストリームクラスタリングとメモリネットワークの異なる視点から生成されたパーソナライズされた拡張ベクトルを提案する。 UIEは、関心の少ないユーザにおけるモデルパフォーマンスを著しく改善するだけでなく、他のユーザに対するモデルパフォーマンスを大幅に向上させる。 UIEはエンドツーエンドのソリューションで、ランキングモデルに基づいて簡単に実装できます。 さらに,ソリューションを拡張し,類似の手法をロングテールアイテムに適用し,優れた改善を実現した。 さらに,大規模産業RSにおいて大規模なオフラインおよびオンライン実験を行う。 結果から,本モデルが他のモデル,特に疎利なユーザに対して著しく優れていたことが示唆された。 これまで、UIEは複数の大規模RSに完全にデプロイされ、目覚ましい改善が達成された。

Recommender Systems (RSs) provide personalized recommendation service based on user interest, which are widely used in various platforms. However, there are lots of users with sparse interest due to lacking consumption behaviors, which leads to poor recommendation results for them. This problem is widespread in large-scale RSs and is particularly difficult to address. To solve this problem, we propose a novel solution named User Interest Enhancement (UIE) which enhances user interest including user profile and user history behavior sequences using the enhancement vectors and personalized enhancement vector generated based on stream clustering and memory networks from different perspectives. UIE not only remarkably improves model performance on the users with sparse interest but also significantly enhance model performance on other users. UIE is an end-to-end solution which is easy to be implemented based on ranking model. Moreover, we expand our solution and apply similar methods to long-tail items, which also achieves excellent improvement. Furthermore, we conduct extensive offline and online experiments in a large-scale industrial RS. The results demonstrate that our model outperforms other models remarkably, especially for the users with sparse interest. Until now, UIE has been fully deployed in multiple large-scale RSs and achieved remarkable improvements.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# 変圧器は文脈強化学習のための時間差分法を学習する

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning ( http://arxiv.org/abs/2405.13861v2 )

ライセンス: Link先を確認
Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang, (参考訳) インコンテキスト学習(In-context learning)とは、パラメータを適応することなく、推論時間中にモデルの学習能力をいう。 モデルへの入力(例えば、プロンプト)(例えば、トランスフォーマー)は、コンテキスト(例えば、インスタンスとラベルのペア)とクエリインスタンスの両方から構成される。 モデルでは、推論中にコンテキストに応じてクエリインスタンスのラベルを出力することができる。 文脈内学習の可能な説明として、(線形)変換器の前方通過は、コンテキスト内のインスタンスとラベルのペアに勾配降下の繰り返しを実装する。 本稿では,変換器が前方パスで時間差(TD)学習を実装できることを示す。 我々は,マルチタスクTDアルゴリズムを用いてトランスフォーマーを訓練した後の文脈内TDの出現を理論的解析とともに示す。 さらに, 変圧器は, 残差勾配, 可視性トレース付きTD, 平均回帰TDなど, フォワードパスで多くのポリシー評価アルゴリズムを実装するのに十分であることを示す。

In-context learning refers to the learning ability of a model during inference time without adapting its parameters. The input (i.e., prompt) to the model (e.g., transformers) consists of both a context (i.e., instance-label pairs) and a query instance. The model is then able to output a label for the query instance according to the context during inference. A possible explanation for in-context learning is that the forward pass of (linear) transformers implements iterations of gradient descent on the instance-label pairs in the context. In this paper, we prove by construction that transformers can also implement temporal difference (TD) learning in the forward pass, a phenomenon we refer to as in-context TD. We demonstrate the emergence of in-context TD after training the transformer with a multi-task TD algorithm, accompanied by theoretical analysis. Furthermore, we prove that transformers are expressive enough to implement many other policy evaluation algorithms in the forward pass, including residual gradient, TD with eligibility trace, and average-reward TD.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# テキストフリーマルチドメイングラフ事前学習:グラフ基礎モデルに向けて

Text-Free Multi-domain Graph Pre-training: Toward Graph Foundation Models ( http://arxiv.org/abs/2405.13934v2 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang, (参考訳) さまざまな領域にまたがる幅広いグラフデータに基づいてグラフ基盤モデルをトレーニングすることは可能ですか? この目標への大きなハードルは、異なる領域のグラフがしばしば非常に異なる特性を示すという事実にある。 事前トレーニングのためのマルチドメイングラフの統合には、最初はいくつかの取り組みがあったが、主にグラフを整列させるためにテキスト記述に依存しており、そのアプリケーションはテキスト対応グラフに制限されている。 さらに、異なるソースドメインが互いに衝突したり干渉したりし、ターゲットドメインとの関係は著しく変化する。 これらの問題に対処するため,MDGPTというテキストフリーなマルチドメイングラフ事前学習・適応フレームワークを提案する。 まず、シナジスティックな事前学習のために、ソースドメインにまたがる機能を調整するために、一連のドメイントークンを提案する。 第2に、統一的なプロンプトと混合プロンプトからなる二重プロンプトを提案し、統合されたマルチドメイン知識とドメイン固有の知識の調整された混合により、ターゲットドメインをさらに適応させる。 最後に、6つの公開データセットによる広範な実験を行い、MDGPTを評価し分析する。

Given the ubiquity of graph data, it is intriguing to ask: Is it possible to train a graph foundation model on a broad range of graph data across diverse domains? A major hurdle toward this goal lies in the fact that graphs from different domains often exhibit profoundly divergent characteristics. Although there have been some initial efforts in integrating multi-domain graphs for pre-training, they primarily rely on textual descriptions to align the graphs, limiting their application to text-attributed graphs. Moreover, different source domains may conflict or interfere with each other, and their relevance to the target domain can vary significantly. To address these issues, we propose MDGPT, a text free Multi-Domain Graph Pre-Training and adaptation framework designed to exploit multi-domain knowledge for graph learning. First, we propose a set of domain tokens to to align features across source domains for synergistic pre-training. Second, we propose a dual prompts, consisting of a unifying prompt and a mixing prompt, to further adapt the target domain with unified multi-domain knowledge and a tailored mixture of domain-specific knowledge. Finally, we conduct extensive experiments involving six public datasets to evaluate and analyze MDGPT, which outperforms prior art by up to 37.9%.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# DyGPrompt: 動的グラフの学習機能と時間プロンプト

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs ( http://arxiv.org/abs/2405.13937v2 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Xinming Zhang, (参考訳) 動的グラフは実世界で広く普及し、様々な分野にわたるオブジェクト間の動的関係をモデル化する。 動的グラフモデリングでは、動的グラフニューラルネットワーク(DGNN)が主流の手法として登場し、一般的にリンク予測タスクで事前訓練され、ノード分類などの下流タスクの目的との大きなギャップを残している。 ギャップを埋めるために、グラフ上では、プロンプトベースの学習が注目を集めている。 しかし、既存の取り組みは静的グラフに重点を置いており、動的グラフの進化を無視している。 本稿では,動的グラフモデリングのための新しい事前学習および促進フレームワークであるDyGPromptを提案する。 まず,タスクの目的と,事前学習タスクと下流タスクの動的変動のギャップに対処する2つのプロンプトを設計する。 第2に,ノードと時間の特徴が相互に特徴付けされていることを認識し,下流タスクにおけるノード時間パターンの進化をモデル化するための2つの条件ネットを提案する。 最後に、DyGPromptを3つの公開データセットに関する広範な実験により徹底的に評価、分析する。

Dynamic graphs are pervasive in the real world, modeling dynamic relations between objects across various fields. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique, which are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs. However, existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DyGPrompt, a novel pre-training and prompting framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and dynamic variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DyGPrompt through extensive experiments on three public datasets.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# オフラインモデルに基づく最適化のための設計編集

Design Editing for Offline Model-based Optimization ( http://arxiv.org/abs/2405.13964v2 )

ライセンス: Link先を確認
Ye Yuan, Youyuan Zhang, Can Chen, Haolun Wu, Zixuan Li, Jianmo Li, James J. Clark, Xue Liu, (参考訳) オフラインモデルベース最適化(MBO)は、デザインとスコアのオフラインデータセットのみを使用してブラックボックスの目的関数を最大化することを目的としている。 一般的なアプローチでは、既存の設計とその関連するスコアに関する条件生成モデルをトレーニングし、続いてより高い目標スコアに条件付けされた新しい設計を生成する。 しかし、これらの新しく生成された設計は、高スコアのトレーニングデータがないため、しばしば性能が低下した。 この課題に対処するために,2つのフェーズからなるオフラインモデルベース最適化(DEMO)のための新しい手法,Design Editingを導入する。 擬似ターゲット分布生成と呼ばれる第1フェーズでは、トレーニングされた代理モデルを用いてオフラインデータセットに勾配上昇を適用し、予測されたスコアが新しいラベルとして機能する合成データセットを生成する。 その後、この合成データセット上で条件拡散モデルを訓練し、擬似ターゲット分布を捕捉し、より高い階調設計を生成する際の条件拡散モデルの精度を高める。 それでも、擬似ターゲット分布は、代理モデルの不正確さから生じるノイズに影響を受けやすいため、条件付き拡散モデルを用いて最適下設計を生成する。 そこで我々は,オフラインデータセットからデザイン生成に高階機能を直接組み込むため,既存のデザイン編集という第2フェーズを提案する。 このフェーズでは、オフラインデータセットからトップデザインをノイズを導入して編集し、その後条件付き拡散モデルを用いて洗練し、ハイスコアなデザインを生成する。 全体として、ハイスコア設計は第2フェーズからハイスコア特徴を継承することから始まり、第1フェーズでより正確な条件拡散モデルでさらに洗練される。 7つのオフラインMBOタスクに対する実証的な評価は、DEMOが様々なベースラインメソッドより優れていることを示している。

Offline model-based optimization (MBO) aims to maximize a black-box objective function using only an offline dataset of designs and scores. A prevalent approach involves training a conditional generative model on existing designs and their associated scores, followed by the generation of new designs conditioned on higher target scores. However, these newly generated designs often underperform due to the lack of high-scoring training data. To address this challenge, we introduce a novel method, Design Editing for Offline Model-based Optimization (DEMO), which consists of two phases. In the first phase, termed pseudo-target distribution generation, we apply gradient ascent on the offline dataset using a trained surrogate model, producing a synthetic dataset where the predicted scores serve as new labels. A conditional diffusion model is subsequently trained on this synthetic dataset to capture a pseudo-target distribution, which enhances the accuracy of the conditional diffusion model in generating higher-scoring designs. Nevertheless, the pseudo-target distribution is susceptible to noise stemming from inaccuracies in the surrogate model, consequently predisposing the conditional diffusion model to generate suboptimal designs. We hence propose the second phase, existing design editing, to directly incorporate the high-scoring features from the offline dataset into design generation. In this phase, top designs from the offline dataset are edited by introducing noise, which are subsequently refined using the conditional diffusion model to produce high-scoring designs. Overall, high-scoring designs begin with inheriting high-scoring features from the second phase and are further refined with a more accurate conditional diffusion model in the first phase. Empirical evaluations on 7 offline MBO tasks show that DEMO outperforms various baseline methods.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# DeTox: モデル編集のための Toxic Subspace Projection

DeTox: Toxic Subspace Projection for Model Editing ( http://arxiv.org/abs/2405.13967v2 )

ライセンス: Link先を確認
Rheeya Uppaal, Apratim Dey, Yiting He, Yiqiao Zhong, Junjie Hu, (参考訳) 近年,大規模言語モデル(LLM)の安全性向上のために,嗜好データに代表される人間の行動に適合する手法として,直接選好最適化(DPO)などのアライメントアルゴリズムが開発されている。 しかし、これらの手法はどちらも計算集約的であり、制御性と透明性が欠如しているため、脱獄や広範囲の使用を阻害する傾向がある。 さらに、これらのチューニングベースの手法は、トレーニングのための大規模な嗜好データを必要とし、ノイズの多い選好データに影響を受けやすい。 本稿では,無調律アライメント(DeTox)を導入し,その有効性を示す。 DeToxはモデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集手法である。 言語モデルから好みデータ埋め込みを抽出し、これらの埋め込みから有害でない情報を除去することにより、有害な部分空間を同定する。 DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。 最後に、DeTox と DPO の間の理論的および実証的な接続を確立することにより、DeTox が単一の DPO ステップの復号版として解釈可能であることを示す。

Recent alignment algorithms such as direct preference optimization (DPO) have been developed to improve the safety of large language models (LLMs) by training these models to match human behaviors exemplified by preference data. However, these methods are both computationally intensive and lacking in controllability and transparency, making them prone to jailbreaking and inhibiting their widespread use. Furthermore, these tuning-based methods require large-scale preference data for training and are susceptible to noisy preference data. In this paper, we introduce a tuning-free alignment alternative (DeTox) and demonstrate its effectiveness under the use case of toxicity reduction. Grounded on theory from factor analysis, DeTox is a sample-efficient model editing approach that identifies a toxic subspace in the model parameter space and reduces model toxicity by projecting away the detected subspace. The toxic sub-space is identified by extracting preference data embeddings from the language model, and removing non-toxic information from these embeddings. We show that DeTox is more sample-efficient than DPO, further showcasing greater robustness to noisy data. Finally, we establish both theoretical and empirical connections between DeTox and DPO, showing that DeTox can be interpreted as a denoised version of a single DPO step.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# EchoSpikeの予測塑性: ニューラルネットワークをスパイクするためのオンラインローカル学習ルール

EchoSpike Predictive Plasticity: An Online Local Learning Rule for Spiking Neural Networks ( http://arxiv.org/abs/2405.13976v2 )

ライセンス: Link先を確認
Lars Graf, Zhe Su, Giacomo Indiveri, (参考訳) 資源を効率的に活用する人工ニューラルネットワークの開発は、バイオインスパイアされたスパイキングニューラルネットワーク(SNN)に大きな関心を呼んだ。 これらのネットワークは、低電力とメモリを必要とするアプリケーションにおける可能性のために、特に魅力的である。 このポテンシャルは、オンラインローカル学習の能力によってさらに強化され、動的環境への適応が可能になる。 これは、モデルを自己管理的な方法で適応させる必要がある。 自己教師型学習は多くの深層学習領域で大きな成功を収めてきたが、多層SNNにおけるオンラインローカル学習への応用はいまだ探索されていない。 本稿では,SNNにおける階層的時間的ダイナミクスを予測的かつコントラッシブな符号化を通じて活用するオンライン学習ルールである"EchoSpike Predictive Plasticity"(ESPP)学習ルールを紹介する。 提案手法の有効性をベンチマークデータセットを用いて検証し,現在最先端の教師付き学習ルールと同等の性能を示す。 ESPPの時間的および空間的局所性は、特に低コストのニューロモルフィックプロセッサに適しており、エッジでのニューロモルフィックコンピューティングのための生物学的に妥当な自己教師あり学習モデルの開発において大きな進歩を示している。

The drive to develop artificial neural networks that efficiently utilize resources has generated significant interest in bio-inspired Spiking Neural Networks (SNNs). These networks are particularly attractive due to their potential in applications requiring low power and memory. This potential is further enhanced by the ability to perform online local learning, enabling them to adapt to dynamic environments. This requires the model to be adaptive in a self-supervised manner. While self-supervised learning has seen great success in many deep learning domains, its application for online local learning in multi-layer SNNs remains underexplored. In this paper, we introduce the "EchoSpike Predictive Plasticity" (ESPP) learning rule, a pioneering online local learning rule designed to leverage hierarchical temporal dynamics in SNNs through predictive and contrastive coding. We validate the effectiveness of this approach using benchmark datasets, demonstrating that it performs on par with current state-of-the-art supervised learning rules. The temporal and spatial locality of ESPP makes it particularly well-suited for low-cost neuromorphic processors, representing a significant advancement in developing biologically plausible self-supervised learning models for neuromorphic computing at the edge.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# RadarOcc:4次元イメージングレーダを用いたロバスト3次元活動予測

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar ( http://arxiv.org/abs/2405.14014v2 )

ライセンス: Link先を確認
Fangqiang Ding, Xiangyu Wen, Yunzhou Zhu, Yiming Li, Chris Xiaoxuan Lu, (参考訳) 3次元占有に基づく知覚パイプラインは、詳細なシーン記述をキャプチャし、様々な対象カテゴリや形状の強い一般化性を示すことで、かなり高度な自律運転を実現している。 現在の手法は、主に3D占有率予測にLiDARまたはカメラ入力に依存している。 これらの方法は悪天候の影響を受けやすいため、全天候での自動運転車の展開が制限される。 認識の堅牢性を向上させるために,最近の自動車レーダの進歩を活用し,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。 提案手法であるRadarOccは,4次元レーダーテンソルを直接処理することで,スパースレーダ点雲の限界を回避する。 RadarOccは、ドップラービンディスクリプタ、サイドローブを意識した空間スペーシング、およびレンジワイドの自己アテンション機構を用いて、4Dレーダーデータにまつわる課題に革新的に対処する。 また, 直接座標変換に伴う補間誤差を最小限に抑えるため, 球面型特徴符号化法を考案し, 球面-カルテシアン特徴集約法を提案する。 パブリックなK-Radarデータセット上で、異なるモダリティに基づいて、様々なベースライン手法をベンチマークする。 その結果,レーダーによる3次元占有予測におけるRadarOccの最先端性能と,LiDARやカメラによる手法と比較しても有望な結果が得られた。 さらに, 悪天候条件下での4Dレーダの優れた性能を示す定性的な証拠を提示し, アブレーション研究を通じて, 主要パイプライン成分の影響について検討する。

3D occupancy-based perception pipeline has significantly advanced autonomous driving by capturing detailed scene descriptions and demonstrating strong generalizability across various object categories and shapes. Current methods predominantly rely on LiDAR or camera inputs for 3D occupancy prediction. These methods are susceptible to adverse weather conditions, limiting the all-weather deployment of self-driving cars. To improve perception robustness, we leverage the recent advances in automotive radars and introduce a novel approach that utilizes 4D imaging radar sensors for 3D occupancy prediction. Our method, RadarOcc, circumvents the limitations of sparse radar point clouds by directly processing the 4D radar tensor, thus preserving essential scene details. RadarOcc innovatively addresses the challenges associated with the voluminous and noisy 4D radar data by employing Doppler bins descriptors, sidelobe-aware spatial sparsification, and range-wise self-attention mechanisms. To minimize the interpolation errors associated with direct coordinate transformations, we also devise a spherical-based feature encoding followed by spherical-to-Cartesian feature aggregation. We benchmark various baseline methods based on distinct modalities on the public K-Radar dataset. The results demonstrate RadarOcc's state-of-the-art performance in radar-based 3D occupancy prediction and promising results even when compared with LiDAR- or camera-based methods. Additionally, we present qualitative evidence of the superior performance of 4D radar in adverse weather conditions and explore the impact of key pipeline components through ablation studies.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# トポロジカル・スペースへの挑戦:セル変換器

Attending to Topological Spaces: The Cellular Transformer ( http://arxiv.org/abs/2405.14094v2 )

ライセンス: Link先を確認
Rubén Ballester, Pablo Hernández-García, Mathilde Papillon, Claudio Battiloro, Nina Miolane, Tolga Birdal, Carles Casacuberta, Sergio Escalera, Mustafa Hajij, (参考訳) トポロジカルディープラーニングは、入力データにトポロジ的構造を活用することにより、ニューラルネットワークモデルの予測性能を高めることを目指している。 トポロジカルニューラルネットワークは、グラフの一般化と見なせる細胞複合体やハイパーグラフのような空間で動作する。 本稿では,グラフベースの変換器をセル複合体に一般化する新しいアーキテクチャであるセル変換器(CT)を紹介する。 まず, 細胞複合体, エッジ面, ノードエッジ関係における入射関係を活用するための, 通常の自己・横断的機構の新たな定式化を提案する。 さらに,細胞複合体に特化して設計されたトポロジカルな位置符号化法を提案する。 3つのグラフデータセットをセル複雑なデータセットに変換することで、CTは最先端のパフォーマンスを達成するだけでなく、仮想ノード、ドメイン内構造エンコーディング、グラフのリウィリングといった複雑な拡張を必要とせずに実現できることを示した。

Topological Deep Learning seeks to enhance the predictive performance of neural network models by harnessing topological structures in input data. Topological neural networks operate on spaces such as cell complexes and hypergraphs, that can be seen as generalizations of graphs. In this work, we introduce the Cellular Transformer (CT), a novel architecture that generalizes graph-based transformers to cell complexes. First, we propose a new formulation of the usual self- and cross-attention mechanisms, tailored to leverage incidence relations in cell complexes, e.g., edge-face and node-edge relations. Additionally, we propose a set of topological positional encodings specifically designed for cell complexes. By transforming three graph datasets into cell complex datasets, our experiments reveal that CT not only achieves state-of-the-art performance, but it does so without the need for more complex enhancements such as virtual nodes, in-domain structural encodings, or graph rewiring.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# マルチエージェント協調のための効率的なLLM接地に向けて

Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration ( http://arxiv.org/abs/2405.14314v2 )

ライセンス: Link先を確認
Yang Zhang, Shixin Yang, Chenjia Bai, Fei Wu, Xiu Li, Zhen Wang, Xuelong Li, (参考訳) 物理世界の複雑さのため,大規模言語モデル(LLM)の具体的タスクに対する推論能力の確立は困難である。 特に,マルチエージェント協調のためのLLM計画では,提案した計画を再調整し,効果的な調整を行うためのフィードバックとして,エージェントやクレジットの割り当てのコミュニケーションが必要である。 しかし、物理検証や自己回帰に過度に依存する既存の手法は、LLMの過剰で非効率なクエリに悩まされている。 本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な計画の自己調整のための強化アドバンテージフィードバック(ReAd)を導入している。 具体的には, LLM計画データから逐次優位関数を学習し, LLMプランナをオプティマイザとして扱い, 優位関数を最大化する動作を生成する。 行動が最終作業の達成に寄与するかどうかを判断するために、LLMに監督を付与する。 強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Overcooked-AIと難解なRoCoBenchの実験により、ReAdは成功率のベースラインを超越し、LLMのエージェントとクエリラウンドの相互作用を著しく減少させ、LLMを接地する高効率性を実証した。 さらなる結果はhttps://read-llm.github.io/.com/で発表されている。

Grounding the reasoning ability of large language models (LLMs) for embodied tasks is challenging due to the complexity of the physical world. Especially, LLM planning for multi-agent collaboration requires communication of agents or credit assignment as the feedback to re-adjust the proposed plans and achieve effective coordination. However, existing methods that overly rely on physical verification or self-reflection suffer from excessive and inefficient querying of LLMs. In this paper, we propose a novel framework for multi-agent collaboration that introduces Reinforced Advantage feedback (ReAd) for efficient self-refinement of plans. Specifically, we perform critic regression to learn a sequential advantage function from LLM-planned data, and then treat the LLM planner as an optimizer to generate actions that maximize the advantage function. It endows the LLM with the foresight to discern whether the action contributes to accomplishing the final task. We provide theoretical analysis by extending advantage-weighted regression in reinforcement learning to multi-agent systems. Experiments on Overcooked-AI and a difficult variant of RoCoBench show that ReAd surpasses baselines in success rate, and also significantly decreases the interaction steps of agents and query rounds of LLMs, demonstrating its high efficiency for grounding LLMs. More results are given at https://read-llm.github.io/.
翻訳日:2024-05-29 03:08:56 公開日:2024-05-26
# 説明可能なわずかな知識の追跡

Explainable Few-shot Knowledge Tracing ( http://arxiv.org/abs/2405.14391v2 )

ライセンス: Link先を確認
Haoxuan Li, Jifan Yu, Yuanxin Ouyang, Zhuang Liu, Wenge Rong, Juanzi Li, Zhang Xiong, (参考訳) 知識追跡(KT)は,学生の演習記録による知識習得のマイニングと,将来のテスト課題におけるパフォーマンスの予測を目的とした,教育評価における重要な課題である。 研究者たちは、ディープラーニング技術の急速な開発で大きな成功を収めたが、現在の知識追跡タスクは、現実世界の教育シナリオのひび割れに陥る。 教員が限られた実践から学生の知識状態を評価し、説明的フィードバックを与える設定とは大きく異なる。 このギャップを埋めるために、新しいタスクの定式化を探る。 大規模言語モデル(LLM)の強力な推論と生成能力を活用することで,学生の学習記録から学生の知識を追跡できる認知誘導フレームワークを提案する。 3つの広く使われているデータセットによる実験結果から、LLMは競合する深層知識追跡手法に匹敵する、あるいは優れた性能を発揮することが示された。 また、今後の方向性についても論じ、今後の話題の改善を求める。

Knowledge tracing (KT), aiming to mine students' mastery of knowledge by their exercise records and predict their performance on future test questions, is a critical task in educational assessment. While researchers achieved tremendous success with the rapid development of deep learning techniques, current knowledge tracing tasks fall into the cracks from real-world teaching scenarios. Relying heavily on extensive student data and solely predicting numerical performances differs from the settings where teachers assess students' knowledge state from limited practices and provide explanatory feedback. To fill this gap, we explore a new task formulation: Explainable Few-shot Knowledge Tracing. By leveraging the powerful reasoning and generation abilities of large language models (LLMs), we then propose a cognition-guided framework that can track the student knowledge from a few student records while providing natural language explanations. Experimental results from three widely used datasets show that LLMs can perform comparable or superior to competitive deep knowledge tracing methods. We also discuss potential directions and call for future improvements in relevant topics.
翻訳日:2024-05-29 02:59:12 公開日:2024-05-26
# パイプフュージョン:拡散変圧器モデル推定のための変位パッチパイプライン並列性

PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models ( http://arxiv.org/abs/2405.14430v2 )

ライセンス: Link先を確認
Jiannan Wang, Jiarui Fang, Aoyu Li, PengCheng Yang, (参考訳) 本稿では,拡散トランスフォーマ(DiT)モデルを用いた高精細画像の生成において,高精細・高精細・高精細の課題に対処するために,マルチGPU並列処理を利用した新しいアプローチであるPipeFusionを紹介する。 PipeFusionはイメージをパッチに分割し、ネットワーク層を複数のデバイスに分散する。 通信と計算のオーケストレーションには、パイプラインを並列的に使用する。 隣接する拡散ステップからの入力間の高い類似性を活用することで、PipeFusionは、1ステップの古い特徴マップを再利用して現在のステップのコンテキストを提供することにより、パイプラインの待ち時間を排除します。 実験により,既存の DiT 並列手法がOOM を満たす場合の高解像度画像を生成することができることを示した。 パイプフュージョンは必要な通信帯域を大幅に削減し、よりコストのかかるNVLinkインフラではなく、PCIeを介して接続されたGPU上でDiT推論を可能にする。 私たちのコードはhttps://github.com/PipeFusion/PipeFusion.comで公開されています。

This paper introduces PipeFusion, a novel approach that harnesses multi-GPU parallelism to address the high computational and latency challenges of generating high-resolution images with diffusion transformers (DiT) models. PipeFusion splits images into patches and distributes the network layers across multiple devices. It employs a pipeline parallel manner to orchestrate communication and computations. By leveraging the high similarity between the input from adjacent diffusion steps, PipeFusion eliminates the waiting time in the pipeline by reusing the one-step stale feature maps to provide context for the current step. Our experiments demonstrate that it can generate higher image resolution where existing DiT parallel approaches meet OOM. PipeFusion significantly reduces the required communication bandwidth, enabling DiT inference to be hosted on GPUs connected via PCIe rather than the more costly NVLink infrastructure, which substantially lowers the overall operational expenses for serving DiT models. Our code is publicly available at https://github.com/PipeFusion/PipeFusion.
翻訳日:2024-05-29 02:59:12 公開日:2024-05-26
# 可逆散逸進化のためのラグランジアンニューラルネットワーク

Lagrangian Neural Networks for Reversible Dissipative Evolution ( http://arxiv.org/abs/2405.14645v2 )

ライセンス: Link先を確認
Veera Sundararaghavan, Megna N. Shah, Jeff P. Simmons, (参考訳) ラグランジアン力学とハミルトン力学をネットワークトレーニングで活用し、物理をネットワークに組み込むことに注目が集まっている。 最も一般的には、摩擦損失のない保守的なシステムがモデル化されているため、規則化を必要とせずに、システムは前後に進むことができる。 この研究は、進行進化で発生する散逸のために逆方向が悪くなるシステムに対処する。 その斬新さはモース=フェーシュバッハ・ラグランジアン(Morse-Feshbach Lagrangian)の使用であり、これは可観測系の散逸と相反するミラー潜在表現を生成するために系の次元を倍にすることで散逸力学をモデル化し、より広い空間に埋め込まれた保守的なシステムとなる。 我々は、ユーラー・ラグランジュ方程式の未知行列が観測可能量のみに関してラグランジュ方程式の部分微分として生じるような、新しい散逸的ラグランジュ方程式を再定義することによって、それらの形式的なアプローチから始める。 次に、物質科学で発生するフィック拡散のような散逸系のための模擬訓練データからネットワークを訓練する。 実験により、これらの系はモース=フェシュバッハ・ラグランジアンによって提供される以上の正規化をすることなく、前方方向と逆方向の両方で進化することができることが示されている。 フィック拡散のような散逸系の実験は、力学が逆転できる度合いを示す。

There is a growing attention given to utilizing Lagrangian and Hamiltonian mechanics with network training in order to incorporate physics into the network. Most commonly, conservative systems are modeled, in which there are no frictional losses, so the system may be run forward and backward in time without requiring regularization. This work addresses systems in which the reverse direction is ill-posed because of the dissipation that occurs in forward evolution. The novelty is the use of Morse-Feshbach Lagrangian, which models dissipative dynamics by doubling the number of dimensions of the system in order to create a mirror latent representation that would counterbalance the dissipation of the observable system, making it a conservative system, albeit embedded in a larger space. We start with their formal approach by redefining a new Dissipative Lagrangian, such that the unknown matrices in the Euler-Lagrange's equations arise as partial derivatives of the Lagrangian with respect to only the observables. We then train a network from simulated training data for dissipative systems such as Fickian diffusion that arise in materials sciences. It is shown by experiments that the systems can be evolved in both forward and reverse directions without regularization beyond that provided by the Morse-Feshbach Lagrangian. Experiments of dissipative systems, such as Fickian diffusion, demonstrate the degree to which dynamics can be reversed.
翻訳日:2024-05-29 02:59:12 公開日:2024-05-26
# ロボットの進化と学習

Evolution and learning in differentiable robots ( http://arxiv.org/abs/2405.14712v2 )

ライセンス: Link先を確認
Luke Strgar, David Matthews, Tyler Hummer, Sam Kriegman, (参考訳) ロボットの自動設計は30年前から存在するが、シリアルな非微分不可能な設計評価、単純体や不器用な動作への早めの収束、シム2リアルな物理機械への移動の欠如によって制限されている。 そこで本研究では, 大規模並列微分可能シミュレーションを用いて, 多数の候補体計画において, 行動の個々の神経制御を迅速かつ同時に最適化し, 完全に最適化された動作性能に基づく各設計に対する適合度スコアを返却する。 個体群における各ロボットの機械的構造に相違のない変化が、探索の外側ループにおいて遺伝的アルゴリズムによって応用され、高度に調整された優雅な行動によって導かれる新しい形態の連続的な流れが生成される。 これにより、ロボットは従来の研究よりも独立したモーターの数で、はるかに複雑になる可能性があるにもかかわらず、これまでのすべての方法よりも数桁のオーダーで多くのデザインを探索することが可能になった。 その結果,進化は「段階的に分化しやすい」ロボットを確実に生み出すことが明らかとなった。 最後に、シミュレーションで発見された非常に微分可能な形態の1つは、物理ロボットとして実現され、その最適化された振舞いを維持できた。 これは、生物学的システムにおける進化と学習の関係を調査し、ロボットの物理的構造が政策を訓練する能力にどのように影響するかを理解するためのサイバー物理プラットフォームを提供する。 ビデオとコードはhttps://sites.google.com/view/eldir.comにある。

The automatic design of robots has existed for 30 years but has been constricted by serial non-differentiable design evaluations, premature convergence to simple bodies or clumsy behaviors, and a lack of sim2real transfer to physical machines. Thus, here we employ massively-parallel differentiable simulations to rapidly and simultaneously optimize individual neural control of behavior across a large population of candidate body plans and return a fitness score for each design based on the performance of its fully optimized behavior. Non-differentiable changes to the mechanical structure of each robot in the population -- mutations that rearrange, combine, add, or remove body parts -- were applied by a genetic algorithm in an outer loop of search, generating a continuous flow of novel morphologies with highly-coordinated and graceful behaviors honed by gradient descent. This enabled the exploration of several orders-of-magnitude more designs than all previous methods, despite the fact that robots here have the potential to be much more complex, in terms of number of independent motors, than those in prior studies. We found that evolution reliably produces ``increasingly differentiable'' robots: body plans that smooth the loss landscape in which learning operates and thereby provide better training paths toward performant behaviors. Finally, one of the highly differentiable morphologies discovered in simulation was realized as a physical robot and shown to retain its optimized behavior. This provides a cyberphysical platform to investigate the relationship between evolution and learning in biological systems and broadens our understanding of how a robot's physical structure can influence the ability to train policies for it. Videos and code at https://sites.google.com/view/eldir.
翻訳日:2024-05-29 02:59:12 公開日:2024-05-26
# 離散行動空間を用いた政策学習のためのRewarded Region Replay(R3)

Rewarded Region Replay (R3) for Policy Learning with Discrete Action Space ( http://arxiv.org/abs/2405.16383v1 )

ライセンス: Link先を確認
Bangzheng Li, Ningshan Ma, Zifan Wang, (参考訳) 我々は、個別の行動空間を持つ環境におけるPPOの大幅な改善を行う、Rewarded Region Replay (R3) と呼ばれる新しいオンデマンドアルゴリズムを導入する。 R3は、ある閾値を超える報酬で過去の成功した軌道を含むリプレイバッファを使用し、重要なサンプリングでPPOエージェントを更新するために使用されるサンプリング効率を向上させる。 重要なことは、分散を減らし、トレーニングを安定させるために、特定の比率以上の重要なサンプリング要素を廃棄する。 また,DorKeyEnvやCrossingEnvなど,スプリットな報酬と離散的なアクション空間を持つミニグリッド環境において,R3はPPOよりも有意に優れており,さらに,本手法とベースラインPPOの改善マージンは,環境の複雑さによって増大することがわかった。 我々はまた、離散アクションのオフポリティクス手法における標準ベースラインであるDDQN(Double Deep Q-Network)に対するR3の性能をベンチマークし、また、R3がDoorKeyEnvにおけるDDQNエージェントよりも優れていることを発見した。 最後に、R3のアイデアを高密度な報酬設定に適応させ、Dense R3アルゴリズム(DR3)を取得し、Cartpole-V1環境上でPPOと比較した。 DR3は高密度報酬環境においてPPOよりも優れていた。 私たちのコードはhttps://github.com/chry-santhemum/R3.comで参照できます。

We introduce a new on-policy algorithm called Rewarded Region Replay (R3), which significantly improves on PPO in solving environments with discrete action spaces. R3 improves sample efficiency by using a replay buffer which contains past successful trajectories with reward above a certain threshold, which are used to update a PPO agent with importance sampling. Crucially, we discard the importance sampling factors which are above a certain ratio to reduce variance and stabilize training. We found that R3 significantly outperforms PPO in Minigrid environments with sparse rewards and discrete action space, such as DoorKeyEnv and CrossingEnv, and moreover we found that the improvement margin of our method versus baseline PPO increases with the complexity of the environment. We also benchmarked the performance of R3 against DDQN (Double Deep Q-Network), which is a standard baseline in off-policy methods for discrete actions, and found that R3 also outperforms DDQN agent in DoorKeyEnv. Lastly, we adapt the idea of R3 to dense reward setting to obtain the Dense R3 algorithm (or DR3) and benchmarked it against PPO on Cartpole-V1 environment. We found that DR3 outperforms PPO significantly on this dense reward environment. Our code can be found at https://github.com/chry-santhemum/R3.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 変分オフライン多エージェントスキル発見

Variational Offline Multi-agent Skill Discovery ( http://arxiv.org/abs/2405.16386v1 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Tian Lan, Vaneet Aggarwal, (参考訳) スキルは、シーケンシャルな意思決定タスクのために確立された効果的な時間的抽象化であり、長距離タスクの効率的な階層的学習を可能にし、転送可能性を通じてマルチタスク学習を容易にする。 大規模な研究にもかかわらず、研究のギャップはマルチエージェントのシナリオに残り、特にマルチエージェントタスクにおけるサブグループ調整パターンを自動的に抽出する。 本稿では,VO-MASD-3DとVO-MASD-Hierという2つの新しい自動エンコーダ方式を提案する。 これらのスキームの重要なアルゴリズムコンポーネントは動的グルーピング関数であり、タスク内のエージェントの相互作用に基づいて潜在部分群を自動的に検出することができる。 特に,本手法はオフラインマルチタスクデータに適用可能であり,検出したサブグループスキルは,再学習することなく,関連するタスク間で伝達可能である。 StarCraftタスクの実証評価は,本手法がマルチエージェント強化学習(MARL)における既存の手法よりも優れていることを示している。 さらに,本手法を用いて検出したスキルは,報酬信号の遅さと疎度を考慮したMARLシナリオにおいて,学習難易度を効果的に低減することができる。

Skills are effective temporal abstractions established for sequential decision making tasks, which enable efficient hierarchical learning for long-horizon tasks and facilitate multi-task learning through their transferability. Despite extensive research, research gaps remain in multi-agent scenarios, particularly for automatically extracting subgroup coordination patterns in a multi-agent task. In this case, we propose two novel auto-encoder schemes: VO-MASD-3D and VO-MASD-Hier, to simultaneously capture subgroup- and temporal-level abstractions and form multi-agent skills, which firstly solves the aforementioned challenge. An essential algorithm component of these schemes is a dynamic grouping function that can automatically detect latent subgroups based on agent interactions in a task. Notably, our method can be applied to offline multi-task data, and the discovered subgroup skills can be transferred across relevant tasks without retraining. Empirical evaluations on StarCraft tasks indicate that our approach significantly outperforms existing methods regarding applying skills in multi-agent reinforcement learning (MARL). Moreover, skills discovered using our method can effectively reduce the learning difficulty in MARL scenarios with delayed and sparse reward signals.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 逆遷移カーネル:拡散推論を加速する柔軟なフレームワーク

Reverse Transition Kernel: A Flexible Framework to Accelerate Diffusion Inference ( http://arxiv.org/abs/2405.16387v1 )

ライセンス: Link先を確認
Xunpeng Huang, Difan Zou, Hanze Dong, Yi Zhang, Yi-An Ma, Tong Zhang, (参考訳) 訓練された拡散モデルからデータを生成するために、DDPM、DDIM、その他の変種のようなほとんどの推論アルゴリズムは、逆SDEやそれに相当するODEの離散化に依存している。 本稿では, 逆遷移カーネル (RTK) サンプリングサブプロブレムに対応して, 分散過程全体を複数のセグメントに分解する手法を提案する。 具体的には、DDPMはRTKに対するガウス近似を用いており、結果としてサブプロブレム当たりの複雑さは低いが、非効率であると推測される多くのセグメント(サブプロブレム)を必要とする。 これを解決するために、よりバランスの取れたサブプロブレム分解を可能にする汎用RTKフレームワークを開発した。 次に,2つの高速サンプリングアルゴリズムであるMetropolis-Adjusted Langevin Algorithm (MALA) とUnderdamped Langevin Dynamics (ULD) を,これらの強い対数対数のサブプロブレムの解法として利用することを提案する。 これにより拡散推論のためのRTK-MALAとRTK-ULDアルゴリズムが生まれる。 RTK-ULD can achieve $\epsilon$ target error within $\tilde{\mathcal O}(d^{1/2}\epsilon^{-1})$ under mild condition, and RTK-MALA enjoys $\mathcal{O}(d^{2}\log(d/\epsilon))$ convergence rate under slightly normal conditions。 これらの理論的結果は拡散推論の最先端収束率を超え、数値実験で十分に支持されている。

To generate data from trained diffusion models, most inference algorithms, such as DDPM, DDIM, and other variants, rely on discretizing the reverse SDEs or their equivalent ODEs. In this paper, we view such approaches as decomposing the entire denoising diffusion process into several segments, each corresponding to a reverse transition kernel (RTK) sampling subproblem. Specifically, DDPM uses a Gaussian approximation for the RTK, resulting in low per-subproblem complexity but requiring a large number of segments (i.e., subproblems), which is conjectured to be inefficient. To address this, we develop a general RTK framework that enables a more balanced subproblem decomposition, resulting in $\tilde O(1)$ subproblems, each with strongly log-concave targets. We then propose leveraging two fast sampling algorithms, the Metropolis-Adjusted Langevin Algorithm (MALA) and Underdamped Langevin Dynamics (ULD), for solving these strongly log-concave subproblems. This gives rise to the RTK-MALA and RTK-ULD algorithms for diffusion inference. In theory, we further develop the convergence guarantees for RTK-MALA and RTK-ULD in total variation (TV) distance: RTK-ULD can achieve $\epsilon$ target error within $\tilde{\mathcal O}(d^{1/2}\epsilon^{-1})$ under mild conditions, and RTK-MALA enjoys a $\mathcal{O}(d^{2}\log(d/\epsilon))$ convergence rate under slightly stricter conditions. These theoretical results surpass the state-of-the-art convergence rates for diffusion inference and are well supported by numerical experiments.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 大規模言語モデルに対するマルチ参照推論最適化

Multi-Reference Preference Optimization for Large Language Models ( http://arxiv.org/abs/2405.16388v1 )

ライセンス: Link先を確認
Hung Le, Quan Tran, Dung Nguyen, Kien Do, Saloni Mittal, Kelechi Ogueji, Svetha Venkatesh, (参考訳) 大規模言語モデル(LLM)は人間の意図や価値観とどのように一致しているのか? 典型的な解決策は、モデル出力に対する人間の好みを収集し、それに応じてLSMを微調整し、更新が参照モデルからあまり逸脱しないことを保証することである。 直接選好最適化(DPO)のような近年のアプローチでは、密集した教師付き損失を導入することにより、不安定でゆるやかな強化学習最適化の必要性を排除している。 しかし、現在のアプローチの重大な制限は、単一の参照モデルのみの設計であり、多くの事前訓練されたLLMの集合的パワーを無視することである。 この制限を克服するために、複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を導入する。 得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、多種多様な参照モデルからより広範な事前知識を活用し、単一参照DPOと比較して嗜好学習能力を大幅に向上させる。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。 さらに, MRPOは, GSM8K や TruthfulQA などの下流自然言語処理タスクにおいて, LLM を効果的に微調整し,優れた性能を示す。

How can Large Language Models (LLMs) be aligned with human intentions and values? A typical solution is to gather human preference on model outputs and finetune the LLMs accordingly while ensuring that updates do not deviate too far from a reference model. Recent approaches, such as direct preference optimization (DPO), have eliminated the need for unstable and sluggish reinforcement learning optimization by introducing close-formed supervised losses. However, a significant limitation of the current approach is its design for a single reference model only, neglecting to leverage the collective power of numerous pretrained LLMs. To overcome this limitation, we introduce a novel closed-form formulation for direct preference optimization using multiple reference models. The resulting algorithm, Multi-Reference Preference Optimization (MRPO), leverages broader prior knowledge from diverse reference models, substantially enhancing preference learning capabilities compared to the single-reference DPO. Our experiments demonstrate that LLMs finetuned with MRPO generalize better in various preference data, regardless of data scarcity or abundance. Furthermore, MRPO effectively finetunes LLMs to exhibit superior performance in several downstream natural language processing tasks such as GSM8K and TruthfulQA.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 安全とバランス: 制約のある多目的強化学習のためのフレームワーク

Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2405.16390v1 )

ライセンス: Link先を確認
Shangding Gu, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Alois Knoll, Ming Jin, (参考訳) 安全クリティカルシステムに関わる多くの強化学習(RL)問題において、重要な課題は、全ての厳密な安全制約を同時に満たしながら、複数の目的のバランスをとることである。 この問題に対処するために,多目的学習と制約順守のポリシー最適化を協調するプライマリベースフレームワークを提案する。 提案手法は,複数のRL目標を最適化し,異なるタスク間の矛盾する勾配を克服するために,新しい自然ポリシー勾配演算法を用いている。 厳しい制約が犯された場合、我々のアルゴリズムは、この違反を最小限に抑えるためにポリシーを是正する。 理論的収束と制約違反の保証を表形式で確立する。 また,提案手法は,安全性の高い多目的強化学習タスクにおいて,従来の最先端手法よりも優れていた。

In numerous reinforcement learning (RL) problems involving safety-critical systems, a key challenge lies in balancing multiple objectives while simultaneously meeting all stringent safety constraints. To tackle this issue, we propose a primal-based framework that orchestrates policy optimization between multi-objective learning and constraint adherence. Our method employs a novel natural policy gradient manipulation method to optimize multiple RL objectives and overcome conflicting gradients between different tasks, since the simple weighted average gradient direction may not be beneficial for specific tasks' performance due to misaligned gradients of different task objectives. When there is a violation of a hard constraint, our algorithm steps in to rectify the policy to minimize this violation. We establish theoretical convergence and constraint violation guarantees in a tabular setting. Empirically, our proposed method also outperforms prior state-of-the-art methods on challenging safe multi-objective reinforcement learning tasks.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 構成構造はいつ構成一般化をもたらすのか? カーネル理論

When does compositional structure yield compositional generalization? A kernel theory ( http://arxiv.org/abs/2405.16391v1 )

ライセンス: Link先を確認
Samuel Lippl, Kim Stachenfeld, (参考訳) 構成一般化(慣れ親しんだコンポーネントの新たな組み合わせに正しく反応する能力)は知的行動の基礎であると考えられている。 構成的構造化された(e g disentangled)表現は、これに必須であるが、それらが構成的一般化をもたらす条件はいまだ不明である。 このギャップに対処するために、固定された潜在的非線形表現を持つカーネルモデルにおける合成一般化の一般的な理論(これは「怠けな状態」のニューラルネットワークにも適用される)を示す。 これらのモデルは、トレーニング中に見られたコンポーネントの結合/結合に割り当てられた値(接続ワイド加算)に機能的に制限されることを証明し、不整合入力であってもデータやモデル構造から生じる新しい構成的故障モードを同定する。 表現学習(あるいはリッチ)体制のモデルの場合、ネットワークは重要な非付加的タスク(連想的推論)を一般化し、その理由を機械論的に説明できることを示す。 最後に、我々の理論を実証的に検証し、一連の構成タスクで訓練されたディープニューラルネットワークの振る舞いを捉えていることを示す。 総じて、我々の理論は、カーネルモデルにおける構成一般化をもたらす原理を特徴づけ、表現学習がそれらの限界を克服する方法を示している。 さらに,必要な学習メカニズム(接続的付加性)の基本的な相違点を強調した,作曲タスクのための基礎的,新しい一般化クラスを提供する。

Compositional generalization (the ability to respond correctly to novel combinations of familiar components) is thought to be a cornerstone of intelligent behavior. Compositionally structured (e.g. disentangled) representations are essential for this; however, the conditions under which they yield compositional generalization remain unclear. To address this gap, we present a general theory of compositional generalization in kernel models with fixed, potentially nonlinear representations (which also applies to neural networks in the "lazy regime"). We prove that these models are functionally limited to adding up values assigned to conjunctions/combinations of components that have been seen during training ("conjunction-wise additivity"), and identify novel compositionality failure modes that arise from the data and model structure, even for disentangled inputs. For models in the representation learning (or "rich") regime, we show that networks can generalize on an important non-additive task (associative inference), and give a mechanistic explanation for why. Finally, we validate our theory empirically, showing that it captures the behavior of deep neural networks trained on a set of compositional tasks. In sum, our theory characterizes the principles giving rise to compositional generalization in kernel models and shows how representation learning can overcome their limitations. We further provide a formally grounded, novel generalization class for compositional tasks that highlights fundamental differences in the required learning mechanisms (conjunction-wise additivity).
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 学生中心の教育を基盤としたOculomotor Examination教育のためのバーチャルリアリティアプリケーションの開発

Development of a Virtual Reality Application for Oculomotor Examination Education Based on Student-Centered Pedagogy ( http://arxiv.org/abs/2405.16392v1 )

ライセンス: Link先を確認
Austin Finlayson, Rui Wu, Chia-Cheng Lin, Brian Sylcott, (参考訳) 本研究は,バーチャルリアリティ(VR)を用いた臨床眼科検査の授業における学生中心の教育の利用について論じる。 PowerPointのスライドや実験室の活動のような従来の手法は、医療機器のコストが高いため、ハンズオン体験を提供するには不十分であることが多い。 これを解決するために、UnityとHTC Vive Proヘッドセットを使ってVRベースのアプリケーションを開発した。 このVRアプリは、学生が自分のペースでオキュラモータ試験に参加でき、さまざまなバックグラウンドと学習の好みを調整できる。 このアプリケーションにより、学生はデータを収集、分析することができ、臨床実習の現実的なシミュレーションを提供する。 Doctor of Physical Therapyの学生によるユーザー調査の結果は、VRアプリが提供する柔軟性を高く評価しており、教育ツールとしての価値が示唆されている。 さらに,工学・コンピューティング教育におけるVR活用の意義について考察し,没入型対話型学習環境のメリットを強調した。

This work-in-progress paper discusses the use of student-centered pedagogy to teach clinical oculomotor examination via Virtual Reality (VR). Traditional methods, such as PowerPoint slides and lab activities, are often insufficient for providing hands-on experience due to the high cost of clinical equipment. To address this, a VR-based application was developed using Unity and the HTC Vive Pro headset, offering a cost-effective solution for practical learning. The VR app allows students to engage in oculomotor examinations at their own pace, accommodating diverse backgrounds and learning preferences. This application enables students to collect and analyze data, providing a realistic simulation of clinical practice. The user study results from Doctor of Physical Therapy students indicate a high preference for the flexibility offered by the VR app, suggesting its potential as a valuable educational tool. Additionally, the paper explores the broader implications of using VR in engineering and computing education, highlighting the benefits of immersive, interactive learning environments.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 人間の映像生成における現実性向上のための遠近的前景と背景運動

Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation ( http://arxiv.org/abs/2405.16393v1 )

ライセンス: Link先を確認
Jinlin Liu, Kai Yu, Mengyang Feng, Xiefang Guo, Miaomiao Cui, (参考訳) 近年のヒトビデオ合成の進歩により、安定拡散モデルの適用による高品質なビデオの生成が可能となった。 しかし、既存の手法は主に、背景を完全に静的にしながら、ポーズ情報によって導かれる人的要素(前景)のみをアニメーションすることに集中している。 これとは対照的に、本物で高品質なビデオでは、背景はしばしば前景の動きと調和して動的に調整される。 異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。 人間のフィギュアは、ポーズベースの動きを利用して、複雑なアクションをキャプチャするアニメーションです。 逆に,前景活動と環境変化の自然な相互作用を反映して,動きのモデル化にスパーストラッキングポイントを用いる。 この斬新な動き描写アプローチによって強化された実世界の映像をトレーニングし、このモデルにより、前景と周囲の状況の両方でコヒーレントな動きを示す映像を生成する。 誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用し、各ステップにグローバルな特徴を導入する。 これらのセグメント間のシームレスな連続性を確保するため、生成したクリップの最終フレームと入力ノイズをリンクして、後続するクリップを発生させ、物語の流れを維持する。 逐次生成プロセスを通じて、初期参照画像の特徴表現をネットワークに注入し、他の方法で生じる可能性のある累積色の不整合を効果的に排除する。 本手法は,前景動作と応答性背景ダイナミクスとの調和性を示すビデオの制作において,従来手法よりも優れていることを示す実証的評価である。

Recent advancements in human video synthesis have enabled the generation of high-quality videos through the application of stable diffusion models. However, existing methods predominantly concentrate on animating solely the human element (the foreground) guided by pose information, while leaving the background entirely static. Contrary to this, in authentic, high-quality videos, backgrounds often dynamically adjust in harmony with foreground movements, eschewing stagnancy. We introduce a technique that concurrently learns both foreground and background dynamics by segregating their movements using distinct motion representations. Human figures are animated leveraging pose-based motion, capturing intricate actions. Conversely, for backgrounds, we employ sparse tracking points to model motion, thereby reflecting the natural interaction between foreground activity and environmental changes. Training on real-world videos enhanced with this innovative motion depiction approach, our model generates videos exhibiting coherent movement in both foreground subjects and their surrounding contexts. To further extend video generation to longer sequences without accumulating errors, we adopt a clip-by-clip generation strategy, introducing global features at each step. To ensure seamless continuity across these segments, we ingeniously link the final frame of a produced clip with input noise to spawn the succeeding one, maintaining narrative flow. Throughout the sequential generation process, we infuse the feature representation of the initial reference image into the network, effectively curtailing any cumulative color inconsistencies that may otherwise arise. Empirical evaluations attest to the superiority of our method in producing videos that exhibit harmonious interplay between foreground actions and responsive background dynamics, surpassing prior methodologies in this regard.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# グラフ上の量子状態拡散

Quantum State Diffusion on a Graph ( http://arxiv.org/abs/2405.16394v1 )

ライセンス: Link先を確認
John C Vining III, Howard A. Blair, (参考訳) 量子ウォークは、古典的に定義された一般に有限なグラフ構造を通る量子状態の挙動をしばしば想定している。 このアプローチはすでに大きな成果を上げているが、これは強い仮定を課している。 本稿では,任意のグラフ上の状態拡散,すなわちグラフ内の状態の循環を過小評価する数学的構造について検討する。 我々は、マルチウォーカー問題を有限量子セルオートマトンとしてフレーム化することを模索する。 どの頂点も常に歩行器を持っている。 歩行者は決して衝突せず、各ステップはランダムに選択されたエッジの反対側で歩行者の量子スワップによって非決定的に更新される。 この更新は、歩行器の位置を全ての可能なスワップの重ね合わせに一元的に変換し、可能なスワップの重ね合わせに関する量子測定を行うことによって達成される。 この挙動は頂点状態間の強い絡み合いを生じさせ、グラフ全体の拡散を生み出す局所的な作用を、ブラインド計算によってグラフの特定の構造に依存することなく発展させる。

Quantum walks have frequently envisioned the behavior of a quantum state traversing a classically defined, generally finite, graph structure. While this approach has already generated significant results, it imposes a strong assumption: all nodes where the walker is not positioned are quiescent. This paper will examine some mathematical structures that underlie state diffusion on arbitrary graphs, that is the circulation of states within a graph. We will seek to frame the multi-walker problem as a finite quantum cellular automaton. Every vertex holds a walker at all times. The walkers will never collide and at each time step their positions update non-deterministically by a quantum swap of walkers at opposite ends of a randomly chosen edge. The update is accomplished by a unitary transformation of the position of a walker to a superposition of all such possible swaps and then performing a quantum measurement on the superposition of possible swaps. This behavior generates strong entanglement between vertex states which provides a path toward developing local actions producing diffusion throughout the graph without depending on the specific structure of the graph through blind computation.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# 日々の身体活動モニタリング -マルチソースモーションセンサデータからの適応学習-

Daily Physical Activity Monitoring -- Adaptive Learning from Multi-source Motion Sensor Data ( http://arxiv.org/abs/2405.16395v1 )

ライセンス: Link先を確認
Haoting Zhang, Donglin Zhan, Yunduan Lin, Jinghai He, Qing Zhu, Zuo-Jun Max Shen, Zeyu Zheng, (参考訳) 医療アプリケーションでは、手首のウェアラブルデバイスからのデータを使用し、身体活動を監視し、健康リスクを評価し、即時健康勧告や介入を提供する機械学習モデルを開発する必要性が高まっている。 しかしながら、単一ソースデータを使用することの制限は、人間の活動の全範囲を捉えるのに失敗するため、モデルの精度を損なうことが多い。 様々な身体部分に取り付けられた複数のセンサーを用いて、より包括的なデータセットを実験室で収集することができるが、複数のセンサーを装着する非現実性のため、このアプローチは日常的に使用するには実用的ではない。 この課題に対処するために,実験室で収集したマルチソースデータを活用することで,日常的なアプリケーションを対象とした機械学習モデルを最適化するトランスファーラーニングフレームワークを導入する。 我々は、これらの複数のデータソース間の固有の関係を活用するために、新しいメトリクスを導入し、それらがすべて同じ物理活動の側面をキャプチャするためにペアリングされる。 数値実験により,本フレームワークは従来の手法よりも精度が高く,騒音に対する頑健性も優れており,日々の行動監視の強化に期待できる道筋となっている。

In healthcare applications, there is a growing need to develop machine learning models that use data from a single source, such as that from a wrist wearable device, to monitor physical activities, assess health risks, and provide immediate health recommendations or interventions. However, the limitation of using single-source data often compromises the model's accuracy, as it fails to capture the full scope of human activities. While a more comprehensive dataset can be gathered in a lab setting using multiple sensors attached to various body parts, this approach is not practical for everyday use due to the impracticality of wearing multiple sensors. To address this challenge, we introduce a transfer learning framework that optimizes machine learning models for everyday applications by leveraging multi-source data collected in a laboratory setting. We introduce a novel metric to leverage the inherent relationship between these multiple data sources, as they are all paired to capture aspects of the same physical activity. Through numerical experiments, our framework outperforms existing methods in classification accuracy and robustness to noise, offering a promising avenue for the enhancement of daily activity monitoring.
翻訳日:2024-05-28 21:37:49 公開日:2024-05-26
# ビジネスプロセスマネジメントにおける機械学習 : 体系的文献レビュー

Machine learning in business process management: A systematic literature review ( http://arxiv.org/abs/2405.16396v1 )

ライセンス: Link先を確認
Sven Weinzierl, Sandra Zilker, Sebastian Dunzer, Martin Matzner, (参考訳) 機械学習(ML)は、明示的にプログラムすることなく、データに基づいてコンピュータプログラムを作成するアルゴリズムを提供する。 ビジネスプロセス管理(BPM)では、MLアプリケーションは効率的にプロセスを分析し、改善するために使われます。 MLを使用する3つの頻繁な例は、予測による意思決定のサポート、正確なプロセスモデルの検出、リソース割り当ての改善である。 本稿では、BPMにおけるMLに関する知識の体系化について述べる。 さまざまな文献ストリームからBPMタスクを抽出し、プロセスライフサイクルのフェーズでそれらを要約し、これらのタスクをどのように実行するかを説明し、タスク間のML実装における技術的共通点を特定します。 この研究は、BPMでMLがどのように使われているかについて、初めての徹底的なレビューである。 我々は、研究者が関連する予備研究を識別し、既存のアプローチを集中的に組み合わせ、さらに発展させることによって、新たな累積研究の時代への扉を開くことを望んでいる。 私たちの論文は、ビジネスプロセスの再設計など、BPMイニシアチブの現在のプロジェクトフェーズに関連するMLアプリケーションを見つけるのに、マネージャやコンサルタントが役立ちます。 また、フェデレートラーニングのような新しいML概念の適用、プロセス識別のようなBPMライフサイクルフェーズの低さへの対処、エンドユーザーに焦点を当てたMLアプリケーションの提供など、将来の研究に10の道を広げる研究アジェンダも提供します。

Machine learning (ML) provides algorithms to create computer programs based on data without explicitly programming them. In business process management (BPM), ML applications are used to analyse and improve processes efficiently. Three frequent examples of using ML are providing decision support through predictions, discovering accurate process models, and improving resource allocation. This paper organises the body of knowledge on ML in BPM. We extract BPM tasks from different literature streams, summarise them under the phases of a process`s lifecycle, explain how ML helps perform these tasks and identify technical commonalities in ML implementations across tasks. This study is the first exhaustive review of how ML has been used in BPM. We hope that it can open the door for a new era of cumulative research by helping researchers to identify relevant preliminary work and then combine and further develop existing approaches in a focused fashion. Our paper helps managers and consultants to find ML applications that are relevant in the current project phase of a BPM initiative, like redesigning a business process. We also offer - as a synthesis of our review - a research agenda that spreads ten avenues for future research, including applying novel ML concepts like federated learning, addressing less regarded BPM lifecycle phases like process identification, and delivering ML applications with a focus on end-users.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# AdaFisher: 漁業情報による適応的な二階最適化

AdaFisher: Adaptive Second Order Optimization via Fisher Information ( http://arxiv.org/abs/2405.16397v1 )

ライセンス: Link先を確認
Damien Martins Gomes, Yanlei Zhang, Eugene Belilovsky, Guy Wolf, Mahdi S. Hosseini, (参考訳) 現在、一階最適化手法はディープニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。 アダムのようなオプティマイザは、トレーニング中に確率勾配の対角行列プレコンディショニングを用いることで、限られた曲率情報を取り入れる。 広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。 しかし、DNNの訓練における実用性は、第1次方法と比較して、解法ごとの計算量の増加と最適下限の精度の増大により、依然として制限されている。 本稿では,適応勾配プリコンディショニングのためのフィッシャー情報行列にブロック対角近似を利用する適応二階最適化器AdaFisherを提案する。 AdaFisherは、DNNのトレーニングのための2階最適化フレームワークにおいて、収束能力の向上と計算効率のギャップを埋めることを目的としている。 2次オプティマイザの速度は遅いが、AdaFisherは画像分類、言語モデリングに確実に適用でき、ハイパーパラメータチューニングの安定性と堅牢性に際し際立つ。 AdaFisherは精度と収束速度の両方でSOTAオプティマイザより優れていることを示す。 コード: \href{https://github.com/AtlasAnalyticsLab/AdaFisher}{https://github.com/AtlasAnalyticsLab/AdaFisher}

First-order optimization methods are currently the mainstream in training deep neural networks (DNNs). Optimizers like Adam incorporate limited curvature information by employing the diagonal matrix preconditioning of the stochastic gradient during the training. Despite their widespread, second-order optimization algorithms exhibit superior convergence properties compared to their first-order counterparts e.g. Adam and SGD. However, their practicality in training DNNs are still limited due to increased per-iteration computations and suboptimal accuracy compared to the first order methods. We present AdaFisher--an adaptive second-order optimizer that leverages a block-diagonal approximation to the Fisher information matrix for adaptive gradient preconditioning. AdaFisher aims to bridge the gap between enhanced convergence capabilities and computational efficiency in second-order optimization framework for training DNNs. Despite the slow pace of second-order optimizers, we showcase that AdaFisher can be reliably adopted for image classification, language modelling and stand out for its stability and robustness in hyperparameter tuning. We demonstrate that AdaFisher outperforms the SOTA optimizers in terms of both accuracy and convergence speed. Code available from \href{https://github.com/AtlasAnalyticsLab/AdaFisher}{https://github.com/AtlasAnalyticsLab/AdaFisher}
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 視覚表現学習における意味に富んだ知識の活用効果の理解

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning ( http://arxiv.org/abs/2405.16401v1 )

ライセンス: Link先を確認
Neha Kalibhat, Priyatham Kattakinda, Arman Zarei, Nikita Seleznev, Samuel Sharpe, Senthil Kumar, Soheil Feizi, (参考訳) ビジョントランスフォーマーは、画像処理前に一様サイズのチャンクにイメージをパッチする先例を確立した。 この設計選択は、視覚データから包括的および構成的表現を学習する際のモデルを制限する可能性があると仮定する。 本稿では,視覚言語事前学習フレームワーク内で,トランスフォーマーエンコーダに意味論的に意味のある視覚トークンを提供することについて検討する。 オフザシェルフセグメンテーションとシーングラフモデルを利用して、インスタンスセグメンテーションマスク(有形トークン)とリレーションとアクション(無形トークン)の表現を抽出する。 その後、新たに抽出されたトークンを組み込んで、テキスト側エンコーダからのキャプション埋め込みと組み合わせることで、視覚側トランスフォーマーを事前訓練する。 視覚的トークン間の構造的・意味的関係を捉えるために,自己注意スコアの計算に使用される付加的注意重みを導入する。 テキスト・ツー・イメージ(+47%)と画像・トゥ・テキスト検索(+44%)にまたがる、学習された表現品質のViTに対する顕著な改善を示した。 さらに,ARO (+18%) やWinoground (+10%) などの構成性ベンチマークの利点を示す。

Vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. We hypothesize that this design choice may limit models in learning comprehensive and compositional representations from visual data. This paper explores the notion of providing semantically-meaningful visual tokens to transformer encoders within a vision-language pre-training framework. Leveraging off-the-shelf segmentation and scene-graph models, we extract representations of instance segmentation masks (referred to as tangible tokens) and relationships and actions (referred to as intangible tokens). Subsequently, we pre-train a vision-side transformer by incorporating these newly extracted tokens and aligning the resultant embeddings with caption embeddings from a text-side encoder. To capture the structural and semantic relationships among visual tokens, we introduce additive attention weights, which are used to compute self-attention scores. Our experiments on COCO demonstrate notable improvements over ViTs in learned representation quality across text-to-image (+47%) and image-to-text retrieval (+44%) tasks. Furthermore, we showcase the advantages on compositionality benchmarks such as ARO (+18%) and Winoground (+10%).
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 実世界物理・パティエント相互作用を持つ大規模言語モデルにおける共感の評価

Assessing Empathy in Large Language Models with Real-World Physician-Patient Interactions ( http://arxiv.org/abs/2405.16402v1 )

ライセンス: Link先を確認
Man Luo, Christopher J. Warren, Lu Cheng, Haidar M. Abdul-Muhsin, Imon Banerjee, (参考訳) 医療領域へのLarge Language Models(LLMs)の統合は、共感的で患者に面したチャットボットの開発を通じて、患者のケアとサポートを大幅に強化する可能性がある。 本研究は,ChatGPTが医師が通常提供するものよりも,共感の度合いに反応できるのか,という興味深い疑問を考察する。 この問いに答えるために,マヨクリニックから患者メッセージと医師の回答の非特定データセットを収集し,ChatGPTを用いて代替回答を生成する。 本分析では, 自動評価と人的評価を併用した新しい共感ランキング評価(EMRank)を取り入れ, 共感度を計測した。 以上の結果から, LLMを用いたチャットボットは, 共感的コミュニケーションを実現する上で, 医師に勝る可能性があることが示唆された。 この研究は、患者の相互作用における共感の重要性を強調するだけでなく、効果的な自動共感ランキングの指標も提案している。

The integration of Large Language Models (LLMs) into the healthcare domain has the potential to significantly enhance patient care and support through the development of empathetic, patient-facing chatbots. This study investigates an intriguing question Can ChatGPT respond with a greater degree of empathy than those typically offered by physicians? To answer this question, we collect a de-identified dataset of patient messages and physician responses from Mayo Clinic and generate alternative replies using ChatGPT. Our analyses incorporate novel empathy ranking evaluation (EMRank) involving both automated metrics and human assessments to gauge the empathy level of responses. Our findings indicate that LLM-powered chatbots have the potential to surpass human physicians in delivering empathetic communication, suggesting a promising avenue for enhancing patient care and reducing professional burnout. The study not only highlights the importance of empathy in patient interactions but also proposes a set of effective automatic empathy ranking metrics, paving the way for the broader adoption of LLMs in healthcare.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 3次相互作用を持つスピン鎖に結合した3量子W_zeta量子状態の量子絡み合いダイナミクス

Quantum entanglement dynamics of the three-qubit W_zeta quantum state coupled to spin chain with ternary interaction ( http://arxiv.org/abs/2405.16404v1 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本研究では,W_zeta量子状態に対する負性基準を用いた量子絡み合いのダイナミクスについて検討する。 異方性パラメータ,ガンマ,スピン鎖に印加する外部磁場の強度,eta,三重相互作用強度,アルファの負性率の変化について検討した。 これらのパラメータがシステムの絡み合い特性にどのように影響するかを考察し、量子情報処理や量子通信プロトコルにおける影響について考察する。 異なる条件下でのW_zeta状態の負性性を分析することにより、複素量子系の絡み合いの挙動に関する洞察を得る。 量子エンタングルメントに影響を及ぼす様々な要因間の複雑な相互作用に光を当て、この研究分野におけるさらなる研究の基盤を提供する。

In this study, we explore the dynamics of quantum entanglement using the negativity criterion for the W_zeta quantum state. We investigate changes in negativity in terms of anisotropy parameters, gamma, the strength of the external magnetic field applied to the spin chain, eta, the triple interaction strength, alpha. We examine how these parameters affect the entanglement properties of the system and discuss the implications for quantum information processing and quantum communication protocols. By analyzing the negativity of the W_zeta state under different conditions, we gain insights into the behaviour of entanglement in complex quantum systems. Our results shed light on the intricate interplay between various factors that influence quantum entanglement and provide a foundation for further investigations in this field of research.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 単語による侵入:テキストレベルでのグラフ注入攻撃の理解に向けて

Intruding with Words: Towards Understanding Graph Injection Attacks at the Text Level ( http://arxiv.org/abs/2405.16405v1 )

ライセンス: Link先を確認
Runlin Lei, Yuwei Hu, Yuchen Ren, Zhewei Wei, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションにまたがるが、敵攻撃、特に悪意のあるノードを元のグラフに注入し、現実的な脅威を引き起こすグラフインジェクション攻撃(GIA)に弱いままである。 ノードがテキスト機能に関連付けられているテキスト分散グラフ(TAG)は、現実世界のアプリケーションで広く使われているため、これらの脆弱性を評価するために一般的に使用される。 しかし、既存の研究は、実際のテキストコンテンツではなくノード埋め込みを注入し、適用性を制限し、検出を単純化する埋め込みレベルGIAのみに焦点を当てている。 本稿では,テキストレベルでのGIAの探索を開拓し,テキストコンテンツをグラフに注入する3つの新たな攻撃設計を提案する。 理論的および経験的分析を通じて, 埋め込みレベルがこれまで見過ごされていたテキスト解釈能力が, 攻撃強度において重要な役割を担っていることを実証した。 本稿では,Word- frequency-based Text-level GIA(WTGIA)について述べる。 WTGIAの成功にもかかわらず、ディフェンダーはカスタマイズされたテキスト埋め込み手法や大言語モデル(LLM)ベースの予測器で防御を強化できることが判明した。 これらの知見は、テキストレベルのGIAの可能性と実践的重要性について、さらなる研究の必要性を浮き彫りにしている。

Graph Neural Networks (GNNs) excel across various applications but remain vulnerable to adversarial attacks, particularly Graph Injection Attacks (GIAs), which inject malicious nodes into the original graph and pose realistic threats. Text-attributed graphs (TAGs), where nodes are associated with textual features, are crucial due to their prevalence in real-world applications and are commonly used to evaluate these vulnerabilities. However, existing research only focuses on embedding-level GIAs, which inject node embeddings rather than actual textual content, limiting their applicability and simplifying detection. In this paper, we pioneer the exploration of GIAs at the text level, presenting three novel attack designs that inject textual content into the graph. Through theoretical and empirical analysis, we demonstrate that text interpretability, a factor previously overlooked at the embedding level, plays a crucial role in attack strength. Among the designs we investigate, the Word-frequency-based Text-level GIA (WTGIA) is particularly notable for its balance between performance and interpretability. Despite the success of WTGIA, we discover that defenders can easily enhance their defenses with customized text embedding methods or large language model (LLM)--based predictors. These insights underscore the necessity for further research into the potential and practical significance of text-level GIAs.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# SpinQuant -- 学習回転によるLLM量子化

SpinQuant -- LLM quantization with learned rotations ( http://arxiv.org/abs/2405.16406v1 )

ライセンス: Link先を確認
Zechun Liu, Changsheng Zhao, Igor Fedorov, Bilge Soran, Dhruv Choudhary, Raghuraman Krishnamoorthi, Vikas Chandra, Yuandong Tian, Tijmen Blankevoort, (参考訳) 重み、アクティベーション、KVキャッシュに適用されるPTQ(Post-training Quantization)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減するが、外れ値が存在する場合の大きな量子化誤差を引き起こす可能性がある。 近年の研究では、回転活性化または重量行列は、外れ値を取り除き、量子化の恩恵をもたらすことが示唆されている。 本研究では,全精度トランスフォーマーアーキテクチャにおいて同一の出力となる回転パラメータの集合を同定し,いくつかのランダムな回転が,下流ゼロショット推論性能の最大13点差を伴って,他のものよりもはるかに優れた量子化をもたらすことを見出した。 その結果、小さな検証セット上でケイリー最適化を用いて回転行列を最適化(あるいは学習)するSpinQuantを提案する。 重量、アクティベーション、KV-cacheの4ビット量子化により、SpinQuantはゼロショット推論タスクの精度ギャップをLLaMA-2 7Bモデルでわずか2.9ポイントに縮小し、LLM-QATを19.1ポイント、SmoothQuantを25.0ポイント超えた。 SpinQuantは同時に作業のQuaRotを上回り、異常なローテーションを適用してアウトレイラを除去する。 特に、定量化が難しいLLaMA-2 7B/LLaMA-3 8Bモデルでは、SpinQuantはQuaRotと比較してギャップを30.2%/34.1%削減する。

Post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large quantization errors when outliers are present. Recent findings suggest that rotating activation or weight matrices helps remove outliers and benefits quantization. In this work, we identify a collection of applicable rotation parameterizations that lead to identical outputs in full-precision Transformer architectures, and find that some random rotations lead to much better quantization than others, with an up to 13 points difference in downstream zero-shot reasoning performance. As a result, we propose SpinQuant that optimizes (or learns) the rotation matrices with Cayley optimization on a small validation set. With 4-bit quantization of weight, activation, and KV-cache, SpinQuant narrows the accuracy gap on zero-shot reasoning tasks with full precision to merely 2.9 points on the LLaMA-2 7B model, surpassing LLM-QAT by 19.1 points and SmoothQuant by 25.0 points. SpinQuant also outperforms concurrent work QuaRot, which applies random rotations to remove outliers. In particular, for LLaMA-2 7B/LLaMA-3 8B models that are hard to quantize, SpinQuant reduces the gap to full precision by 30.2%/34.1% relative to QuaRot.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# Network Interdictionがニューラルに

Network Interdiction Goes Neural ( http://arxiv.org/abs/2405.16409v1 )

ライセンス: Link先を確認
Lei Zhang, Zhiqian Chen, Chang-Tien Lu, Liang Zhao, (参考訳) 1つはネットワーク上の最適化問題を解くことを目的としており、もう1つはネットワークを変更して最初のプレイヤーの目的を妨げようとしている。 このような問題は、通常、軍事作戦、病気の拡散分析、通信ネットワーク管理といった分野を含む攻撃的・防御的文脈で発生する。 ネットワーク干渉の主なボトルネックは、従来の正確な解法を用いる場合の時間的複雑さと、効率的なヒューリスティック解法を考案する際の課題から生じる。 最先端の手法として認識されているGNNは、旅行セールスマン問題、グラフマッチング、グラフ編集距離など、グラフ上の単一レベルのCO問題に対処する上で大きな効果を示している。 それでも、ネットワークインターディクションは、現在のGNNの管理が困難である、双方向最適化の課題を提示している。 このギャップに対処するために、ネットワークの断面積問題をMILP(Mixed-Integer Linear Programming)インスタンスとして表現し、これらの定式化を学ぶのに十分な表現能力を持つ多部GNNを適用する。 このアプローチにより、ニューラルネットワークは、ネットワーク交叉問題の解法として設計された数学的アルゴリズムとの互換性が向上し、一般化が向上する。 2つの異なるタスクを通して,提案手法が理論ベースラインモデルより優れ,従来の正確な解法よりも優れていることを示す。

Network interdiction problems are combinatorial optimization problems involving two players: one aims to solve an optimization problem on a network, while the other seeks to modify the network to thwart the first player's objectives. Such problems typically emerge in an attacker-defender context, encompassing areas such as military operations, disease spread analysis, and communication network management. The primary bottleneck in network interdiction arises from the high time complexity of using conventional exact solvers and the challenges associated with devising efficient heuristic solvers. GNNs, recognized as a cutting-edge methodology, have shown significant effectiveness in addressing single-level CO problems on graphs, such as the traveling salesman problem, graph matching, and graph edit distance. Nevertheless, network interdiction presents a bi-level optimization challenge, which current GNNs find difficult to manage. To address this gap, we represent network interdiction problems as Mixed-Integer Linear Programming (MILP) instances, then apply a multipartite GNN with sufficient representational capacity to learn these formulations. This approach ensures that our neural network is more compatible with the mathematical algorithms designed to solve network interdiction problems, resulting in improved generalization. Through two distinct tasks, we demonstrate that our proposed method outperforms theoretical baseline models and provides advantages over traditional exact solvers.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# テンソル注意訓練:高次変圧器の効率的な学習

Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers ( http://arxiv.org/abs/2405.16411v1 )

ライセンス: Link先を確認
Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou, (参考訳) テンソル注意(Tensor Attention)は、複数のモーダル間の高次相関を捉えることができるマルチビューアテンションであり、古典的行列アテンションの表現的限界を克服することができる。 しかし、テンソルアテンションの時間複雑性$\Omega(n^3)は、入力シーケンス長が$n$となるトランスフォーマーの実践的な実装に重大な障害をもたらす。 本研究では、テンソルアテンショントレーニングの後方勾配をほぼ線形な$n^{1+o(1)}$時間で計算できることを証明した。 勾配の閉形式解を提案し,多項式近似法とテンソル代数的トリックを用いた高速計算法を提案する。 さらに, 硬度解析による仮定の必要性と厳密さを証明し, わずかに弱めれば, 真のサブキュビック時間では解けない勾配問題が得られることを示した。 提案手法は,高次変圧器の効率的な訓練の実現可能性を確立し,テンソルアテンションアーキテクチャの実用化を促進する。

Tensor Attention, a multi-view attention that is able to capture high-order correlations among multiple modalities, can overcome the representational limitations of classical matrix attention. However, the $\Omega(n^3)$ time complexity of tensor attention poses a significant obstacle to its practical implementation in transformers, where $n$ is the input sequence length. In this work, we prove that the backward gradient of tensor attention training can be computed in almost linear $n^{1+o(1)}$ time, the same complexity as its forward computation under a bounded entries assumption. We provide a closed-form solution for the gradient and propose a fast computation method utilizing polynomial approximation methods and tensor algebraic tricks. Furthermore, we prove the necessity and tightness of our assumption through hardness analysis, showing that slightly weakening it renders the gradient problem unsolvable in truly subcubic time. Our theoretical results establish the feasibility of efficient higher-order transformer training and may facilitate practical applications of tensor attention architectures.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# KG-FIT:知識グラフの微調整とオープンワールドの知識

KG-FIT: Knowledge Graph Fine-Tuning Upon Open-World Knowledge ( http://arxiv.org/abs/2405.16412v1 )

ライセンス: Link先を確認
Pengcheng Jiang, Lang Cao, Cao Xiao, Parminder Bhatia, Jimeng Sun, Jiawei Han, (参考訳) 知識グラフ埋め込み(KGE)技術は、知識グラフ内の実体と関係のコンパクトな表現を学習するために重要であり、効率的な推論と知識発見を促進する。 既存の手法は通常、グラフ構造のみに基づくKGEモデルのトレーニングや、KGの分類データを用いた微調整済み言語モデルに重点を置いているが、KG-FITはLLM誘導の洗練を活用して、エンティティクラスタのセマンティックコヒーレントな階層構造を構築する。 この階層的な知識を微調整プロセス中にテキスト情報と組み合わせることで、KG-FITはLLMのグローバルセマンティクスとKGのローカルセマンティクスの両方を効果的にキャプチャする。 ベンチマークデータセットFB15K-237、YAGO3-10、PrimeKGの大規模な実験は、最先端の訓練済み言語モデルベースの手法よりもKG-FITの方が優れており、リンク予測タスクのHits@10の14.4%、13.5%、11.9%の改善が達成されている。 さらに、KG-FITは、構築された構造ベースのベースモデルと比較して12.6%、6.7%、および17.7%の大幅な性能向上をもたらす。 これらの結果は、KG埋め込みの表現性と情報性を大幅に向上させるため、LLMからのオープンワールド知識を取り入れたKG-FITの有効性を浮き彫りにした。

Knowledge Graph Embedding (KGE) techniques are crucial in learning compact representations of entities and relations within a knowledge graph, facilitating efficient reasoning and knowledge discovery. While existing methods typically focus either on training KGE models solely based on graph structure or fine-tuning pre-trained language models with classification data in KG, KG-FIT leverages LLM-guided refinement to construct a semantically coherent hierarchical structure of entity clusters. By incorporating this hierarchical knowledge along with textual information during the fine-tuning process, KG-FIT effectively captures both global semantics from the LLM and local semantics from the KG. Extensive experiments on the benchmark datasets FB15K-237, YAGO3-10, and PrimeKG demonstrate the superiority of KG-FIT over state-of-the-art pre-trained language model-based methods, achieving improvements of 14.4%, 13.5%, and 11.9% in the Hits@10 metric for the link prediction task, respectively. Furthermore, KG-FIT yields substantial performance gains of 12.6%, 6.7%, and 17.7% compared to the structure-based base models upon which it is built. These results highlight the effectiveness of KG-FIT in incorporating open-world knowledge from LLMs to significantly enhance the expressiveness and informativeness of KG embeddings.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 大規模言語モデルによるアルツハイマー病発症リスク予測

Augmented Risk Prediction for the Onset of Alzheimer's Disease from Electronic Health Records with Large Language Models ( http://arxiv.org/abs/2405.16413v1 )

ライセンス: Link先を確認
Jiankun Wang, Sumyeong Ahn, Taykhoom Dalal, Xiaodan Zhang, Weishen Pan, Qiannan Zhang, Bin Chen, Hiroko H. Dodge, Fei Wang, Jiayu Zhou, (参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、65歳以上のアメリカ人で5番目に多い死因である。 ADおよび関連認知症(ADRD)のスクリーニングと早期発見は、タイムリーな介入と臨床試験参加者の特定に重要である。 電子健康記録(EHR)の普及は、機械学習ベースの予測モデルのようなADRDスクリーニングツールを開発する上で重要なリソースを提供する。 大規模言語モデル(LLM)の最近の進歩は、知識を符号化し、推論を行うという前例のない能力を示している。 本稿では,従来の教師付き学習手法(SL)が優れている場合の予測を行うため,LSMの数発の推論能力を活用し,リスク予測を向上するパイプラインを提案する。 具体的には、より複雑なシナリオにおけるSLとLLMの強みを活かし、信頼性駆動型意思決定機構を用いて、SLとLLMを組み合わせるコラボレーティブパイプラインを開発する。 このパイプラインは、オレゴン健康科学大学(OHSU)病院の実際のEHRデータウェアハウスを用いて評価し、250万人以上の患者と2000万人以上の患者からのEHRを包含する。 提案手法は,SLとLLMのパワーを効果的に組み合わせることで,予測性能を大幅に向上することを示す。 この進歩はADRDスクリーニングと早期発見の実践に革命をもたらす可能性を秘めており、患者管理のより良い戦略や医療改善の可能性を秘めている。

Alzheimer's disease (AD) is the fifth-leading cause of death among Americans aged 65 and older. Screening and early detection of AD and related dementias (ADRD) are critical for timely intervention and for identifying clinical trial participants. The widespread adoption of electronic health records (EHRs) offers an important resource for developing ADRD screening tools such as machine learning based predictive models. Recent advancements in large language models (LLMs) demonstrate their unprecedented capability of encoding knowledge and performing reasoning, which offers them strong potential for enhancing risk prediction. This paper proposes a novel pipeline that augments risk prediction by leveraging the few-shot inference power of LLMs to make predictions on cases where traditional supervised learning methods (SLs) may not excel. Specifically, we develop a collaborative pipeline that combines SLs and LLMs via a confidence-driven decision-making mechanism, leveraging the strengths of SLs in clear-cut cases and LLMs in more complex scenarios. We evaluate this pipeline using a real-world EHR data warehouse from Oregon Health \& Science University (OHSU) Hospital, encompassing EHRs from over 2.5 million patients and more than 20 million patient encounters. Our results show that our proposed approach effectively combines the power of SLs and LLMs, offering significant improvements in predictive performance. This advancement holds promise for revolutionizing ADRD screening and early detection practices, with potential implications for better strategies of patient management and thus improving healthcare.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# PPRSteg:アテンションフローベースモデルによるロバストQRコードステガノグラフィ

PPRSteg: Printing and Photography Robust QR Code Steganography via Attention Flow-Based Model ( http://arxiv.org/abs/2405.16414v1 )

ライセンス: Link先を確認
Huayuan Ye, Shenzhuo Zhang, Shiqi Jiang, Jing Liao, Shuhang Gu, Changbo Wang, Chenhui Li, (参考訳) 画像ステガノグラフィーは、ホスト画像に情報を隠蔽し、元のものと知覚的に区別できないステゴ画像を得る。 このテクニックは、著作権保護や情報レトロスペクションといったシナリオにおいて、大きな可能性を秘めています。 従来の研究では、画像障害に対する手法の堅牢性を高め、適用性を高めることが提案されている。 しかし、それらは一般に、ステガノグラフィーの品質と堅牢性の間の満足のいくバランスを達成できない。 本稿では,現実世界の印刷・撮影に頑健なQRコードステガノグラフィーの課題に焦点をあてる。 一般的な画像ステガノグラフィとは異なり、QRコードステガノグラフィーは自然画像に非自然なイメージを埋め込むことを目的としており、復元されたQRコードは認識可能であり、データの隠蔽と公開の難しさを増大させる。 近年のトランスフォーマーに基づく視覚モデルの発展に触発されて、画像のトークン化表現がステガノグラフィーに自然に適していることが判明した。 本稿では,ホスト画像にQRコードを隠蔽する機能を持つ新しいQRコード埋め込みフレームワークであるPing and Photography Robust Steganography(PPRSteg)を提案する。 QRコードによってもたらされるステゴ画像のアーティファクトを削減するための遷移プロセスの概要を述べる。 また,注視機構を組み合わせた正規化フローに基づくステガノグラフィーモデルを提案する。 私たちの知る限りでは、トランスフォーマーモデルの利点を正規化フローに統合する最初の研究である。 提案手法の有効性を示すための包括的かつ詳細な実験を行い,PPRStegは堅牢でセキュアで高品質なQRコードステガノグラフィーにおいて大きな可能性を秘めていることを示した。

Image steganography can hide information in a host image and obtain a stego image that is perceptually indistinguishable from the original one. This technique has tremendous potential in scenarios like copyright protection, information retrospection, etc. Some previous studies have proposed to enhance the robustness of the methods against image disturbances to increase their applicability. However, they generally cannot achieve a satisfying balance between the steganography quality and robustness. In this paper, we focus on the issue of QR Code steganography that is robust to real-world printing and photography. Different from common image steganography, QR Code steganography aims to embed a non-natural image into a natural image and the restored QR Code is required to be recognizable, which increases the difficulty of data concealing and revealing. Inspired by the recent developments in transformer-based vision models, we discover that the tokenized representation of images is naturally suitable for steganography. In this paper, we propose a novel QR Code embedding framework, called Printing and Photography Robust Steganography (PPRSteg), which is competent to hide QR Code in a host image with unperceivable changes and can restore it even if the stego image is printed out and photoed. We outline a transition process to reduce the artifacts in stego images brought by QR Codes. We also propose a steganography model based on normalizing flow, which combines the attention mechanism to enhance its performance. To our best knowledge, this is the first work that integrates the advantages of transformer models into normalizing flow. We conduct comprehensive and detailed experiments to demonstrate the effectiveness of our method and the result shows that PPRSteg has great potential in robust, secure and high-quality QR Code steganography.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# CRoFT:OOD一般化とオープンセットOOD検出の同時最適化によるロバストファインチューニング

CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection ( http://arxiv.org/abs/2405.16417v1 )

ライセンス: Link先を確認
Lin Zhu, Yifeng Yang, Qinying Gu, Xinbing Wang, Chenghu Zhou, Nanyang Ye, (参考訳) 最近の視覚言語事前学習モデル(VL-PTM)はオープン語彙タスクにおいて顕著な成功を収めている。 しかしながら、下流のユースケースは、VL-PTMのさらなる微調整を伴い、一般的な知識を歪め、分散シフトを扱う能力を損なうことがある。 実世界のシナリオでは、機械学習システムは必然的に、共変量シフト(例:画像スタイルの変化)とセマンティックシフト(例:テスト時間不明クラス)の両方に遭遇する。 このことは、共変量シフトにおけるアウト・オブ・ディストリビューション(OOD)の一般化の強化と、セマンティックシフトした未確認クラスを同時に検出することの重要性を強調している。 VL-PTM の OOD データをクローズセットする一般化能力を改善するにはどうすればいいのか? 本稿では,OODの一般化向上に寄与するOOD検出の目的関数を提案する。 実験データ上でのエネルギースコアの勾配を最小化することは、理論解析によって明らかにされたOOD一般化の強力な指標である分類損失の領域一貫性ヘッセンに繋がることを示す。 そこで本研究では,両タスクの同時最適化を実現するためのファインチューニングフレームワークを開発した。 大規模な実験により,本手法の優位性が確認された。 コードはhttps://github.com/LinLLLL/CRoFTで公開されている。

Recent vision-language pre-trained models (VL-PTMs) have shown remarkable success in open-vocabulary tasks. However, downstream use cases often involve further fine-tuning of VL-PTMs, which may distort their general knowledge and impair their ability to handle distribution shifts. In real-world scenarios, machine learning systems inevitably encounter both covariate shifts (e.g., changes in image styles) and semantic shifts (e.g., test-time unseen classes). This highlights the importance of enhancing out-of-distribution (OOD) generalization on covariate shifts and simultaneously detecting semantic-shifted unseen classes. Thus a critical but underexplored question arises: How to improve VL-PTMs' generalization ability to closed-set OOD data, while effectively detecting open-set unseen classes during fine-tuning? In this paper, we propose a novel objective function of OOD detection that also serves to improve OOD generalization. We show that minimizing the gradient magnitude of energy scores on training data leads to domain-consistent Hessians of classification loss, a strong indicator for OOD generalization revealed by theoretical analysis. Based on this finding, we have developed a unified fine-tuning framework that allows for concurrent optimization of both tasks. Extensive experiments have demonstrated the superiority of our method. The code is available at https://github.com/LinLLLL/CRoFT.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# 拡散モデルの滑らかさ特性の解明:ガウス混合の視点から

Unraveling the Smoothness Properties of Diffusion Models: A Gaussian Mixture Perspective ( http://arxiv.org/abs/2405.16418v1 )

ライセンス: Link先を確認
Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou, (参考訳) 拡散モデルは、様々な領域にわたる高品質なサンプルを生成するために急速に進歩した。 しかし、リプシッツの連続性と拡散過程の第二運動量特性に関する理論的理解はいまだに欠けている。 本稿では,このギャップを,画像データなどのスムーズな密度の普遍近似器として機能するガウス分布が混在している場合に,これらの滑らかさ特性を詳細に検証することによって橋渡しする。 対象分布がガウスの$k$-mixtureであれば、拡散過程全体の密度もガウスの$k$-mixtureとなる。 次に、混合成分数$k$とは無関係なリプシッツ定数と第二運動量について、厳密な上界を導出する。 最後に,SDE と ODE をベースとした様々な拡散解法に適用し,対象と学習分布間の全変動距離と KL のばらつきの観点から,具体的な誤差を保証する。 この結果から, 共通データ分布下での拡散過程のダイナミクスについて, より深い理論的知見が得られた。

Diffusion models have made rapid progress in generating high-quality samples across various domains. However, a theoretical understanding of the Lipschitz continuity and second momentum properties of the diffusion process is still lacking. In this paper, we bridge this gap by providing a detailed examination of these smoothness properties for the case where the target data distribution is a mixture of Gaussians, which serves as a universal approximator for smooth densities such as image data. We prove that if the target distribution is a $k$-mixture of Gaussians, the density of the entire diffusion process will also be a $k$-mixture of Gaussians. We then derive tight upper bounds on the Lipschitz constant and second momentum that are independent of the number of mixture components $k$. Finally, we apply our analysis to various diffusion solvers, both SDE and ODE based, to establish concrete error guarantees in terms of the total variation distance and KL divergence between the target and learned distributions. Our results provide deeper theoretical insights into the dynamics of the diffusion process under common data distributions.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# チャネル適応型視覚変換器の多様性向上

Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers ( http://arxiv.org/abs/2405.16419v1 )

ライセンス: Link先を確認
Chau Pham, Bryan A. Plummer, (参考訳) MCI(Multi-Channel Imaging)には、従来の画像には存在しない有用な特徴表現を符号化するための課題が数多く含まれている。 例えば、2つの異なる衛星の画像はどちらもRGBチャネルを含むが、残りのチャンネルは各撮像源ごとに異なることができる。 したがって、MCIモデルはテスト時に様々なチャネル構成をサポートする必要がある。 最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。 しかし、これらの手法は各チャネルを等しく扱う、すなわち、各チャネルタイプのユニークな性質を考慮せず、学習した特徴において不要で潜在的に有害な冗長性をもたらす可能性がある。 例えば、RGBチャンネルが常に存在する場合、他のチャンネルはRGBチャンネルで取得できない情報を抽出することに集中することができる。 そこで本研究では,MCI-ViTモデルの学習特徴の多様性向上を目的としたDiChaViTを提案する。 これは、トレーニングのためのより独立したチャネルセットの選択を促進する、新しいチャネルサンプリング戦略によって達成される。 さらに,各チャネルから新たな情報が学習される可能性を高めるため,正規化と初期化技術を採用している。 私たちの改善の多くはアーキテクチャに依存しないもので、開発時に新しいアーキテクチャに組み込まれることができます。 衛星とセルの両方の顕微鏡データセット、CHAMMI、JUMP-CP、So2Satの実験では、DiChaViTは最先端よりも1.5-5.0%上昇している。

Multi-Channel Imaging (MCI) contains an array of challenges for encoding useful feature representations not present in traditional images. For example, images from two different satellites may both contain RGB channels, but the remaining channels can be different for each imaging source. Thus, MCI models must support a variety of channel configurations at test time. Recent work has extended traditional visual encoders for MCI, such as Vision Transformers (ViT), by supplementing pixel information with an encoding representing the channel configuration. However, these methods treat each channel equally, i.e., they do not consider the unique properties of each channel type, which can result in needless and potentially harmful redundancies in the learned features. For example, if RGB channels are always present, the other channels can focus on extracting information that cannot be captured by the RGB channels. To this end, we propose DiChaViT, which aims to enhance the diversity in the learned features of MCI-ViT models. This is achieved through a novel channel sampling strategy that encourages the selection of more distinct channel sets for training. Additionally, we employ regularization and initialization techniques to increase the likelihood that new information is learned from each channel. Many of our improvements are architecture agnostic and could be incorporated into new architectures as they are developed. Experiments on both satellite and cell microscopy datasets, CHAMMI, JUMP-CP, and So2Sat, report DiChaViT yields a 1.5-5.0% gain over the state-of-the-art.
翻訳日:2024-05-28 21:28:05 公開日:2024-05-26
# M-RAG:複数分割の検索拡張生成による大規模言語モデルの性能向上

M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Multiple Partitions ( http://arxiv.org/abs/2405.16420v1 )

ライセンス: Link先を確認
Zheng Wang, Shu Xian Teo, Jieer Ouyang, Yongjun Xu, Wei Shi, (参考訳) Retrieval-Augmented Generation (RAG)は、外部データベースから関連するメモリを取得することで、Large Language Models (LLM)を強化する。 しかしながら、既存のRAGメソッドは通常、データベース全体のすべてのメモリを整理し、重要なメモリへのフォーカスとノイズの導入を制限する可能性がある。 本稿では、RAGの複数のパーティションパラダイム(M-RAGと呼ぶ)を導入し、それぞれのデータベースパーティションがRAG実行の基本ユニットとして機能する。 このパラダイムに基づいて,多エージェント強化学習を用いたLLMを利用して,言語生成タスクを明示的に最適化する新しいフレームワークを提案する。 3つの言語生成タスクと3つの異なる言語モデルアーキテクチャにまたがる総合的な実験を通じて、M-RAGは、テキスト要約、機械翻訳、対話生成において、それぞれ11%、8%、および12%の改善を達成し、様々なベースライン手法を一貫して上回っていることを確認した。

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by retrieving relevant memories from an external database. However, existing RAG methods typically organize all memories in a whole database, potentially limiting focus on crucial memories and introducing noise. In this paper, we introduce a multiple partition paradigm for RAG (called M-RAG), where each database partition serves as a basic unit for RAG execution. Based on this paradigm, we propose a novel framework that leverages LLMs with Multi-Agent Reinforcement Learning to optimize different language generation tasks explicitly. Through comprehensive experiments conducted on seven datasets, spanning three language generation tasks and involving three distinct language model architectures, we confirm that M-RAG consistently outperforms various baseline methods, achieving improvements of 11%, 8%, and 12% for text summarization, machine translation, and dialogue generation, respectively.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 持続可能なIoTを目指して - デバイス長寿への挑戦、解決策、今後の方向性

Towards Sustainable IoT: Challenges, Solutions, and Future Directions for Device Longevity ( http://arxiv.org/abs/2405.16421v1 )

ライセンス: Link先を確認
Ghazaleh Shirvani, Saeid Ghasemshirazi, (参考訳) モノのインターネットが支配する時代に、IoTデバイスの長寿性と持続性を保証することが、懸念の的になっている。 本研究は、IoTデバイスの早期解体に寄与する様々な難しさについて検討し、寿命管理を改善する方法を提案する。 セキュリティの脆弱性やユーザ認識のギャップ、ファッション主導型技術動向の影響などの要因を調べることで、立法介入、消費者教育、業界説明責任の必要性を浮き彫りにしている。 さらに、要求エンジニアリング方法論によるアーキテクチャ設計へのサステナビリティ考慮の統合など、IoTの寿命を改善するための革新的なアプローチについても検討している。 さらに、デバイスプロビジョニングとトラッキングのための透明性と分散プロセスを促進するために、分散型台帳技術(ブロックチェーン)の可能性についても論じる。 本研究は, 技術革新, 法的変化, 社会意識を統合し, 環境への影響を低減し, デジタルの未来へのレジリエンスを高めることによって, 持続可能なIoTエコシステムを促進する。

In an era dominated by the Internet of Things, ensuring the longevity and sustainability of IoT devices has emerged as a pressing concern. This study explores the various complex difficulties which contributed to the early decommissioning of IoT devices and suggests methods to improve their lifespan management. By examining factors such as security vulnerabilities, user awareness gaps, and the influence of fashion-driven technology trends, the paper underscores the need for legislative interventions, consumer education, and industry accountability. Additionally, it explores innovative approaches to improving IoT longevity, including the integration of sustainability considerations into architectural design through requirements engineering methodologies. Furthermore, the paper discusses the potential of distributed ledger technology, or blockchain, to promote transparent and decentralized processes for device provisioning and tracking. This study promotes a sustainable IoT ecosystem by integrating technology innovation, legal change, and social awareness to reduce environmental impact and enhance resilience for the digital future
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# BERTディープラーニングアルゴリズムに基づくAI生成テキストの検出と分類

AI-Generated Text Detection and Classification Based on BERT Deep Learning Algorithm ( http://arxiv.org/abs/2405.16422v1 )

ライセンス: Link先を確認
Hao Wang, Jianwei Li, Zhengyu Li, (参考訳) AIが生成するテキスト検出は、さまざまな分野でますます重要な役割を担っている。 本研究では,BERTアルゴリズムに基づく効率的なAI生成テキスト検出モデルを構築し,関連する問題を解決するための新しいアイデアと方法を提案する。 データ前処理の段階では、小文字への変換、単語分割、停止単語の除去、ストーミング抽出、桁の除去、冗長空間の除去など、テキストの処理の一連のステップが取られ、データ品質と精度が保証された。 データセットをトレーニングセットとテストセットに60%と40%の比率で分割し、トレーニングプロセス中の精度と損失値の変化を観察することにより、トレーニングプロセス中にモデルが良好に動作することを発見した。 精度は初期94.78%から99.72%に増加し、損失値は0.261から0.021に減少し、徐々に収束し、BERTモデルはAI生成テキストを高い精度で検出でき、予測結果が実際の分類結果に徐々に接近していることを示す。 さらに、トレーニングセットとテストセットの結果を分析してみると、損失値の点で、トレーニングセットの平均損失は0.0565であり、テストセットの平均損失は0.0917であり、損失値がわずかに高いことが分かる。 精度については、トレーニングセットの平均精度は98.1%に達するが、テストセットの平均精度は97.71%であり、これは互いに大きく異なるものではなく、モデルが優れた一般化能力を持っていることを示している。 結論として,本研究で提案したBERTアルゴリズムに基づくAI生成テキスト検出モデルは,実験において高い精度と安定性を示し,関連分野の効果的な解法を提供する。

AI-generated text detection plays an increasingly important role in various fields. In this study, we developed an efficient AI-generated text detection model based on the BERT algorithm, which provides new ideas and methods for solving related problems. In the data preprocessing stage, a series of steps were taken to process the text, including operations such as converting to lowercase, word splitting, removing stop words, stemming extraction, removing digits, and eliminating redundant spaces, to ensure data quality and accuracy. By dividing the dataset into a training set and a test set in the ratio of 60% and 40%, and observing the changes in the accuracy and loss values during the training process, we found that the model performed well during the training process. The accuracy increases steadily from the initial 94.78% to 99.72%, while the loss value decreases from 0.261 to 0.021 and converges gradually, which indicates that the BERT model is able to detect AI-generated text with high accuracy and the prediction results are gradually approaching the real classification results. Further analysis of the results of the training and test sets reveals that in terms of loss value, the average loss of the training set is 0.0565, while the average loss of the test set is 0.0917, showing a slightly higher loss value. As for the accuracy, the average accuracy of the training set reaches 98.1%, while the average accuracy of the test set is 97.71%, which is not much different from each other, indicating that the model has good generalisation ability. In conclusion, the AI-generated text detection model based on the BERT algorithm proposed in this study shows high accuracy and stability in experiments, providing an effective solution for related fields.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 信頼できる人間-AI協調意思決定のためのAIとXAIによる健康専門家のオンボーディングの改善

Improving Health Professionals' Onboarding with AI and XAI for Trustworthy Human-AI Collaborative Decision Making ( http://arxiv.org/abs/2405.16424v1 )

ライセンス: Link先を確認
Min Hun Lee, Silvana Xin Yi Choo, Shamala D/O Thilarajah, (参考訳) 高度なAI/MLによって、説明可能なAI(XAI)の研究や、人間とAIの効果的な協調的な意思決定のためのAIとXAIとの相互作用に関する研究が増加している。 しかし、AIシステムとXAIを技術的背景のないユーザに最初に提示する方法については、まだ理解できていない。 本稿では,医学と健康を専攻する健康専門家(n=12)と学生(n=4)との半構造化インタビューを行い,AIとXAIによる乗務改善の方法について検討する。 インタビューでは,脳卒中リハビリテーション評価とAI説明のためのAIシステムの搭載材料を作成し,参加者に紹介するため,人間とAIのインタラクションガイドラインを構築した。 この結果から,AI上での従来のパフォーマンス指標の提示に加えて,参加者が求めるベンチマーク情報,AIの実践的メリット,AIパフォーマンスのコンテキスト化のためのインタラクショントライアル,AIの目的とパフォーマンスの洗練などが明らかになった。 これらの知見に基づき、AIとXAIによる車載改善と人間とAIの協調的な意思決定の方向性を強調した。

With advanced AI/ML, there has been growing research on explainable AI (XAI) and studies on how humans interact with AI and XAI for effective human-AI collaborative decision-making. However, we still have a lack of understanding of how AI systems and XAI should be first presented to users without technical backgrounds. In this paper, we present the findings of semi-structured interviews with health professionals (n=12) and students (n=4) majoring in medicine and health to study how to improve onboarding with AI and XAI. For the interviews, we built upon human-AI interaction guidelines to create onboarding materials of an AI system for stroke rehabilitation assessment and AI explanations and introduce them to the participants. Our findings reveal that beyond presenting traditional performance metrics on AI, participants desired benchmark information, the practical benefits of AI, and interaction trials to better contextualize AI performance, and refine the objectives and performance of AI. Based on these findings, we highlight directions for improving onboarding with AI and XAI and human-AI collaborative decision-making.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# ねじれた二層構造における双極子ボソン

Dipolar bosons in a twisted bilayer geometry ( http://arxiv.org/abs/2405.16425v1 )

ライセンス: Link先を確認
Chao Zhang, Zhijie Fan, Barbara Capogrosso-Sansone, Youjin Deng, (参考訳) 近年では、二層グラフェンのようなツイスト二層構造が注目されているが、このツイスト角はシステム特性の非自明な修正に使える自由度を導入している。 このアイデアは、まず、状態依存の光学格子におけるねじれた二分子層をシミュレートする理論的な提案と、さらに最近では、2つの異なるスピン状態のボゾン原子を持つねじれた二分子層を実験的に実現した。 本稿では, 双層構造をもつ双極子粒子について理論的に検討する。 双極子相互作用と層間のツイストとの相互作用は、ツイストがない状態で観測されない量子状態の出現をもたらす。 我々は, 層間の固定距離のツイスト角と固定双極子相互作用によって, 系の特性がどう変化するかを検討した。 ツイスト角 $\theta=0.1^{\circ}$ では、観測された量子相は、ツイスト角のないもの、すなわち、対の超流動、対の超固体、対の固体相と一致している。 しかし、ツイスト角が$\theta=0.2^{\circ}$にわずかに増加すると、チェッカーボードの固体と超流動領域の間の相分離が好まれる。 特に、$\theta=5.21^{\circ}$のツイスト角では、局所的な占有数は、絶縁アイランドの周期構造が形成されるように、下層のモワーイ2層(moir\'e)のモワーイパターンに従う。 これらの断熱性の島々は超流動性に囲まれている。

In recent years, twisted bilayer systems such as bilayer graphene have attracted a great deal of attention as the twist angle introduces a degree of freedom which can be used to non-trivially modify system properties. This idea has been picked up in the cold atom community, first with a theoretical proposal to simulate twisted bilayers in state-dependent optical lattices, and, more recently, with an experimental realization of twisted bilayers with bosonic atoms in two different spin states. In this manuscript, we theoretically investigate dipolar bosons in a twisted bilayer geometry. The interplay between dipolar interaction and the twist between the layers results in the emergence of quantum states not observed in the absence of twist. We study how system properties vary as we change the twist angle at fixed distance between the layers and fixed dipolar interaction. We find that at a twist angle $\theta=0.1^{\circ}$, the observed quantum phases are consistent with those seen in the absence of twist angle, i.e. paired superfluid, paired supersolid, and paired solid phases. However, a slight increase in the twist angle to $\theta=0.2^{\circ}$ disrupts these paired phases in favor of a phase separation between checkerboard solid and superfluid regions. Notably, at a twist angle of $\theta=5.21^{\circ}$, the local occupation number follows the moir\'e pattern of the underlying moir\'e bilayers so that a periodic structure of insulating islands is formed. These insulating islands are surrounded by a superfluid.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 微調整基礎モデルによるマヤヒエログリフのセグメンテーション

Segmentation of Maya hieroglyphs through fine-tuned foundation models ( http://arxiv.org/abs/2405.16426v1 )

ライセンス: Link先を確認
FNU Shivam, Megan Leight, Mary Kate Kelly, Claire Davis, Kelsey Clodfelter, Jacob Thrasher, Yenumula Reddy, Prashnna Gyawali, (参考訳) マヤのヒエログリフ書の研究は、この古代文明の視覚的物語に埋め込まれた文化的・社会的知識の豊かな歴史を解き放つ。 人工知能(AI)は、これらの碑文を翻訳できる新しいレンズを提供しており、非特殊主義者がこれらのテキストを読めるようにし、包括的な解釈を継続するヒエログリフの解読を助けることができる。 そこで我々は,Mayaの人工物専用のオープンソースデジタルライブラリから,Mayaのヒエログリフをセグメントする基礎モデルを活用する。 一般に利用可能な基本セグメンテーションモデルの当初の約束にもかかわらず、マヤのヒエログリフを正確にセグメンテーションする効果は当初は限られていた。 この課題に対処するために、マヤの芸術と歴史の専門家の助けを借りて、画像とラベルのペアの厳密なキュレーションを行い、基礎モデルの微調整を可能にした。 このプロセスによりモデル性能が大幅に向上し、微調整アプローチの可能性と拡張データセットの価値が明らかになった。 我々は、このデータセットをオープンソース化して将来の研究を奨励し、最終的にはヒエログリフのテキストをより広いコミュニティ、特にマヤの遺産コミュニティのメンバにリーチできるようにする予定です。

The study of Maya hieroglyphic writing unlocks the rich history of cultural and societal knowledge embedded within this ancient civilization's visual narrative. Artificial Intelligence (AI) offers a novel lens through which we can translate these inscriptions, with the potential to allow non-specialists access to reading these texts and to aid in the decipherment of those hieroglyphs which continue to elude comprehensive interpretation. Toward this, we leverage a foundational model to segment Maya hieroglyphs from an open-source digital library dedicated to Maya artifacts. Despite the initial promise of publicly available foundational segmentation models, their effectiveness in accurately segmenting Maya hieroglyphs was initially limited. Addressing this challenge, our study involved the meticulous curation of image and label pairs with the assistance of experts in Maya art and history, enabling the fine-tuning of these foundational models. This process significantly enhanced model performance, illustrating the potential of fine-tuning approaches and the value of our expanding dataset. We plan to open-source this dataset for encouraging future research, and eventually to help make the hieroglyphic texts legible to a broader community, particularly for Maya heritage community members.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# CPsyCoun:中国の心理カウンセリングのためのマルチターン対話再構築と評価フレームワーク

CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling ( http://arxiv.org/abs/2405.16433v1 )

ライセンス: Link先を確認
Chenhao Zhang, Renhao Li, Minghuan Tan, Min Yang, Jingwei Zhu, Di Yang, Jiahao Zhao, Guancheng Ye, Chengming Li, Xiping Hu, Derek F. Wong, (参考訳) 心理学的カウンセリングを支援するために大きな言語モデル(LLM)を使用することは、現時点では重要だが難しい課題である。 LLMの治療において共感的会話を改善するか、効果的なアシスタントとして機能する試みがなされている。 しかし、既存のデータセットにはコンサルティングの知識が欠けており、LSMは専門的なコンサルティング能力に欠けていた。 さらに、カウンセリングプロセス内のマルチターン対話を自動的に評価する方法は、まだ未検討領域である。 このギャップを埋めるため,中国心理カウンセリングのためのレポートベースの多方向対話再構築・評価フレームワークであるCPsyCounを提案する。 心理カウンセリングレポートをフル活用するために,多ターン心理相談の効果的な自動評価のための総合評価ベンチマークを開発しながら,高品質な対話を構築するための2段階のアプローチを考案した。 比較実験の結果,心理学的カウンセリングにおける枠組みの有効性が示された。 我々は、将来の研究のためのデータセットとモデルをhttps://github.com/CAS-SIAT-XinHai/CPsyCounでオープンソース化した。

Using large language models (LLMs) to assist psychological counseling is a significant but challenging task at present. Attempts have been made on improving empathetic conversations or acting as effective assistants in the treatment with LLMs. However, the existing datasets lack consulting knowledge, resulting in LLMs lacking professional consulting competence. Moreover, how to automatically evaluate multi-turn dialogues within the counseling process remains an understudied area. To bridge the gap, we propose CPsyCoun, a report-based multi-turn dialogue reconstruction and evaluation framework for Chinese psychological counseling. To fully exploit psychological counseling reports, a two-phase approach is devised to construct high-quality dialogues while a comprehensive evaluation benchmark is developed for the effective automatic evaluation of multi-turn psychological consultations. Competitive experimental results demonstrate the effectiveness of our proposed framework in psychological counseling. We open-source the datasets and model for future research at https://github.com/CAS-SIAT-XinHai/CPsyCoun
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# LLMを用いた最適化における方向フィードバックの重要性

The Importance of Directional Feedback for LLM-based Optimizers ( http://arxiv.org/abs/2405.16434v1 )

ライセンス: Link先を確認
Allen Nie, Ching-An Cheng, Andrey Kolobov, Adith Swaminathan, (参考訳) 自然言語と数値フィードバックを用いてテキスト空間における最大化問題を解くための対話型オプティマイザとして,大規模言語モデル(LLM)を用いる可能性について検討する。 古典最適化の文献に触発されて、我々は自然言語のフィードバックを指向性および非指向性に分類し、前者は自然言語空間への一階フィードバックの一般化である。 指向性フィードバックが提供される場合, LLM は特に最適化可能であることがわかった。 この知見に基づいて,従来の最適化トレースから指向性フィードバックを合成し,繰り返しよりも信頼性の高い改善を実現するLLMベースのオプティマイザを設計する。 実験により, LLMに基づく最適化手法は, 数学的関数の最大化から詩の書き方への最適化に至るまで, 既存の手法と比較して, 最適化問題の解法において, より安定かつ効率的であることを示す。

We study the potential of using large language models (LLMs) as an interactive optimizer for solving maximization problems in a text space using natural language and numerical feedback. Inspired by the classical optimization literature, we classify the natural language feedback into directional and non-directional, where the former is a generalization of the first-order feedback to the natural language space. We find that LLMs are especially capable of optimization when they are provided with {directional feedback}. Based on this insight, we design a new LLM-based optimizer that synthesizes directional feedback from the historical optimization trace to achieve reliable improvement over iterations. Empirically, we show our LLM-based optimizer is more stable and efficient in solving optimization problems, from maximizing mathematical functions to optimizing prompts for writing poems, compared with existing techniques.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# グラフ学習のための構造認識型意味ノード識別器

Structure-aware Semantic Node Identifiers for Learning on Graphs ( http://arxiv.org/abs/2405.16435v1 )

ライセンス: Link先を確認
Yuankai Luo, Qijiong Liu, Lei Shi, Xiao-Ming Wu, (参考訳) 本稿では,ノードの記号表現として機能する,構造認識型セマンティックノード識別子(ID)を離散符号の短いシーケンス形式で生成する新しいグラフトークン化フレームワークを提案する。 ベクトル量子化を用いて,グラフニューラルネットワーク(GNN)の複数層からの連続ノード埋め込みを,自己教師付き学習パラダイムと教師付き学習パラダイムの両方の下で,コンパクトかつ有意義なコードに圧縮する。 その結果、ノードIDはグラフデータの高レベルな抽象化を捕捉し、GNNの効率性と解釈可能性を高める。 ノード分類、グラフ分類、リンク予測、属性付きグラフクラスタリングタスクを含む34のデータセットに関する広範な実験を通じて、生成したノードIDは計算効率を向上するだけでなく、現在の最先端手法と比較して競争性能も向上することを示した。

We present a novel graph tokenization framework that generates structure-aware, semantic node identifiers (IDs) in the form of a short sequence of discrete codes, serving as symbolic representations of nodes. We employs vector quantization to compress continuous node embeddings from multiple layers of a graph neural network (GNN), into compact, meaningful codes, under both self-supervised and supervised learning paradigms. The resulting node IDs capture a high-level abstraction of graph data, enhancing the efficiency and interpretability of GNNs. Through extensive experiments on 34 datasets, including node classification, graph classification, link prediction, and attributed graph clustering tasks, we demonstrate that our generated node IDs not only improve computational efficiency but also achieve competitive performance compared to current state-of-the-art methods.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# RLHFにおける過度な最適化:あなたのSFT損失は必然的に逆正則化器である

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer ( http://arxiv.org/abs/2405.16436v1 )

ライセンス: Link先を確認
Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, Zhaoran Wang, (参考訳) RLHFを介して人好みの生成モデルを調整することは、通常過度な最適化に悩まされ、不完全な学習された報酬モデルが生成モデルを誤導し、望ましくない応答を出力する。 本研究では,人間の嗜好の学習における分布変化と不確実性の一形態として,誤認識の源泉を同定し,この問題を原則的に検討する。 過度最適化を緩和するために、まず、逆選択された報酬モデルに対して最適なポリシーを選択する理論アルゴリズムを提案し、損失の最大推定と報酬の補償項を同時に最小化する。 ここでは、報酬報酬項を導入して、ポリシーがスパイラルな高いプロキシ報酬を持つアクションを選択するのを防ぎ、部分カバレッジスタイルの条件下でアルゴリズムの証明可能なサンプル効率を実現する。 理論から実践へと移行し、提案アルゴリズムはさらに等価だが驚くほど簡単に実装できる改革を享受する。 報酬モデルとそれに対応する最適ポリシーの等価性を用いて、アルゴリズムは以下のことを組み合わせた単純な目的を特徴付ける。 一 政策を直接人間の嗜好と整合させる選好最適化損失 (二)(好適な)ベースライン分布でポリシーを明示的に模倣した教師付き学習損失。 大規模言語モデル(LLM)の整合性において、この目的は直接選好最適化(DPO)損失とSFT損失とを融合させ、不必要な応答に対する過度な最適化を緩和し、アルゴリズムを正規化優先最適化(RPO)と呼ぶ。 LLMの配向実験は、DPOベースラインと比較してRPOの性能が向上したことを示している。 我々の研究は、LLMを理論的保証と経験的証拠の両方でチューニングする際の、選好最適化とSFTの相互作用に光を当てている。

Aligning generative models with human preference via RLHF typically suffers from overoptimization, where an imperfectly learned reward model can misguide the generative model to output undesired responses. We investigate this problem in a principled manner by identifying the source of the misalignment as a form of distributional shift and uncertainty in learning human preferences. To mitigate overoptimization, we first propose a theoretical algorithm that chooses the best policy for an adversarially chosen reward model; one that simultaneously minimizes the maximum likelihood estimation of the loss and a reward penalty term. Here, the reward penalty term is introduced to prevent the policy from choosing actions with spurious high proxy rewards, resulting in provable sample efficiency of the algorithm under a partial coverage style condition. Moving from theory to practice, the proposed algorithm further enjoys an equivalent but surprisingly easy-to-implement reformulation. Using the equivalence between reward models and the corresponding optimal policy, the algorithm features a simple objective that combines: (i) a preference optimization loss that directly aligns the policy with human preference, and (ii) a supervised learning loss that explicitly imitates the policy with a (suitable) baseline distribution. In the context of aligning large language models (LLM), this objective fuses the direct preference optimization (DPO) loss with the supervised fune-tuning (SFT) loss to help mitigate the overoptimization towards undesired responses, for which we name the algorithm Regularized Preference Optimization (RPO). Experiments of aligning LLMs demonstrate the improved performance of RPO compared with DPO baselines. Our work sheds light on the interplay between preference optimization and SFT in tuning LLMs with both theoretical guarantees and empirical evidence.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# ブラックボックス非教師付きドメイン適応のためのインクリメンタル擬似ラベル法

Incremental Pseudo-Labeling for Black-Box Unsupervised Domain Adaptation ( http://arxiv.org/abs/2405.16437v1 )

ライセンス: Link先を確認
Yawen Zou, Chunzhi Gu, Jun Yu, Shangce Gao, Chao Zhang, (参考訳) Black-Box unsupervised domain adaptation (BBUDA)は、ソースデータやソースモデルにアクセスせずにソースモデルからターゲットデータを予測することでのみ知識を学習し、データのプライバシとセキュリティに関する懸念を軽減する。 しかし、ソースモデルが生成した予測には、ドメイン間の相違が原因で、ターゲットモデルの性能が著しく低下する可能性があるため、誤った擬似ラベルが一般的である。 そこで本研究では,高信頼度擬似ラベルを漸進的に選択し,対象モデルの一般化能力を向上する手法を提案する。 具体的には、まずソースモデルを用いて擬似ラベルを生成し、バニラBBUDA法による粗目標モデルを訓練する。 第2に、ソフトマックス確率、プロトタイプラベル、クラス内類似度をしきい値にすることで、低信頼データプールから高信頼データを反復的に選択する。 そこで我々は、粗目標モデルに基づいてより強力なターゲットネットワークを反復的に訓練し、間違ったラベル付きサンプルを補正し、擬似ラベルの精度を向上させる。 実験により,提案手法は3つのベンチマークデータセット上で,最先端のブラックボックスによる教師なしドメイン適応性能を実現することを示した。

Black-Box unsupervised domain adaptation (BBUDA) learns knowledge only with the prediction of target data from the source model without access to the source data and source model, which attempts to alleviate concerns about the privacy and security of data. However, incorrect pseudo-labels are prevalent in the prediction generated by the source model due to the cross-domain discrepancy, which may substantially degrade the performance of the target model. To address this problem, we propose a novel approach that incrementally selects high-confidence pseudo-labels to improve the generalization ability of the target model. Specifically, we first generate pseudo-labels using a source model and train a crude target model by a vanilla BBUDA method. Second, we iteratively select high-confidence data from the low-confidence data pool by thresholding the softmax probabilities, prototype labels, and intra-class similarity. Then, we iteratively train a stronger target network based on the crude target model to correct the wrongly labeled samples to improve the accuracy of the pseudo-label. Experimental results demonstrate that the proposed method achieves state-of-the-art black-box unsupervised domain adaptation performance on three benchmark datasets.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 歩行者集団における実世界の非構造型社会ミニゲームにおける模倣学習に向けて

Towards Imitation Learning in Real World Unstructured Social Mini-Games in Pedestrian Crowds ( http://arxiv.org/abs/2405.16439v1 )

ライセンス: Link先を確認
Rohan Chandra, Haresh Karnan, Negar Mehr, Peter Stone, Joydeep Biswas, (参考訳) イミテーションラーニング(IL)戦略は、人間の軌道から学習することで、ロボットの動き計画とナビゲーションのためのポリシーを生成するために用いられる。 近年,大学キャンパス,レストラン,食料品店,病院などの都市環境に生じる社会的相互作用にILを適用することには,多くのワクワクがある。 しかし、社会設定で多くの専門家によるデモンストレーションを得ることは、高価、危険、あるいは不可能である可能性がある。 したがって、現在のアプローチでは、シミュレートされた社会的相互作用のシナリオのみに焦点を当てている。 ロボットは、現実のマルチエージェントの社会的相互作用シナリオから、専門家のデモを模倣する方法を学ぶことができるのか? ILメソッドがうまく機能し、どの仮定が必要なのかは、いまだに不明である。 テキサス州オースチン大学キャンパスで収集された新しい歩行者交差点データセットを用いて,行動計画タスクにおける実世界の社会的相互作用シナリオにおける代表的IL手法のベンチマークを行った。 第1に,密結合相互作用におけるエージェントの多様な動作モードの学習,第2に,部分状態情報に基づくIL手法の訓練の条件付け,シミュレーションにおけるグローバル情報の提供による模倣学習の改善,特に実世界の社会的相互作用シナリオにおいて,マルチエージェントコスト関数の学習が求められている。

Imitation Learning (IL) strategies are used to generate policies for robot motion planning and navigation by learning from human trajectories. Recently, there has been a lot of excitement in applying IL in social interactions arising in urban environments such as university campuses, restaurants, grocery stores, and hospitals. However, obtaining numerous expert demonstrations in social settings might be expensive, risky, or even impossible. Current approaches therefore, focus only on simulated social interaction scenarios. This raises the question: \textit{How can a robot learn to imitate an expert demonstrator from real world multi-agent social interaction scenarios}? It remains unknown which, if any, IL methods perform well and what assumptions they require. We benchmark representative IL methods in real world social interaction scenarios on a motion planning task, using a novel pedestrian intersection dataset collected at the University of Texas at Austin campus. Our evaluation reveals two key findings: first, learning multi-agent cost functions is required for learning the diverse behavior modes of agents in tightly coupled interactions and second, conditioning the training of IL methods on partial state information or providing global information in simulation can improve imitation learning, especially in real world social interaction scenarios.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# MambaTS: 長期連続予測のための選択的状態空間モデルの改善

MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting ( http://arxiv.org/abs/2405.16440v1 )

ライセンス: Link先を確認
Xiuding Cai, Yaoyao Zhu, Xueyao Wang, Yu Yao, (参考訳) 近年、トランスフォーマーは長期シーケンス予測(LTSF)のデファクトアーキテクチャとなっているが、二次複雑性や置換不変バイアスといった課題に直面している。 最近のモデルであるMambaは、選択状態空間モデル(SSM)をベースとして、Transformerに代わる競合モデルとして登場し、高いスループットとシーケンス長に関連する線形複雑性を備えた同等のパフォーマンスを提供する。 本研究では、LTSFにおける現在のMambaの限界を分析し、MambaTSに繋がる4つの改善点を提案する。 まず、変数の履歴情報をまとめるために変数スキャンを導入する。 LTSFでは,マンバの因果的畳み込みは不要であることが示唆され,テンポラルマンバブロック (TMB) を提案する。 さらに、モデルオーバーフィッティングを軽減するために、TMBの選択パラメータのドロップアウト機構を組み込んだ。 さらに、可変置換トレーニングを導入することで、可変スキャン順序感度の問題に取り組む。 さらに,学習中の変数関係を動的に検出する変数認識スキャンを提案し,推論中にすべてのノードを訪問する最短経路を解くことで最適な変数スキャン順序をデコードする。 8つの公開データセットで実施された大規模な実験は、MambaTSが新しい最先端のパフォーマンスを達成することを示す。

In recent years, Transformers have become the de-facto architecture for long-term sequence forecasting (LTSF), but faces challenges such as quadratic complexity and permutation invariant bias. A recent model, Mamba, based on selective state space models (SSMs), has emerged as a competitive alternative to Transformer, offering comparable performance with higher throughput and linear complexity related to sequence length. In this study, we analyze the limitations of current Mamba in LTSF and propose four targeted improvements, leading to MambaTS. We first introduce variable scan along time to arrange the historical information of all the variables together. We suggest that causal convolution in Mamba is not necessary for LTSF and propose the Temporal Mamba Block (TMB). We further incorporate a dropout mechanism for selective parameters of TMB to mitigate model overfitting. Moreover, we tackle the issue of variable scan order sensitivity by introducing variable permutation training. We further propose variable-aware scan along time to dynamically discover variable relationships during training and decode the optimal variable scan order by solving the shortest path visiting all nodes problem during inference. Extensive experiments conducted on eight public datasets demonstrate that MambaTS achieves new state-of-the-art performance.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 統計多様体上のカテゴリーフローマッチング

Categorical Flow Matching on Statistical Manifolds ( http://arxiv.org/abs/2405.16441v1 )

ライセンス: Link先を確認
Chaoran Cheng, Jiahan Li, Jian Peng, Ge Liu, (参考訳) 本稿では,情報幾何学の結果に触発されたパラメータ化確率測定の多様体上に,新しい,数学的に厳密なフローマッチングフレームワークである統計フローマッチング(SFM)を紹介する。 本研究では,従来の離散生成モデルでは探索されていない幾何学的性質を持つ分類分布の多様体上でSFMをインスタンス化することにより,離散生成問題に対する本手法の有効性を示す。 フィッシャー情報計量を利用すると、内在的な測地が測地学の最も短い経路に従うことによって効果的に活用されるリーマン構造を多様体に装備する。 我々は,多様体間の微分同相法を用いて,数値安定性問題を克服する効率的なトレーニングとサンプリングアルゴリズムを開発した。 統計多様体の特異な幾何学的視点は、訓練中に最適な輸送を適用し、SFMを自然勾配の最も急な方向に従って解釈することができる。 確率推定のために変分境界に依存する従来のモデルとは異なり、SFMは任意の確率測度に対する正確な確率計算を楽しんでいる。 我々は、SFMが、既存のモデルがしばしば失敗するような統計多様体上でより複雑なパターンを学習できることを示した。 画像,テキスト,生物学的領域などの実世界の生成タスクに関する総合的な実験は,SFMが他の離散拡散モデルやフローベースモデルよりも高いサンプリング品質と可能性を達成することをさらに証明している。

We introduce Statistical Flow Matching (SFM), a novel and mathematically rigorous flow-matching framework on the manifold of parameterized probability measures inspired by the results from information geometry. We demonstrate the effectiveness of our method on the discrete generation problem by instantiating SFM on the manifold of categorical distributions whose geometric properties remain unexplored in previous discrete generative models. Utilizing the Fisher information metric, we equip the manifold with a Riemannian structure whose intrinsic geometries are effectively leveraged by following the shortest paths of geodesics. We develop an efficient training and sampling algorithm that overcomes numerical stability issues with a diffeomorphism between manifolds. Our distinctive geometric perspective of statistical manifolds allows us to apply optimal transport during training and interpret SFM as following the steepest direction of the natural gradient. Unlike previous models that rely on variational bounds for likelihood estimation, SFM enjoys the exact likelihood calculation for arbitrary probability measures. We manifest that SFM can learn more complex patterns on the statistical manifold where existing models often fail due to strong prior assumptions. Comprehensive experiments on real-world generative tasks ranging from image, text to biological domains further demonstrate that SFM achieves higher sampling quality and likelihood than other discrete diffusion or flow-based models.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# オープン・エデュケーション・リソース(OER)システムの開発 : 比較分析と実践的アプローチ

Development of an open education resources (OER) system: a comparative analysis and implementation approach ( http://arxiv.org/abs/2405.16442v1 )

ライセンス: Link先を確認
Nimol Thuon, Wangrui Zhang, (参考訳) いくつかの機関は、非商業的な教育目的のために設計された新しいWebベースのオープン教育資源(OER)システムの開発に協力している。 このイニシアチブは、多様なユーザプロファイルにわたるユーザエクスペリエンスを最適化するOERシステムの構築を目的とした、綿密な研究によって支えられている。 オープンソースツール、フレームワーク、テクノロジの利用に重点を置いている。 このプロジェクトには、LMS(Learning Management Systems)のトップ5の比較分析が含まれている。 主な目的は、情報とコミュニケーション技術を活用して、非商業ユーザーのための教育資源の共有を容易にするWebベースのシステムを作ることである。 プロジェクトは研究チームと開発チームという,2つの重要なチームで構成されています。 この包括的アプローチは、既存のプラットフォームからの洞察と、オープン教育リソース開発における最新の進歩から情報を得た、堅牢でユーザ中心のOERシステムを確立することを目的としている。

Several institutions are collaborating on the development of a new web-based Open Education Resources (OER) system designed exclusively for non-commercial educational purposes. This initiative is underpinned by meticulous research aimed at constructing an OER system that optimizes user experiences across diverse user profiles. A significant emphasis is placed on utilizing open-source tools, frameworks, and technologies. The project includes a comparative analysis of the top five open-source Learning Management Systems (LMS), providing critical insights to inform the development process. The primary objective is to create a web-based system that facilitates the sharing of educational resources for non-commercial users, leveraging information and communication technologies. The project is structured around two key teams: a research team and a development team. This comprehensive approach is intended to establish a robust, user-centric OER system, informed by insights from existing platforms and the latest advancements in open education resource development.
翻訳日:2024-05-28 21:18:20 公開日:2024-05-26
# 画像美学改善のための3次元ビュー最適化

3D View Optimization for Improving Image Aesthetics ( http://arxiv.org/abs/2405.16443v1 )

ライセンス: Link先を確認
Taichi Uchida, Yoshihiro Kanamori, Yuki Endo, (参考訳) 写真撮影を美的に喜ばせるためには、構成や捕獲条件など、複数の要素に注意が必要である。 従来の研究では、2次元操作技術による撮影後の美学の強化が検討されてきたが、これらの手法は美学の検索スペースを限定している。 本稿では,3次元操作を応用した先駆的手法を提案する。 提案手法は, 入力画像の補間を行い, そして外挿画像から3Dシーンを再構成し, カメラパラメータと画像アスペクト比を同定し, 審美性を高めて最高の3Dビューが得られるように最適化する。 比較定性的,定量的評価により,従来の2次元編集技術よりも優れた審美性を有することが明らかとなった。

Achieving aesthetically pleasing photography necessitates attention to multiple factors, including composition and capture conditions, which pose challenges to novices. Prior research has explored the enhancement of photo aesthetics post-capture through 2D manipulation techniques; however, these approaches offer limited search space for aesthetics. We introduce a pioneering method that employs 3D operations to simulate the conditions at the moment of capture retrospectively. Our approach extrapolates the input image and then reconstructs the 3D scene from the extrapolated image, followed by an optimization to identify camera parameters and image aspect ratios that yield the best 3D view with enhanced aesthetics. Comparative qualitative and quantitative assessments reveal that our method surpasses traditional 2D editing techniques with superior aesthetics.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# CacheBlend: キャッシュされた知識融合を備えた高速な大規模言語モデル

CacheBlend: Fast Large Language Model Serving with Cached Knowledge Fusion ( http://arxiv.org/abs/2405.16444v1 )

ライセンス: Link先を確認
Jiayi Yao, Hanchen Li, Yuhan Liu, Siddhant Ray, Yihua Cheng, Qizheng Zhang, Kuntai Du, Shan Lu, Junchen Jiang, (参考訳) 大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。 長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。 しかし、再利用されたテキストチャンクは必ずしも入力プレフィックスではなく、もしそうでない場合、それらのプリ計算されたKVキャッシュは、LCM入力の前のテキストとの相互アテンションを無視しているため、直接使用できない。 したがって、KVキャッシュの再利用の利点は、ほとんど実現されていない。 LLM入力に複数のテキストチャンクが含まれている場合、高価なプリフィル(すなわち、KVキャッシュを再利用せずに)と同世代の品質を達成するために、事前に計算したKVキャッシュを迅速に組み合わせるにはどうすればよいか? 我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。 一方、いくつかのトークンを再計算するための小さな遅延は、同じジョブ内でKVキャッシュを検索することでパイプライン化され、CacheBlendはKVキャッシュをより多くのストレージ容量を持つ遅いデバイスに保存でき、推論遅延を増大させることなく取り出すことができる。 CacheBlendと、さまざまなサイズの3つのオープンソースLCMと4つの一般的なベンチマークデータセットのKVキャッシュ再利用スキームを比較して、CacheBlendは2.2-3.3Xのタイム・ツー・ファースト・トケン(TTFT)を削減し、推論スループットを2.8-5Xに向上することを示した。

Large language models (LLMs) often incorporate multiple text chunks in their inputs to provide the necessary contexts. To speed up the prefill of the long LLM inputs, one can pre-compute the KV cache of a text and re-use the KV cache when the context is reused as the prefix of another LLM input. However, the reused text chunks are not always the input prefix, and when they are not, their precomputed KV caches cannot be directly used since they ignore the text's cross-attention with the preceding text in the LLM input. Thus, the benefits of reusing KV caches remain largely unrealized. This paper tackles just one question: when an LLM input contains multiple text chunks, how to quickly combine their precomputed KV caches in order to achieve the same generation quality as the expensive full prefill (i.e., without reusing KV cache)? We present CacheBlend, a scheme that reuses the pre-computed KV caches, regardless prefix or not, and selectively recomputes the KV values of a small subset of tokens to partially update each reused KV cache. In the meantime,the small extra delay for recomputing some tokens can be pipelined with the retrieval of KV caches within the same job,allowing CacheBlend to store KV caches in slower devices with more storage capacity while retrieving them without increasing the inference delay. By comparing CacheBlend with the state-of-the-art KV cache reusing schemes on three open-source LLMs of various sizes and four popular benchmark datasets of different tasks, we show that CacheBlend reduces time-to-first-token (TTFT) by 2.2-3.3X and increases the inference throughput by 2.8-5X, compared with full KV recompute, without compromising generation quality or incurring more storage cost.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 大規模カーネルクラスタリングのための高速非対称因子化

Fast Asymmetric Factorization for Large Scale Multiple Kernel Clustering ( http://arxiv.org/abs/2405.16447v1 )

ライセンス: Link先を確認
Yan Chen, Liang Du, Lei Duan, (参考訳) カーネル法は、非線形データクラスタリングに広く用いられているが、その有効性は、適切なカーネルと関連するパラメータの選択に大きく依存し、事前決定の課題を提起する。 これに対して、MKC(Multiple Kernel Clustering)は、クラスタリングのための複数のベースカーネルからの情報の融合を可能にするソリューションとして登場した。 しかし、大規模なMKCのための早期融合法と後期融合法は、メモリと時間制約の課題に遭遇し、両方の側面を同時に最適化する必要がある。 この問題に対処するために,ローカル回帰にインスパイアされた新しいスパースカーネル行列を構築し,メモリ効率を実現するEMKCF(Efficient Multiple Kernel Concept Factorization)を提案する。 EMKCFは、時間効率のために複数のカーネルを扱うために直交的な概念因子化を拡張することで、コンセンサスと個々の表現を学習する。 ベンチマークデータセットにおけるEMKCFの有効性と有効性を示す実験結果を得た。 提案手法は、大規模MKCタスクに対して、単純でスケーラブルで効果的なソリューションを提供する。

Kernel methods are extensively employed for nonlinear data clustering, yet their effectiveness heavily relies on selecting suitable kernels and associated parameters, posing challenges in advance determination. In response, Multiple Kernel Clustering (MKC) has emerged as a solution, allowing the fusion of information from multiple base kernels for clustering. However, both early fusion and late fusion methods for large-scale MKC encounter challenges in memory and time constraints, necessitating simultaneous optimization of both aspects. To address this issue, we propose Efficient Multiple Kernel Concept Factorization (EMKCF), which constructs a new sparse kernel matrix inspired by local regression to achieve memory efficiency. EMKCF learns consensus and individual representations by extending orthogonal concept factorization to handle multiple kernels for time efficiency. Experimental results demonstrate the efficiency and effectiveness of EMKCF on benchmark datasets compared to state-of-the-art methods. The proposed method offers a straightforward, scalable, and effective solution for large-scale MKC tasks.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# ジャンプ拡散のための強化学習

Reinforcement Learning for Jump-Diffusions ( http://arxiv.org/abs/2405.16449v1 )

ライセンス: Link先を確認
Xuefeng Gao, Lingfei Li, Xun Yu Zhou, (参考訳) 本研究では,システムダイナミクスがジャンプ拡散過程によって制御される確率制御のための連続時間強化学習(RL)について検討する。 エントロピー規則化探索制御問題を確率的ポリシで定式化し,RLに必要な探索-探索バランスを把握した。 Wang et al (2020) が最初に研究した純粋な拡散の場合とは異なり、ジャンプ拡散の下での探索力学の導出はジャンプ部分の慎重に定式化を要求する。 理論解析により,Jia と Zhou (2022a, 2023) において,元来, 制御拡散のために開発された同一のポリシ評価とq-ラーニングアルゴリズムを, 基礎となるデータが純粋な拡散かジャンプ拡散かを事前に確認することなく, 簡単に利用できることがわかった。 しかし,ジャンプの存在は一般の俳優や批評家のパラメータ化に影響を及ぼすべきであることを示す。 最後に, 株価をジャンプ拡散としてモデル化した平均分散ポートフォリオ選択問題を応用として検討し, RLアルゴリズムとパラメータ化の両方がジャンプに関して不変であることを示す。

We study continuous-time reinforcement learning (RL) for stochastic control in which system dynamics are governed by jump-diffusion processes. We formulate an entropy-regularized exploratory control problem with stochastic policies to capture the exploration--exploitation balance essential for RL. Unlike the pure diffusion case initially studied by Wang et al. (2020), the derivation of the exploratory dynamics under jump-diffusions calls for a careful formulation of the jump part. Through a theoretical analysis, we find that one can simply use the same policy evaluation and q-learning algorithms in Jia and Zhou (2022a, 2023), originally developed for controlled diffusions, without needing to check a priori whether the underlying data come from a pure diffusion or a jump-diffusion. However, we show that the presence of jumps ought to affect parameterizations of actors and critics in general. Finally, we investigate as an application the mean-variance portfolio selection problem with stock price modelled as a jump-diffusion, and show that both RL algorithms and parameterizations are invariant with respect to jumps.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 大規模言語モデルガイド検索によるプログラム強化学習ポリシーの合成

Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search ( http://arxiv.org/abs/2405.16450v1 )

ライセンス: Link先を確認
Max Liu, Chan-Hung Yu, Wei-Hsu Lee, Cheng-Wei Hung, Yen-Chun Chen, Shao-Hua Sun, (参考訳) プログラム強化学習(PRL)は、解釈可能性と一般化を達成する手段として、プログラムを通してポリシーを表現するために研究されている。 有望な結果にもかかわらず、現在の最先端のPRL手法はサンプルの不効率によって妨げられ、数千万のプログラム環境相互作用を必要とする。 この課題に対処するために,新しいLLM誘導検索フレームワーク(LLM-GS)を導入する。 我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。 LLMがPython-DSL戦略を提案し、ドメイン固有言語(DSL)で正確で文法的に正しいプログラムを生成することができないという課題に対処する。 LLM生成プログラムをさらに最適化するために,プログラム探索空間を効率よく探索し,一貫したプログラム改善を図ったSchduled Hill Climbingという検索アルゴリズムを開発した。 実験結果から, LLM-GS フレームワークの有効性と有効性を示した。 大規模なアブレーション研究により、Pythonic-DSL戦略とスケジューリングヒルクライミングアルゴリズムの重要な役割がさらに検証される。

Programmatic reinforcement learning (PRL) has been explored for representing policies through programs as a means to achieve interpretability and generalization. Despite promising outcomes, current state-of-the-art PRL methods are hindered by sample inefficiency, necessitating tens of millions of program-environment interactions. To tackle this challenge, we introduce a novel LLM-guided search framework (LLM-GS). Our key insight is to leverage the programming expertise and common sense reasoning of LLMs to enhance the efficiency of assumption-free, random-guessing search methods. We address the challenge of LLMs' inability to generate precise and grammatically correct programs in domain-specific languages (DSLs) by proposing a Pythonic-DSL strategy - an LLM is instructed to initially generate Python codes and then convert them into DSL programs. To further optimize the LLM-generated programs, we develop a search algorithm named Scheduled Hill Climbing, designed to efficiently explore the programmatic search space to consistently improve the programs. Experimental results in the Karel domain demonstrate the superior effectiveness and efficiency of our LLM-GS framework. Extensive ablation studies further verify the critical role of our Pythonic-DSL strategy and Scheduled Hill Climbing algorithm.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# マクロからマイクロへ:マクロ表現ビデオの事前学習によるマイクロ圧縮認識の促進

From Macro to Micro: Boosting micro-expression recognition via pre-training on macro-expression videos ( http://arxiv.org/abs/2405.16451v1 )

ライセンス: Link先を確認
Hanting Li, Hongjing Niu, Feng Zhao, (参考訳) マイクロ圧縮認識(MER)は、インテリジェント医療や嘘検出に応用される可能性があるため、近年注目を集めている。 しかし、注釈付きデータの不足は、深層学習に基づくMER法をさらに改善する大きな障害となっている。 直感的には、MER性能を促進するのに十分なマクロ表現データを活用することは、実現可能な解決策であると思われる。 しかし, マクロ表現とマイクロ表現の顔パターンは大きく異なり, 直接展開が困難である。 この問題に対処するため, 一般化された伝達学習パラダイムである \textbf{MA}cro-expression \textbf{TO} \textbf{MI}cro-expression (MA2MI) を提案する。 我々のパラダイムでは、ネットワークは将来のフレームを再構築することで、微妙な顔の動きを表現する能力を学ぶことができる。 さらに、顔位置と顔動作の特徴を分離する2分岐マイクロアクションネットワーク(MIACNet)も提案する。 3つのMERベンチマークの大規模な実験により,本手法の優位性を実証した。

Micro-expression recognition (MER) has drawn increasing attention in recent years due to its potential applications in intelligent medical and lie detection. However, the shortage of annotated data has been the major obstacle to further improve deep-learning based MER methods. Intuitively, utilizing sufficient macro-expression data to promote MER performance seems to be a feasible solution. However, the facial patterns of macro-expressions and micro-expressions are significantly different, which makes naive transfer learning methods difficult to deploy directly. To tacle this issue, we propose a generalized transfer learning paradigm, called \textbf{MA}cro-expression \textbf{TO} \textbf{MI}cro-expression (MA2MI). Under our paradigm, networks can learns the ability to represent subtle facial movement by reconstructing future frames. In addition, we also propose a two-branch micro-action network (MIACNet) to decouple facial position features and facial action features, which can help the network more accurately locate facial action locations. Extensive experiments on three popular MER benchmarks demonstrate the superiority of our method.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 高次元状態空間におけるインクリメンタル非パラメトリック推論のためのスライス視点

A Slices Perspective for Incremental Nonparametric Inference in High Dimensional State Spaces ( http://arxiv.org/abs/2405.16453v1 )

ライセンス: Link先を確認
Moshe Shienman, Ohad Levy-Or, Michael Kaess, Vadim Indelman, (参考訳) 本研究では,高次元状態空間における漸進的非パラメトリック確率推定法を提案する。 提案手法は,高次元表面からのスライスを利用して,任意の形状の後方分布を効率的に近似する。 既存のグラフベースの方法とは異なり、我々の \slices パースペクティブは追加の中間再構成の必要性を排除し、後方分布のより正確な表現を維持する。 さらに、精度と効率のバランスをとるための新しいヒューリスティックを提案し、非パラメトリックシナリオでのリアルタイム操作を可能にする。 人工的および実世界のデータセットに関する実証的な評価では、我々の‘slices’アプローチは、他の最先端の手法よりも一貫して優れています。 精度が優れており、しばしば桁違いに計算複雑性が大幅に減少する。

We introduce an innovative method for incremental nonparametric probabilistic inference in high-dimensional state spaces. Our approach leverages \slices from high-dimensional surfaces to efficiently approximate posterior distributions of any shape. Unlike many existing graph-based methods, our \slices perspective eliminates the need for additional intermediate reconstructions, maintaining a more accurate representation of posterior distributions. Additionally, we propose a novel heuristic to balance between accuracy and efficiency, enabling real-time operation in nonparametric scenarios. In empirical evaluations on synthetic and real-world datasets, our \slices approach consistently outperforms other state-of-the-art methods. It demonstrates superior accuracy and achieves a significant reduction in computational complexity, often by an order of magnitude.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# RLHFを用いた大規模言語モデルのアルゴリズム的バイアスについて: 優先分解と正規化の整合性

On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization ( http://arxiv.org/abs/2405.16455v1 )

ライセンス: Link先を確認
Jiancong Xiao, Ziniu Li, Xingyu Xie, Emily Getzen, Cong Fang, Qi Long, Weijie J. Su, (参考訳) 大規模言語モデル(LLM)と人間の嗜好を正確に整合させることは、公正で経済的に健全で統計的に効率的な意思決定プロセスを実現する上で不可欠である。 しかしながら、人間フィードバックからの強化学習(RLHF)は、報酬モデルを通じてLLMと人間の嗜好を整合させる主要なアプローチであり、最適化におけるKulback-Leiblerベースの正規化による固有のアルゴリズムバイアスに悩まされていると論じる。 極端な場合、この偏見は、少数派の嗜好が事実上無視される、選好崩壊と呼ばれる現象につながる可能性がある。 このアルゴリズムバイアスを軽減するために、Bradley-Terry-Terry--Luce/Plackett--Luceモデルの下でLLMを優先分布に整合させる新しい手法であるRLHF(RLHF)を導入する。 我々のアプローチの中心となるPM正則化器は、LLMの応答に対するポリシー確率分布の負の対数という形で、LLMのバランス応答の多様化と報酬の最大化に役立つ。 特に、PM特性に必要となる通常の微分方程式を解くことで、この正規化子を得る。 本稿では,自然言語生成に適した条件付きPM RLHFを提案する。 最後に,OPT-1.3BモデルとLlama-2-7Bモデルを用いた実験により,条件PM RLHFの有効性を実証的に検証した。

Accurately aligning large language models (LLMs) with human preferences is crucial for informing fair, economically sound, and statistically efficient decision-making processes. However, we argue that reinforcement learning from human feedback (RLHF) -- the predominant approach for aligning LLMs with human preferences through a reward model -- suffers from an inherent algorithmic bias due to its Kullback--Leibler-based regularization in optimization. In extreme cases, this bias could lead to a phenomenon we term preference collapse, where minority preferences are virtually disregarded. To mitigate this algorithmic bias, we introduce preference matching (PM) RLHF, a novel approach that provably aligns LLMs with the preference distribution of the reward model under the Bradley--Terry--Luce/Plackett--Luce model. Central to our approach is a PM regularizer that takes the form of the negative logarithm of the LLM's policy probability distribution over responses, which helps the LLM balance response diversification and reward maximization. Notably, we obtain this regularizer by solving an ordinary differential equation that is necessary for the PM property. For practical implementation, we introduce a conditional variant of PM RLHF that is tailored to natural language generation. Finally, we empirically validate the effectiveness of conditional PM RLHF through experiments on the OPT-1.3B and Llama-2-7B models, demonstrating a 29% to 41% improvement in alignment with human preferences, as measured by a certain metric, compared to standard RLHF.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# Dominant Shuffle: 時系列予測のためのシンプルだが強力なデータ拡張

Dominant Shuffle: A Simple Yet Powerful Data Augmentation for Time-series Prediction ( http://arxiv.org/abs/2405.16456v1 )

ライセンス: Link先を確認
Kai Zhao, Zuojie He, Alex Hung, Dan Zeng, (参考訳) 近年の研究では、周波数領域データ拡張(DA)が時系列予測に有効であることが示唆されている。 既存の周波数領域拡張は、様々なフルスペクトルノイズで元のデータを妨害し、拡張されたデータと元のデータの間に余分な領域ギャップを生じさせる。 しかし,周波数領域 DA は時系列予測データセットにはまだ一般化されていない。 本稿では,周波数領域の増大が,摂動を制限する2つの修正によって著しく改善できることを見出した。 第一に、摂動を支配周波数のみに制限することはフルスペクトル摂動を著しく上回ることがわかった。 支配的な周波数は信号の主な周期性と傾向を表し、他の周波数よりも重要である。 第二に、主周波数成分のシャッフルは、高度に設計されたランダムな摂動よりも優れていることを発見した。 Shuffleは元のコンポーネント(マグニチュードとフェーズ)を再配置し、外部ノイズを制限する。 これら2つの修正により、時系列予測のための単純で効果的なデータ拡張である支配的なシャッフルを提案した。 私たちのメソッドは非常にシンプルで強力で、ほんの数行のコードで実装できます。 8つのデータセットと6つの一般的な時系列モデルによる大規模な実験により、我々の手法は、様々な設定下でのベースライン性能を一貫して改善し、他のDA手法よりも大幅に向上することを示した。 コードはhttps://kaizhao.net/time-seriesでアクセスすることができる。

Recent studies have suggested frequency-domain Data augmentation (DA) is effec tive for time series prediction. Existing frequency-domain augmentations disturb the original data with various full-spectrum noises, leading to excess domain gap between augmented and original data. Although impressive performance has been achieved in certain cases, frequency-domain DA has yet to be generalized to time series prediction datasets. In this paper, we found that frequency-domain augmentations can be significantly improved by two modifications that limit the perturbations. First, we found that limiting the perturbation to only dominant frequencies significantly outperforms full-spectrum perturbations. Dominant fre quencies represent the main periodicity and trends of the signal and are more important than other frequencies. Second, we found that simply shuffling the dominant frequency components is superior over sophisticated designed random perturbations. Shuffle rearranges the original components (magnitudes and phases) and limits the external noise. With these two modifications, we proposed dominant shuffle, a simple yet effective data augmentation for time series prediction. Our method is very simple yet powerful and can be implemented with just a few lines of code. Extensive experiments with eight datasets and six popular time series models demonstrate that our method consistently improves the baseline performance under various settings and significantly outperforms other DA methods. Code can be accessed at https://kaizhao.net/time-series.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# ハイパースフィアへの明示的な集中による確率論的コントラスト学習

Probabilistic Contrastive Learning with Explicit Concentration on the Hypersphere ( http://arxiv.org/abs/2405.16460v1 )

ライセンス: Link先を確認
Hongwei Bran Li, Cheng Ouyang, Tamaz Amiranashvili, Matthew S. Rosen, Bjoern Menze, Juan Eugenio Iglesias, (参考訳) 自己指導型コントラスト学習は主に決定論的手法を採用しており、不確実性とノイズを特徴とする環境には適していない。 本稿では,von Mises-Fisher分布(vMF)にインスパイアされた球面空間に表現を埋め込むことにより,不確実性を対照的な学習に組み込む新しい視点を提案する。 我々は、不規則な vMF の非正規化形式を導入し、不確かさを明示的に定量化するために、直接解釈可能な指標として、濃度パラメータ kappa を利用する。 このアプローチは、埋め込み空間の確率論的解釈を提供するだけでなく、様々なレベルのデータ破損や特性に対してモデルの信頼性を校正する方法を提供する。 実験の結果, 推定濃度パラメータは, テスト時に発生する予期せぬデータ破損の程度と強く相関し, 故障解析が可能であり, 既存のアウト・オブ・ディストリビューション検出手法の強化を図っている。

Self-supervised contrastive learning has predominantly adopted deterministic methods, which are not suited for environments characterized by uncertainty and noise. This paper introduces a new perspective on incorporating uncertainty into contrastive learning by embedding representations within a spherical space, inspired by the von Mises-Fisher distribution (vMF). We introduce an unnormalized form of vMF and leverage the concentration parameter, kappa, as a direct, interpretable measure to quantify uncertainty explicitly. This approach not only provides a probabilistic interpretation of the embedding space but also offers a method to calibrate model confidence against varying levels of data corruption and characteristics. Our empirical results demonstrate that the estimated concentration parameter correlates strongly with the degree of unforeseen data corruption encountered at test time, enables failure analysis, and enhances existing out-of-distribution detection methods.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# マルチモードUAV検出・分類・追跡アルゴリズム --CVPR 2024 UG2チャレンジの技術的報告

Multi-Modal UAV Detection, Classification and Tracking Algorithm -- Technical Report for CVPR 2024 UG2 Challenge ( http://arxiv.org/abs/2405.16464v1 )

ライセンス: Link先を確認
Tianchen Deng, Yi Zhou, Wenhua Wu, Mingrui Li, Jingwei Huang, Shuhong Liu, Yanzeng Song, Hao Zuo, Yanbo Wang, Yutao Yue, Hesheng Wang, Weidong Chen, (参考訳) 本技術報告では, CVPR 2024 UAV追跡・ポス推定チャレンジにおける課題であるUG2+の初勝利モデルを示す。 この課題は、ステレオビジョン、様々なライダー、レーダー、オーディオアレイを含むマルチモーダルセンサー情報を含む、極端な気象条件下でのドローン検出、UAVタイプの分類、および2D/3D軌道推定の困難に直面している。 この情報を活用することで、正確なUAV分類と追跡のためのマルチモーダルなUAV検出、分類、および3D追跡手法を提案する。 シーケンシャルフュージョン、関心領域(ROI)、キーフレーム選択を組み込んだ新しい分類パイプラインを提案する。 本システムでは,最先端の分類手法と高度な後処理手順を統合し,精度と堅牢性を向上する。 設計されたポーズ推定パイプラインには、動的ポイント解析、多目的トラッカー、軌道完了技術という3つのモジュールが組み込まれている。 大規模な実験により、我々のアプローチの有効性と精度が検証された。 また,新しいデータセット前処理手法を提案し,設計のための包括的アブレーション研究を行う。 最終的に、MMUADデータセットの分類と追跡において、最高のパフォーマンスを達成しました。 私たちのメソッドのコードと設定はhttps://github.com/dtc1111/Multi-Modal-UAV.comで公開されています。

This technical report presents the 1st winning model for UG2+, a task in CVPR 2024 UAV Tracking and Pose-Estimation Challenge. This challenge faces difficulties in drone detection, UAV-type classification and 2D/3D trajectory estimation in extreme weather conditions with multi-modal sensor information, including stereo vision, various Lidars, Radars, and audio arrays. Leveraging this information, we propose a multi-modal UAV detection, classification, and 3D tracking method for accurate UAV classification and tracking. A novel classification pipeline which incorporates sequence fusion, region of interest (ROI) cropping, and keyframe selection is proposed. Our system integrates cutting-edge classification techniques and sophisticated post-processing steps to boost accuracy and robustness. The designed pose estimation pipeline incorporates three modules: dynamic points analysis, a multi-object tracker, and trajectory completion techniques. Extensive experiments have validated the effectiveness and precision of our approach. In addition, we also propose a novel dataset pre-processing method and conduct a comprehensive ablation study for our design. We finally achieved the best performance in the classification and tracking of the MMUAD dataset. The code and configuration of our method are available at https://github.com/dtc111111/Multi-Modal-UAV.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# O(L)$トレーニングメモリと$O(1)$推論コストを備えた高性能時間反転スパイクニューラルネットワーク

High-Performance Temporal Reversible Spiking Neural Networks with $O(L)$ Training Memory and $O(1)$ Inference Cost ( http://arxiv.org/abs/2405.16466v1 )

ライセンス: Link先を確認
JiaKui Hu, Man Yao, Xuerui Qiu, Yuhong Chou, Yuxuan Cai, Ning Qiao, Yonghong Tian, Bo XU, Guoqi Li, (参考訳) 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)のマルチステップシミュレーションにより、トレーニング中のメモリ要求が増加し、推論エネルギーコストが向上する。 現在の訓練方法は、トレーニングと推論の両方のジレンマを同時に解決することはできない。 本研究では,SNNの前方伝播を変化させることで,学習課題と推論課題を協調的に解決する,新しいT-RevSNN(T-RevSNN)を提案する。 我々は、ほとんどのスパイキングニューロンの時間的ダイナミクスをオフにし、テンポラルターンオンスパイキングニューロンにおける多段階の時間的可逆相互作用を設計し、その結果、O(L)$トレーニングメモリとなる。 時間的可逆性と組み合わせて、SNNの入力エンコーディングとネットワーク構成を再設計し、$O(1)$推論エネルギーコストを実現する。 そして, 基本SNNブロックの内部ユニットと残余接続を微調整し, 疎時間情報相互作用の有効性を確かめる。 T-RevSNNはImageNet上で優れた精度を実現し、メモリ効率、トレーニングタイムアクセラレーション、推論エネルギー効率は、それぞれ8.6 \times$、$2.0 \times$、$.6 \times$で大幅に改善できる。 この研究は、大規模SNNのメモリコストとトレーニング時間を大幅に増加させ、高い性能と低推論エネルギーコストを維持しながら技術的ボトルネックを突破すると予想されている。 ソースコードとモデルについては、https://github.com/BICLab/T-RevSNNを参照。

Multi-timestep simulation of brain-inspired Spiking Neural Networks (SNNs) boost memory requirements during training and increase inference energy cost. Current training methods cannot simultaneously solve both training and inference dilemmas. This work proposes a novel Temporal Reversible architecture for SNNs (T-RevSNN) to jointly address the training and inference challenges by altering the forward propagation of SNNs. We turn off the temporal dynamics of most spiking neurons and design multi-level temporal reversible interactions at temporal turn-on spiking neurons, resulting in a $O(L)$ training memory. Combined with the temporal reversible nature, we redesign the input encoding and network organization of SNNs to achieve $O(1)$ inference energy cost. Then, we finely adjust the internal units and residual connections of the basic SNN block to ensure the effectiveness of sparse temporal information interaction. T-RevSNN achieves excellent accuracy on ImageNet, while the memory efficiency, training time acceleration, and inference energy efficiency can be significantly improved by $8.6 \times$, $2.0 \times$, and $1.6 \times$, respectively. This work is expected to break the technical bottleneck of significantly increasing memory cost and training time for large-scale SNNs while maintaining high performance and low inference energy cost. Source code and models are available at: https://github.com/BICLab/T-RevSNN.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 周波数拡張状態空間モデルによる画像評価

Image Deraining with Frequency-Enhanced State Space Model ( http://arxiv.org/abs/2405.16470v1 )

ライセンス: Link先を確認
Shugo Yamashita, Masaaki Ikehara, (参考訳) 画像中の雨物の除去は重要な問題として認識されている。 この分野では、畳み込みニューラルネットワーク(CNN)やトランスフォーマーといったディープラーニングベースのアプローチが成功している。 近年、ステートスペースモデル(SSM)は、自然言語処理と画像処理の両方において、長距離依存をモデル化する能力により、様々なタスクにおいて優れた性能を示した。 本研究では,SSMを降雨除去に適用し,DFSSM(Deraining Frequency-Enhanced State Space Model)を提案する。 特定の方向に高強度の周波数成分を発生させる雨害を効果的に除去するために,SSMと並列に周波数領域処理を用いる。 さらに,複数のカーネルサイズを持つ畳み込みを用いて様々なスケールの劣化を効果的に捕捉し,情報の流れを管理するゲーティング機構を統合する,新しい混合スケールゲート畳み込みブロックを開発した。 最後に,合成および実世界の雨天画像データセットを用いた実験により,本手法が最先端の手法を超越していることが判明した。

Removing rain artifacts in images is recognized as a significant issue. In this field, deep learning-based approaches, such as convolutional neural networks (CNNs) and Transformers, have succeeded. Recently, State Space Models (SSMs) have exhibited superior performance across various tasks in both natural language processing and image processing due to their ability to model long-range dependencies. This study introduces SSM to rain removal and proposes a Deraining Frequency-Enhanced State Space Model (DFSSM). To effectively remove rain streaks, which produce high-intensity frequency components in specific directions, we employ frequency domain processing concurrently with SSM. Additionally, we develop a novel mixed-scale gated-convolutional block, which uses convolutions with multiple kernel sizes to capture various scale degradations effectively and integrates a gating mechanism to manage the flow of information. Finally, experiments on synthetic and real-world rainy image datasets show that our method surpasses state-of-the-art methods.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 構造化非IIDフェデレーション学習のための多層付加モデル

Multi-Level Additive Modeling for Structured Non-IID Federated Learning ( http://arxiv.org/abs/2405.16472v1 )

ライセンス: Link先を確認
Shutong Chen, Tianyi Zhou, Guodong Long, Jie Ma, Jing Jiang, Chengqi Zhang, (参考訳) フェデレートラーニング(FL)における最大の課題は、知識共有を改善するために、きめ細かい構造が重要であるクライアント間の非IID分布をモデル化することである。 例えば、ある知識はグローバルにすべてのクライアントで共有され、ある知識はクライアントのサブグループ内でのみ転送可能であり、ある知識はクライアント固有のものです。 この構造を捕捉し、活用するために、異種クライアント間の知識共有とパーソナライゼーションを改善するために、'Multi-level Additive Models (MAM)'と呼ばれるマルチレベル構造で編成されたモデルを訓練する。 フェデレートMAM(FeMAM)では、各クライアントは各レベル毎に少なくとも1つのモデルに割り当てられ、そのパーソナライズされた予測は、各レベルに割り当てられたモデルの出力を合計する。 トップレベルでは、FeMAMはFedAvgとしてすべてのクライアントが共有するグローバルモデル1つをトレーニングします。 各中間レベルにおいて、クラスタ化されたFLとして、クライアントのサブグループに割り当てられた複数のモデルを学ぶ。 すべてのボトムレベルモデルは、1つのクライアントでのみトレーニングされます。 トレーニング目標では、各モデルは、各クライアントに割り当てられた他のモデルによる追加予測の残余を最小限にすることを目的としている。 クライアント間の非IIDの任意の構造を近似するために、FeMAMは各クライアントの予測に新たなモデルを追加し、必要に応じて別のモデルを再割り当てすることでFLに柔軟性と適応性を導入し、知識共有構造を自動的に最適化する。 FeMAMは、既存のクラスタリングFLとパーソナライズされたFLメソッドを、様々な非IID設定で超越している。 私たちのコードはhttps://github.com/shutong043/FeMAMで利用可能です。

The primary challenge in Federated Learning (FL) is to model non-IID distributions across clients, whose fine-grained structure is important to improve knowledge sharing. For example, some knowledge is globally shared across all clients, some is only transferable within a subgroup of clients, and some are client-specific. To capture and exploit this structure, we train models organized in a multi-level structure, called ``Multi-level Additive Models (MAM)'', for better knowledge-sharing across heterogeneous clients and their personalization. In federated MAM (FeMAM), each client is assigned to at most one model per level and its personalized prediction sums up the outputs of models assigned to it across all levels. For the top level, FeMAM trains one global model shared by all clients as FedAvg. For every mid-level, it learns multiple models each assigned to a subgroup of clients, as clustered FL. Every bottom-level model is trained for one client only. In the training objective, each model aims to minimize the residual of the additive predictions by the other models assigned to each client. To approximate the arbitrary structure of non-IID across clients, FeMAM introduces more flexibility and adaptivity to FL by incrementally adding new models to the prediction of each client and reassigning another if necessary, automatically optimizing the knowledge-sharing structure. Extensive experiments show that FeMAM surpasses existing clustered FL and personalized FL methods in various non-IID settings. Our code is available at https://github.com/shutong043/FeMAM.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# M$^3$CoT: マルチドメインマルチステップマルチモーダルチェーンのための新しいベンチマーク

M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought ( http://arxiv.org/abs/2405.16473v1 )

ライセンス: Link先を確認
Qiguang Chen, Libo Qin, Jin Zhang, Zhi Chen, Xiao Xu, Wanxiang Che, (参考訳) MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。 しかしながら、現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。 そこで我々は,上記の課題に対処する新しいベンチマーク(M$^3$CoT)を導入し,マルチドメイン,マルチステップ,マルチモーダルCoTを推し進める。 さらに,視覚大言語モデル(VLLM)上で,豊富なMCoTアプローチを含む徹底的な評価を行う。 さらに、現在のVLLMsはM$3$CoTの正しい推論に苦慮しており、既存のVLLMsとM$3$CoTの人的パフォーマンスとの間には大きなギャップがある。 我々の知る限り、我々はMCoTにおけるマルチドメイン、マルチステップ、マルチモーダルシナリオへの第一歩を踏み出します。 我々は、M$^3$CoTが貴重なリソースとして機能し、マルチドメイン、マルチステップ、マルチモーダル・チェーン・オブ・思想研究の先駆的な基盤を提供することを期待している。

Multi-modal Chain-of-Thought (MCoT) requires models to leverage knowledge from both textual and visual modalities for step-by-step reasoning, which gains increasing attention. Nevertheless, the current MCoT benchmark still faces some challenges: (1) absence of visual modal reasoning, (2) single-step visual modal reasoning, and (3) Domain missing, thereby hindering the development of MCoT. Motivated by this, we introduce a novel benchmark (M$^3$CoT) to address the above challenges, advancing the multi-domain, multi-step, and multi-modal CoT. Additionally, we conduct a thorough evaluation involving abundant MCoT approaches on Vision Large Language Models (VLLMs). In addition, we highlight that the current VLLMs still struggle to correctly reason in M$^3$CoT and there remains a large gap between existing VLLMs and human performance in M$^3$CoT, despite their superior results on previous MCoT benchmarks. To our knowledge, we take the first meaningful step toward the multi-domain, multi-step, and multi-modal scenario in MCoT. We hope that M$^3$CoT can serve as a valuable resource, providing a pioneering foundation in multi-domain, multi-step, multi-modal chain-of-thought research.
翻訳日:2024-05-28 21:08:36 公開日:2024-05-26
# 依存雑音を考慮した不正確なラベル分布学習

Inaccurate Label Distribution Learning with Dependency Noise ( http://arxiv.org/abs/2405.16474v1 )

ライセンス: Link先を確認
Zhiqiang Kou, Jing Wang, Yuheng Jia, Xin Geng, (参考訳) 本稿では,DN-ILDL(Dependent Noise-based Inaccurate Label Distribution Learning)フレームワークについて紹介する。 まず,不正確なラベル分布行列を,特定の事例やラベルに影響された真のラベル分布と雑音行列の組み合わせとしてモデル化することから始める。 そこで我々は,特徴量とラベル表現を用いた雑音行列の分解を行い,雑音を正確に捉えるために群間隔制約を適用した。 さらに,入力空間と出力空間のトポロジ構造を整列させ,真のラベル分布行列の正確な再構成を保証する。 効率的な最適化のために,alternating Direction Method of Multipliers (ADMM) を用いて,真のラベルを正確に復元し,一般化誤差境界を確立する手法の有効性を検証する。 拡張実験により、DN-ILDLはILDL問題に効果的に対処し、既存のLCL法より優れていることが示された。

In this paper, we introduce the Dependent Noise-based Inaccurate Label Distribution Learning (DN-ILDL) framework to tackle the challenges posed by noise in label distribution learning, which arise from dependencies on instances and labels. We start by modeling the inaccurate label distribution matrix as a combination of the true label distribution and a noise matrix influenced by specific instances and labels. To address this, we develop a linear mapping from instances to their true label distributions, incorporating label correlations, and decompose the noise matrix using feature and label representations, applying group sparsity constraints to accurately capture the noise. Furthermore, we employ graph regularization to align the topological structures of the input and output spaces, ensuring accurate reconstruction of the true label distribution matrix. Utilizing the Alternating Direction Method of Multipliers (ADMM) for efficient optimization, we validate our method's capability to recover true labels accurately and establish a generalization error bound. Extensive experiments demonstrate that DN-ILDL effectively addresses the ILDL problem and outperforms existing LDL methods.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 情報理論による生成的復元モデルにおける幻覚の分析

Looks Too Good To Be True: An Information-Theoretic Analysis of Hallucinations in Generative Restoration Models ( http://arxiv.org/abs/2405.16475v1 )

ライセンス: Link先を確認
Regev Cohen, Idan Kligvasser, Ehud Rivlin, Daniel Freedman, (参考訳) 画像復元における高い知覚品質の追求は、しばしば実データと区別できない結果を生み出すことができる革命的生成モデルの開発を促した。 しかし、知覚の質が向上し続けるにつれて、これらのモデルは幻覚を生み出す傾向が増している。 幻覚の存在は、モデルの予測の信頼性に関する不確実性を導入し、それらの実用性に対する大きな懸念を提起する。 本稿では,この現象を調査するための情報理論ツールを用いて,不確実性と知覚の根本的なトレードオフを明らかにする。 我々はこれらの2つの要因の関係を厳密に分析し、生成モデルにおける世界最小の不確実性が知覚と一致して増大することを証明する。 特に、回復問題の本質的な不確実性を定義し、完全な知覚的品質を達成するには少なくとも2倍の不確実性が必要であることを示す。 さらに、平均二乗誤差歪みと不確実性と知覚の関係を確立し、上記の不確実性知覚トレードオフがよく知られた知覚歪トレードオフを誘導することを示す。 この研究は、画像復元のための高い知覚品質と信頼性のある予測の両方を達成するための生成モデルの基本的限界を明らかにする。 単一画像超解像アルゴリズムの解析により理論的知見を実証する。 私たちの研究は、この本質的にのトレードオフに対する実践者の認識を高め、インフォームドな意思決定を可能にし、知覚的パフォーマンスよりも安全性を優先することを目的としています。

The pursuit of high perceptual quality in image restoration has driven the development of revolutionary generative models, capable of producing results often visually indistinguishable from real data. However, as their perceptual quality continues to improve, these models also exhibit a growing tendency to generate hallucinations - realistic-looking details that do not exist in the ground truth images. The presence of hallucinations introduces uncertainty regarding the reliability of the models' predictions, raising major concerns about their practical application. In this paper, we employ information-theory tools to investigate this phenomenon, revealing a fundamental tradeoff between uncertainty and perception. We rigorously analyze the relationship between these two factors, proving that the global minimal uncertainty in generative models grows in tandem with perception. In particular, we define the inherent uncertainty of the restoration problem and show that attaining perfect perceptual quality entails at least twice this uncertainty. Additionally, we establish a relation between mean squared-error distortion, uncertainty and perception, through which we prove the aforementioned uncertainly-perception tradeoff induces the well-known perception-distortion tradeoff. This work uncovers fundamental limitations of generative models in achieving both high perceptual quality and reliable predictions for image restoration. We demonstrate our theoretical findings through an analysis of single image super-resolution algorithms. Our work aims to raise awareness among practitioners about this inherent tradeoff, empowering them to make informed decisions and potentially prioritize safety over perceptual performance.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# KiNETGAN:知識注入型合成データ生成による分散ネットワーク侵入検出の実現

KiNETGAN: Enabling Distributed Network Intrusion Detection through Knowledge-Infused Synthetic Data Generation ( http://arxiv.org/abs/2405.16476v1 )

ライセンス: Link先を確認
Anantaa Kotal, Brandon Luton, Anupam Joshi, (参考訳) モバイルネットワーク上で接続されたIoT/CPSシステムの領域では、従来型の侵入検出手法が、異常検出技術を使用して複数のデバイスにわたるネットワークトラフィックを分析し、潜在的なセキュリティ脅威を警告する。 しかし、これらの手法は、特にディープパケット検査とネットワーク通信分析において、重要なプライバシー上の課題に直面している。 この種のモニタリングは、個人的かつ機密性の高い情報を含むことができるデータパケットの内容を調べるため、非常に侵入的である。 このようなデータ監視は、データプライバシが最重要であるスマートホームのような環境において、厳格な法律や規制によって管理されることが多い。 合成データは、繊細な詳細を明らかにすることなく、実際のネットワーク動作を模倣することで、有望なソリューションを提供する。 GAN(Generative Adversarial Networks)のような生成モデルは、合成データを生成することができるが、ネットワークアクティビティのような特定のドメインで現実的なデータを生成するのに苦労することが多い。 この制限は、ドメインのルールと制約を適切に把握するモデルの能力を妨げる、不十分なトレーニングデータに起因している。 さらに、トレーニングデータの不足は、侵入検出方法におけるクラス不均衡の問題を悪化させる。 これらの課題に対処するために、我々は、知識を注入したジェネレーティブ・アドバイサル・ネットワークを用いて、合成ネットワーク活動データ(KiNETGAN)を生成するプライバシー駆動フレームワークを提案する。 このアプローチは、プライバシの懸念に対処しながら、分散侵入検知のレジリエンスを高める。 我々のKnowledge Guided GANは、厳密な実験を通じて検証されたネットワーク活動のリアルな表現を生成する。 我々は、KiNETGANがダウンストリームタスクにおいて最小限の精度損失を維持し、データプライバシとユーティリティを効果的にバランスしていることを示します。

In the realm of IoT/CPS systems connected over mobile networks, traditional intrusion detection methods analyze network traffic across multiple devices using anomaly detection techniques to flag potential security threats. However, these methods face significant privacy challenges, particularly with deep packet inspection and network communication analysis. This type of monitoring is highly intrusive, as it involves examining the content of data packets, which can include personal and sensitive information. Such data scrutiny is often governed by stringent laws and regulations, especially in environments like smart homes where data privacy is paramount. Synthetic data offers a promising solution by mimicking real network behavior without revealing sensitive details. Generative models such as Generative Adversarial Networks (GANs) can produce synthetic data, but they often struggle to generate realistic data in specialized domains like network activity. This limitation stems from insufficient training data, which impedes the model's ability to grasp the domain's rules and constraints adequately. Moreover, the scarcity of training data exacerbates the problem of class imbalance in intrusion detection methods. To address these challenges, we propose a Privacy-Driven framework that utilizes a knowledge-infused Generative Adversarial Network for generating synthetic network activity data (KiNETGAN). This approach enhances the resilience of distributed intrusion detection while addressing privacy concerns. Our Knowledge Guided GAN produces realistic representations of network activity, validated through rigorous experimentation. We demonstrate that KiNETGAN maintains minimal accuracy loss in downstream tasks, effectively balancing data privacy and utility.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# トフォリゲートは四面体方程式を解く

Toffoli gates solve the tetrahedron equations ( http://arxiv.org/abs/2405.16477v1 )

ライセンス: Link先を確認
Akash Sinha, Pramod Padmanabhan, Vladimir Korepin, (参考訳) 量子計算の回路モデルは散乱過程と解釈できる。 特に、分解された散乱作用素は、普遍的な量子計算を提供し、ノイズの少ない積分可能な量子回路をもたらす。 これらはヤン・バクスター (Yang-Baxter) あるいは2-複素作用素 (2-simplex operator) によって実現される。 自然な疑問は、この構成をトフォリゲートのようなより高い量子ビットゲートに拡張することであり、これは普遍的な量子計算にも繋がるが、より浅い回路を持つ。 そのような作用素のユニタリ族は、テトラヘドロン (tetrahedron) と呼ばれるヤン・バクター作用素の3次元一般化によって構成されることを示す。 後者はスペクトルパラメータ依存テトラヘドロン方程式を満たす。 この構成は$n$-Toffoliゲートで、$n$-simplex演算子を使って実現される。

The circuit model of quantum computation can be interpreted as a scattering process. In particular, factorised scattering operators result in integrable quantum circuits that provide universal quantum computation and are potentially less noisy. These are realized through Yang-Baxter or 2-simplex operators. A natural question is to extend this construction to higher qubit gates, like the Toffoli gates, which also lead to universal quantum computation but with shallower circuits. We show that unitary families of such operators are constructed by the 3-dimensional generalizations of the Yang-Baxter operators known as tetrahedron or 3-simplex operators. The latter satisfy a spectral parameter-dependent tetrahedron equation. This construction goes through for $n$-Toffoli gates realized using $n$-simplex operators.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 2次元画像からの食品重量推定のための視覚的アプローチ

Vision-Based Approach for Food Weight Estimation from 2D Images ( http://arxiv.org/abs/2405.16478v1 )

ライセンス: Link先を確認
Chathura Wimalasiri, Prasan Kumar Sahoo, (参考訳) 食品重量を推定する効率的で非侵襲的な手法の需要が高まっている中で,本研究では2次元画像を用いた視覚的アプローチを提案する。 この研究は、さまざまな部分、向き、容器の14種類の食品からなる2380の画像のデータセットを用いている。 提案手法は深層学習とコンピュータビジョン技術を統合し,特に食品検出にFaster R-CNN,重量推定にMobileNetV3を用いている。 検出モデルは平均平均精度 (mAP) は83.41\%, 平均IoUは91.82\%, 分類精度 (100\%) を達成した。 重量推定では,根平均2乗誤差6.3204,平均絶対パーセンテージ誤差0.0640\%,R2乗誤差98.65\%を示した。 この研究は、栄養カウンセリング、食事摂取評価のためのフィットネスとウェルネス、および無駄を減らすスマートフードストレージソリューションにおける、この技術の医療への応用の可能性を強調している。 以上の結果から,Faster R-CNNとMobileNetV3の組み合わせは,コンピュータビジョンと深層学習の相乗効果を示す2次元画像から食品重量を正確に推定するための堅牢なフレームワークを提供することが示された。

In response to the increasing demand for efficient and non-invasive methods to estimate food weight, this paper presents a vision-based approach utilizing 2D images. The study employs a dataset of 2380 images comprising fourteen different food types in various portions, orientations, and containers. The proposed methodology integrates deep learning and computer vision techniques, specifically employing Faster R-CNN for food detection and MobileNetV3 for weight estimation. The detection model achieved a mean average precision (mAP) of 83.41\%, an average Intersection over Union (IoU) of 91.82\%, and a classification accuracy of 100\%. For weight estimation, the model demonstrated a root mean squared error (RMSE) of 6.3204, a mean absolute percentage error (MAPE) of 0.0640\%, and an R-squared value of 98.65\%. The study underscores the potential applications of this technology in healthcare for nutrition counseling, fitness and wellness for dietary intake assessment, and smart food storage solutions to reduce waste. The results indicate that the combination of Faster R-CNN and MobileNetV3 provides a robust framework for accurate food weight estimation from 2D images, showcasing the synergy of computer vision and deep learning in practical applications.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 微分可能な近位グラフマッチング

Differentiable Proximal Graph Matching ( http://arxiv.org/abs/2405.16479v1 )

ライセンス: Link先を確認
Haoru Tan, Chuang Wang, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) グラフマッチングはコンピュータビジョンとパターン認識の基本的なツールである。 本稿では、微分可能近位グラフマッチング(DPGM)と呼ばれる、近位演算子に基づくグラフマッチングのアルゴリズムを提案する。 具体的には、グラフマッチングの二次代入問題を凸最適化問題列に緩和して分解する。 アルゴリズム全体をグラフ親和性行列からノード対応の予測への微分可能な写像とみなすことができる。 したがって,提案手法をエンドツーエンドのディープラーニングフレームワークに統合して,深部特徴表現とグラフ親和性行列を併用して学習することができる。 さらに,提案手法が適切な回数の反復で安定点に収束することを保証するための理論的保証を提供する。 数値実験により、PGMは合成データやCMU Houseといった多様なデータセット上で、既存のグラフマッチングアルゴリズムよりも優れていることが示された。 一方、PGMは、深い特徴抽出器の能力を完全に活用し、PASCAL VOCキーポイントの最先端性能を達成することができる。

Graph matching is a fundamental tool in computer vision and pattern recognition. In this paper, we introduce an algorithm for graph matching based on the proximal operator, referred to as differentiable proximal graph matching (DPGM). Specifically, we relax and decompose the quadratic assignment problem for the graph matching into a sequence of convex optimization problems. The whole algorithm can be considered as a differentiable map from the graph affinity matrix to the prediction of node correspondence. Therefore, the proposed method can be organically integrated into an end-to-end deep learning framework to jointly learn both the deep feature representation and the graph affinity matrix. In addition, we provide a theoretical guarantee to ensure the proposed method converges to a stable point with a reasonable number of iterations. Numerical experiments show that PGM outperforms existing graph matching algorithms on diverse datasets such as synthetic data, and CMU House. Meanwhile, PGM can fully harness the capability of deep feature extractors and achieve state-of-art performance on PASCAL VOC keypoints.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# DarijaBanking: モロッコのアラビア語話者に対する銀行のインテント検出における言語障壁の克服のための新しいリソース

DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers ( http://arxiv.org/abs/2405.16482v1 )

ライセンス: Link先を確認
Abderrahman Skiredj, Ferdaous Azhari, Ismail Berrada, Saad Ezzini, (参考訳) 言語多様性の複雑さをナビゲートすることは、特に銀行のような専門分野において、堅牢な自然言語処理システムの開発における中心的な課題である。 モロッコ方言(Darija)は、文化的複雑さ、歴史的影響、地域差をブレンドする共通言語である。 ダリヤの複雑さは、フランス語、スペイン語、タマジットの影響が強い現代標準アラビア語と異なり、効果的なコミュニケーションには特定のアプローチが必要であるため、言語モデルに特別な課題をもたらす。 これらの課題に対処するために、モロッコのクライアントの母国語で通信する自動銀行システム(チャットボットなど)のクリティカルなニーズに対処するため、銀行分野における意図分類を強化するための新しいDarijaデータセットである「textbf{DarijaBanking」を紹介した。 DarijaBankingは、Darija、Modern Standard Arabic (MSA)、英語、フランス語で1,800以上の並列な高品質なクエリで構成されており、24のインテントクラスで構成されている。 我々は、単言語モデルと多言語モデルの完全な微調整、ゼロショット学習、検索に基づくアプローチ、大規模言語モデルのプロンプトなど、様々な意図の分類手法を実験した。 この作業の主な貢献の1つは、Darijaにおける意図分類のためのBERTベースの言語モデルであるBERTouchです。 BERTouch は Darija の 0.98 と DarijaBanking の 0.96 の F1 スコアを達成し、GPT-4 など最先端の代替品よりも高い性能を示した。

Navigating the complexities of language diversity is a central challenge in developing robust natural language processing systems, especially in specialized domains like banking. The Moroccan Dialect (Darija) serves as the common language that blends cultural complexities, historical impacts, and regional differences. The complexities of Darija present a special set of challenges for language models, as it differs from Modern Standard Arabic with strong influence from French, Spanish, and Tamazight, it requires a specific approach for effective communication. To tackle these challenges, this paper introduces \textbf{DarijaBanking}, a novel Darija dataset aimed at enhancing intent classification in the banking domain, addressing the critical need for automatic banking systems (e.g., chatbots) that communicate in the native language of Moroccan clients. DarijaBanking comprises over 1,800 parallel high-quality queries in Darija, Modern Standard Arabic (MSA), English, and French, organized into 24 intent classes. We experimented with various intent classification methods, including full fine-tuning of monolingual and multilingual models, zero-shot learning, retrieval-based approaches, and Large Language Model prompting. One of the main contributions of this work is BERTouch, our BERT-based language model for intent classification in Darija. BERTouch achieved F1-scores of 0.98 for Darija and 0.96 for MSA on DarijaBanking, outperforming the state-of-the-art alternatives including GPT-4 showcasing its effectiveness in the targeted application.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# ニューロンの分解:連続的なテスト時間適応のためのエキスパートの混合による活性化空間

Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation ( http://arxiv.org/abs/2405.16486v1 )

ライセンス: Link先を確認
Rongyu Zhang, Aosong Cheng, Yulin Luo, Gaole Dai, Huanrui Yang, Jiaming Liu, Ran Xu, Li Du, Yuan Du, Yanbing Jiang, Shanghang Zhang, (参考訳) 目標ドメインに事前学習モデルを適用することを目的としたCTTA(Continuous Test-Time Adaptation)が、ビジョンモデルにとって重要なタスクとして登場した。 現在の視覚モデルはテクスチャに大きく偏っているように見えるため、ある領域の分布から別の領域へのモデルを継続的に適応することは、深刻な破滅的な忘れ込みをもたらす可能性がある。 我々は,ヒトの視覚系における形状とテクスチャの両処理の適応性からインスピレーションを得て,CTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)を統合した。 ドメイン特異的/非依存的特徴に対する低/高活性化ニューロンの特異的反応により、MoASEは神経活性化を高活性化成分と低活性化成分に分解し、非分化性空間微分ドロップアウト(SDD)を生じる。 この分解に基づいて、ドメイン情報を利用して異なる強度のSDD後のスパースアクティベーションを処理する専門家と、より正確な特徴分解のためにSDDの機能選択閾値を適応的に割り当てるアクティベーションスパシティゲート(ASG)を組み合わせたマルチゲート構造を考案する。 最後に,モデルに連続的に適応する際の誤差蓄積問題を回避するために,HOMEOstatic-Proximal (HP)損失を導入する。 4つの顕著なベンチマークの大規模な実験は、我々の手法が分類とセグメント化のCTTAタスクにおいて最先端のパフォーマンスを達成することを実証している。 私たちのコードはhttps://github.com/RoyZry98/MoASE-Pytorch.comで利用可能です。

Continual Test-Time Adaptation (CTTA), which aims to adapt the pre-trained model to ever-evolving target domains, emerges as an important task for vision models. As current vision models appear to be heavily biased towards texture, continuously adapting the model from one domain distribution to another can result in serious catastrophic forgetting. Drawing inspiration from the human visual system's adeptness at processing both shape and texture according to the famous Trichromatic Theory, we explore the integration of a Mixture-of-Activation-Sparsity-Experts (MoASE) as an adapter for the CTTA task. Given the distinct reaction of neurons with low/high activation to domain-specific/agnostic features, MoASE decomposes the neural activation into high-activation and low-activation components with a non-differentiable Spatial Differentiate Dropout (SDD). Based on the decomposition, we devise a multi-gate structure comprising a Domain-Aware Gate (DAG) that utilizes domain information to adaptive combine experts that process the post-SDD sparse activations of different strengths, and the Activation Sparsity Gate (ASG) that adaptively assigned feature selection threshold of the SDD for different experts for more precise feature decomposition. Finally, we introduce a Homeostatic-Proximal (HP) loss to bypass the error accumulation problem when continuously adapting the model. Extensive experiments on four prominent benchmarks substantiate that our methodology achieves state-of-the-art performance in both classification and segmentation CTTA tasks. Our code is now available at https://github.com/RoyZry98/MoASE-Pytorch.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 部分列車と孤立・緩和バックドア攻撃

Partial train and isolate, mitigate backdoor attack ( http://arxiv.org/abs/2405.16488v1 )

ライセンス: Link先を確認
Yong Li, Han Gao, (参考訳) ニューラルネットワークは、バックドア攻撃に弱いことが広く知られている。これは、トレーニングデータの一部に毒を盛り、標的モデルを正常なデータセットで正常に動作させ、攻撃者が特定またはランダムなカテゴリを有毒なサンプルに出力する手法である。 バックドア攻撃は脅威に満ちている。 毒のサンプルは、対応する正常なサンプルとますますよく似ており、人間の目でも容易に区別できない。 一方,通常のサンプルにバックドアを積んだモデルとクリーンモデルとの精度は変わらないが,本論文では,バックドア攻撃の特徴を観察することにより,モデルの一部を凍結して不審なサンプルを識別可能なモデルを訓練する新しいモデルトレーニング法(PT)を提案する。 そして、これに基づいてクリーンモデルが微調整され、バックドア攻撃に抵抗する。

Neural networks are widely known to be vulnerable to backdoor attacks, a method that poisons a portion of the training data to make the target model perform well on normal data sets, while outputting attacker-specified or random categories on the poisoned samples. Backdoor attacks are full of threats. Poisoned samples are becoming more and more similar to corresponding normal samples, and even the human eye cannot easily distinguish them. On the other hand, the accuracy of models carrying backdoors on normal samples is no different from that of clean models.In this article, by observing the characteristics of backdoor attacks, We provide a new model training method (PT) that freezes part of the model to train a model that can isolate suspicious samples. Then, on this basis, a clean model is fine-tuned to resist backdoor attacks.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 分布シフト下における因果認識型グラフニューラルアーキテクチャ探索

Causal-Aware Graph Neural Architecture Search under Distribution Shifts ( http://arxiv.org/abs/2405.16489v1 )

ライセンス: Link先を確認
Peiwen Li, Xin Wang, Zeyang Zhang, Yijian Qin, Ziwei Zhang, Jialong Wang, Yang Li, Wenwu Zhu, (参考訳) Graph NASは、グラフとアーキテクチャ間の相関を利用して、GNNアーキテクチャを自律的に設計するための有望なアプローチとして登場した。 既存の手法は、実世界のグラフシナリオにおいてユビキタスな分布シフトの下で一般化できない。 本稿では,グラフとアーキテクチャ間の因果関係を探索し,分散シフトの下で一般化可能な最適アーキテクチャを探索することにより,グラフアーキテクチャ探索プロセスにおける分散シフトの処理を提案する。 この問題は、分布をまたいだ安定した予測能力を持つ因果グラフ-アーキテクチャ関係の発見方法や、一般化グラフアーキテクチャの探索のために発見された因果グラフ-アーキテクチャ関係による分布シフトの処理方法など、未解明のままである。 これらの課題に対処するために、アーキテクチャ探索プロセス中に因果グラフ-アーキテクチャ関係を捕捉し、分散シフトの下で一般化グラフアーキテクチャを発見できるCausal-aware Graph Neural Architecture Search (CARNAS)を提案する。 具体的には、分布の安定な予測能力を有する因果部分グラフをキャプチャするために、Distangled Causal Subgraph Identificationを提案する。 そこで我々は,非因果要素を除外しながら,これらの部分グラフが予測に不可欠な特徴をカプセル化することを保証するグラフ埋め込み干渉法を提案する。 さらに,因果部分グラフの因果不変性を強化するための不変アーキテクチャカスタマイズを提案する。 大規模な実験により、CARNASは高度な分布外一般化能力を達成することが示された。

Graph NAS has emerged as a promising approach for autonomously designing GNN architectures by leveraging the correlations between graphs and architectures. Existing methods fail to generalize under distribution shifts that are ubiquitous in real-world graph scenarios, mainly because the graph-architecture correlations they exploit might be spurious and varying across distributions. We propose to handle the distribution shifts in the graph architecture search process by discovering and exploiting the causal relationship between graphs and architectures to search for the optimal architectures that can generalize under distribution shifts. The problem remains unexplored with following challenges: how to discover the causal graph-architecture relationship that has stable predictive abilities across distributions, and how to handle distribution shifts with the discovered causal graph-architecture relationship to search the generalized graph architectures. To address these challenges, we propose Causal-aware Graph Neural Architecture Search (CARNAS), which is able to capture the causal graph-architecture relationship during the architecture search process and discover the generalized graph architecture under distribution shifts. Specifically, we propose Disentangled Causal Subgraph Identification to capture the causal subgraphs that have stable prediction abilities across distributions. Then, we propose Graph Embedding Intervention to intervene on causal subgraphs within the latent space, ensuring that these subgraphs encapsulate essential features for prediction while excluding non-causal elements. Additionally, we propose Invariant Architecture Customization to reinforce the causal invariant nature of the causal subgraphs, which are utilized to tailor generalized graph architectures. Extensive experiments demonstrate that CARNAS achieves advanced out-of-distribution generalization ability.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# Flow Snapshot Neurons in Action:Deep Neural Networksによる生体運動知覚の一般化

Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception ( http://arxiv.org/abs/2405.16493v1 )

ライセンス: Link先を確認
Shuangpeng Han, Ziyu Wang, Mengmi Zhang, (参考訳) 生物学的運動知覚(BMP)とは、人間の行動パターンのみから生物の行動を知覚し、認識する能力のこと。 人間は事前のトレーニングなしにこれらのタスクを遂行するが、現在のAIモデルは一般化性能の貧弱さに苦慮している。 この研究ギャップを埋めるため、我々はMotion Perceiver (MP)を提案する。 MPは、ビデオクリップからのパッチレベルの光学フローを入力としてのみ依存する。 トレーニング中は、競争力のあるバインディング機構を通じてプロトタイプフロースナップショットを学び、不変なモーション表現を統合して、与えられたビデオのアクションラベルを予測する。 推測中,神経科学におけるポイントライト表示を用いて,24BMPの条件にまたがる62,656個のビデオ刺激に対して,全AIモデルと人間の一般化能力を評価する。 注目すべきは、MPが既存のAIモデルをすべて上回り、これらの条件下ではトップ1アクション認識精度が最大29%向上していることだ。 さらに、コンピュータビジョンにおける2つの標準ビデオデータセットのポイントライトディスプレイにおいて、すべてのAIモデルをベンチマークする。 MPはまた、これらのケースで優れたパフォーマンスを示している。 さらに興味深いことに、精神物理学の実験を通して、MPは人間の行動データと一致する方法で生物学的な動きを認識していることがわかった。 すべてのデータとコードは公開されます。

Biological motion perception (BMP) refers to humans' ability to perceive and recognize the actions of living beings solely from their motion patterns, sometimes as minimal as those depicted on point-light displays. While humans excel at these tasks without any prior training, current AI models struggle with poor generalization performance. To close this research gap, we propose the Motion Perceiver (MP). MP solely relies on patch-level optical flows from video clips as inputs. During training, it learns prototypical flow snapshots through a competitive binding mechanism and integrates invariant motion representations to predict action labels for the given video. During inference, we evaluate the generalization ability of all AI models and humans on 62,656 video stimuli spanning 24 BMP conditions using point-light displays in neuroscience. Remarkably, MP outperforms all existing AI models with a maximum improvement of 29% in top-1 action recognition accuracy on these conditions. Moreover, we benchmark all AI models in point-light displays of two standard video datasets in computer vision. MP also demonstrates superior performance in these cases. More interestingly, via psychophysics experiments, we found that MP recognizes biological movements in a way that aligns with human behavioural data. All data and code will be made public.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 代理支援進化アルゴリズムにおけるコルモゴロフ・アルノルドネットワークの一考察

A First Look at Kolmogorov-Arnold Networks in Surrogate-assisted Evolutionary Algorithms ( http://arxiv.org/abs/2405.16494v1 )

ライセンス: Link先を確認
Hao Hao, Xiaoqun Zhang, Bingdong Li, Aimin Zhou, (参考訳) サロゲート支援進化アルゴリズム(SAEA)は高価な問題を解くための重要な手法である。 シュロゲートモデルを用いて最適化関数を置換することにより、探索過程における関数評価への依存を著しく低減し、最適化コストを低減できる。 代理モデルの構築はSAEAにおいて重要な要素であり、モデル構築フェーズにおいて多くの機械学習アルゴリズムが重要な役割を果たしている。 本稿では,SAEA内の代理モデルとしてKAN(Kolmogorov-Arnold Networks)を導入し,その応用と有効性について検討する。 我々は,検索過程において期待できる解の選択に焦点をあてて,回帰処理や分類処理にkanを用いており,その結果,高価な関数評価の回数を減らすことができる。 実験結果から,ANはSAEA内でのコメンタブルな性能を示し,関数呼び出し数を効果的に削減し,最適化効率を向上することが示唆された。 関連するコードは公開されており、GitHubリポジトリで見ることができる。

Surrogate-assisted Evolutionary Algorithm (SAEA) is an essential method for solving expensive expensive problems. Utilizing surrogate models to substitute the optimization function can significantly reduce reliance on the function evaluations during the search process, thereby lowering the optimization costs. The construction of surrogate models is a critical component in SAEAs, with numerous machine learning algorithms playing a pivotal role in the model-building phase. This paper introduces Kolmogorov-Arnold Networks (KANs) as surrogate models within SAEAs, examining their application and effectiveness. We employ KANs for regression and classification tasks, focusing on the selection of promising solutions during the search process, which consequently reduces the number of expensive function evaluations. Experimental results indicate that KANs demonstrate commendable performance within SAEAs, effectively decreasing the number of function calls and enhancing the optimization efficiency. The relevant code is publicly accessible and can be found in the GitHub repository.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 顔面麻痺検出のためのマルチモーダルフュージョンに基づく深層学習ネットワークの探索

Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy ( http://arxiv.org/abs/2405.16496v1 )

ライセンス: Link先を確認
Nicole Heng Yim Oo, Min Hun Lee, Jeong Hoon Lim, (参考訳) 顔の麻痺のアルゴリズムによる検出は、通常、臨床医による労働集約的、主観的評価を含む現在の実践を改善する可能性がある。 本稿では,非構造化データ(顔線セグメントを持つ画像フレーム)と構造化データ(表情の特徴)を用いて顔の麻痺を検知する多モード融合型ディープラーニングモデルを提案する。 次に、21人の顔面麻痺患者のビデオを用いて、異なるデータモダリティの効果とマルチモーダルフュージョンベースのアプローチの利点を分析する研究に貢献する。 実験結果から,表情特徴を用いたフィードフォワードニューラルネットワークが76.22,ResNetベースモデルが83.47,リコール率が83.47であった。 顔線セグメントの画像と表情の特徴を両面から利用したとき, マルチモーダル融合に基づく深層学習モデルでは, リコールスコアの減少を犠牲にして, 精度を77.05に改善した。

Algorithmic detection of facial palsy offers the potential to improve current practices, which usually involve labor-intensive and subjective assessment by clinicians. In this paper, we present a multimodal fusion-based deep learning model that utilizes unstructured data (i.e. an image frame with facial line segments) and structured data (i.e. features of facial expressions) to detect facial palsy. We then contribute to a study to analyze the effect of different data modalities and the benefits of a multimodal fusion-based approach using videos of 21 facial palsy patients. Our experimental results show that among various data modalities (i.e. unstructured data - RGB images and images of facial line segments and structured data - coordinates of facial landmarks and features of facial expressions), the feed-forward neural network using features of facial expression achieved the highest precision of 76.22 while the ResNet-based model using images of facial line segments achieved the highest recall of 83.47. When we leveraged both images of facial line segments and features of facial expressions, our multimodal fusion-based deep learning model slightly improved the precision score to 77.05 at the expense of a decrease in the recall score.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 連続学習における逐次損失近似について

On Sequential Loss Approximation for Continual Learning ( http://arxiv.org/abs/2405.16498v1 )

ライセンス: Link先を確認
Menghao Waiyan William Zhu, Ercan Engin Kuruoğlu, (参考訳) 本稿では,従来の損失関数を2次関数で近似するAQC(Autodiff Quadratic Consolidation)と,前回の損失関数をニューラルネットワークで近似するNeural Consolidation(NC)について紹介する。 大規模なニューラルネットワークには拡張性がないが、固定された事前訓練された特徴抽出器で使用できる。 我々はこれらの手法を,リプレイと組み合わせない限り,正規化に基づく手法が不満足な結果をもたらすクラス増分学習において実証的に研究する。 小データセットの場合、前回の損失関数の二次近似は、フルヘッセン計算でも低結果となり、NCは予測性能を著しく向上させるが、大データセットの場合、固定された事前学習された特徴抽出器を使用する場合、AQCは優れた予測性能を提供する。 また,AQCの予測性能が向上することを示す。 特に、クラスインクリメンタルスプリットMNISTでは、tanh-output特徴を持つ畳み込みニューラルネットワーク(CNN)がEMNISTレターで事前トレーニングされ、固定された事前訓練された特徴抽出器として使用される場合、AQCは関節トレーニングに匹敵する予測性能を達成できる。

We introduce for continual learning Autodiff Quadratic Consolidation (AQC), which approximates the previous loss function with a quadratic function, and Neural Consolidation (NC), which approximates the previous loss function with a neural network. Although they are not scalable to large neural networks, they can be used with a fixed pre-trained feature extractor. We empirically study these methods in class-incremental learning, for which regularization-based methods produce unsatisfactory results, unless combined with replay. We find that for small datasets, quadratic approximation of the previous loss function leads to poor results, even with full Hessian computation, and NC could significantly improve the predictive performance, while for large datasets, when used with a fixed pre-trained feature extractor, AQC provides superior predictive performance. We also find that using tanh-output features can improve the predictive performance of AQC. In particular, in class-incremental Split MNIST, when a Convolutional Neural Network (CNN) with tanh-output features is pre-trained on EMNIST Letters and used as a fixed pre-trained feature extractor, AQC can achieve predictive performance comparable to joint training.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# マルチモーダルプロンプトによるユーザフレンドリーなカスタマイズ生成

User-Friendly Customized Generation with Multi-Modal Prompts ( http://arxiv.org/abs/2405.16501v1 )

ライセンス: Link先を確認
Linhao Zhong, Yan Hong, Wentao Chen, Binglin Zhou, Yiyi Zhang, Jianfu Zhang, Liqing Zhang, (参考訳) テキスト・ツー・イメージ生成モデルは、パーソナライズされた画像生成への関心が高まっているため、かなり進歩している。 現在のカスタマイズ技術では、ユーザーは各カスタマイズされたオブジェクトに対して複数の画像(通常3〜5)を提供する必要があり、またこれらのオブジェクトの分類やシーンの記述的なテキストプロンプトも必要である。 本稿では、プロセスがよりユーザフレンドリになり、カスタマイズがより複雑になるかどうかを問う。 本稿では,カスタマイズトピック毎に画像とテキストのみを同時に提供し,視覚的概念ごとに1つの画像だけを必要とする方法を提案する。 ユーザインタラクションを簡略化し,オブジェクトとシーンの正確なカスタマイズを容易にする,各カスタマイズ概念に適した,テキストとイメージの新たな統合である ‘multi-modal prompt' の概念を紹介した。 ユーザフレンドリさと複雑なオブジェクトをユーザフレンドリな入力でカスタマイズする機能において,既存のファインチューン方式を超越したテキスト・ツー・イメージ生成のパラダイムを提案する。 私たちのコードは$\href{https://github.com/zhongzero/Multi-Modal-Prompt}{https://github.com/zhongzero/Multi-Modal-Prompt}$で利用可能です。

Text-to-image generation models have seen considerable advancement, catering to the increasing interest in personalized image creation. Current customization techniques often necessitate users to provide multiple images (typically 3-5) for each customized object, along with the classification of these objects and descriptive textual prompts for scenes. This paper questions whether the process can be made more user-friendly and the customization more intricate. We propose a method where users need only provide images along with text for each customization topic, and necessitates only a single image per visual concept. We introduce the concept of a ``multi-modal prompt'', a novel integration of text and images tailored to each customization concept, which simplifies user interaction and facilitates precise customization of both objects and scenes. Our proposed paradigm for customized text-to-image generation surpasses existing finetune-based methods in user-friendliness and the ability to customize complex objects with user-friendly inputs. Our code is available at $\href{https://github.com/zhongzero/Multi-Modal-Prompt}{https://github.com/zhongzero/Multi-Modal-Prompt}$.
翻訳日:2024-05-28 20:58:51 公開日:2024-05-26
# 混合異種集団運動における二体相互作用推定のためのGNNとニューラルODEの統合

Integrating GNN and Neural ODEs for Estimating Two-Body Interactions in Mixed-Species Collective Motion ( http://arxiv.org/abs/2405.16503v1 )

ライセンス: Link先を確認
Masahito Uwamichi, Simon K. Schnyder, Tetsuya J. Kobayashi, Satoshi Sawai, (参考訳) 細胞や個々の動物など、複数の生物学的エージェントの運動を分析することは、複雑な集団行動を理解する上で重要である。 先進顕微鏡の出現により、複数の細胞型を含む複雑な組織形成の詳細な画像が近年よりアクセスしやすくなっている。 しかし、細胞の動きを管理する基本的なルールを解読することは、決して簡単ではない。 本稿では,このような複雑な力学を復号化するための重要なステップである観測軌道から基底となる運動方程式を推定する,新しいディープラーニングフレームワークを提案する。 本フレームワークは,グラフニューラルネットワークとニューラルディファレンシャル方程式を統合し,相互作用する実体の状態に基づく2体相互作用の効果的な予測を可能にする。 2つの数値実験により,本手法の有効性を実証した。 まず、おもちゃの模型のシミュレーションデータを使ってハイパーパラメータを調整した。 得られたハイパーパラメータに基づいて,細胞性スライムカビの相互作用細胞を記述した,より複雑なモデルに本手法を適用した。 提案手法は,2体相互作用の関数を正確に推定し,個々の動作と集団動作の両方を正確に再現できることを示す。

Analyzing the motion of multiple biological agents, be it cells or individual animals, is pivotal for the understanding of complex collective behaviors. With the advent of advanced microscopy, detailed images of complex tissue formations involving multiple cell types have become more accessible in recent years. However, deciphering the underlying rules that govern cell movements is far from trivial. Here, we present a novel deep learning framework to estimate the underlying equations of motion from observed trajectories, a pivotal step in decoding such complex dynamics. Our framework integrates graph neural networks with neural differential equations, enabling effective prediction of two-body interactions based on the states of the interacting entities. We demonstrate the efficacy of our approach through two numerical experiments. First, we used a simulated data from a toy model to tune the hyperparameters. Based on the obtained hyperparameters, we then applied this approach to a more complex model that describes interacting cells of cellular slime molds. Our results show that the proposed method can accurately estimate the function of two-body interactions, thereby precisely replicating both individual and collective behaviors within these systems.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# Gated-Linear Recurrent Sequence Modelの統一型インシシットアテンション定式化

A Unified Implicit Attention Formulation for Gated-Linear Recurrent Sequence Models ( http://arxiv.org/abs/2405.16504v1 )

ライセンス: Link先を確認
Itamar Zimerman, Ameen Ali, Lior Wolf, (参考訳) 効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーをもたらし、これらは全て、シーケンス長のサブクアドラルな複雑さと優れたスケーリング特性を特徴とし、新しいタイプの基礎モデルの構築を可能にしている。 本稿では,これらのモデルについて,暗黙の因果自己注意層のような層を定式化した統一的な視点を示す。 定式化にはサブコンポーネントの大部分が含まれており、アーキテクチャの特定の部分に限定されていない。 このフレームワークは、異なるレイヤに対して同様の基盤で基盤となるメカニズムを比較し、説明可能性メソッドを適用する直接的な手段を提供する。 実験の結果,我々の注意行列と帰属法は,最近マンバのために提案された代替案やより限定的な定式化よりも優れていることがわかった。 このようなビューを最初に提供する他のアーキテクチャに対して,本手法は最先端のトランスフォーマー説明可能性法で得られた結果と比較して,関連する指標に対して有効かつ競争力がある。 私たちのコードは公開されています。

Recent advances in efficient sequence modeling have led to attention-free layers, such as Mamba, RWKV, and various gated RNNs, all featuring sub-quadratic complexity in sequence length and excellent scaling properties, enabling the construction of a new type of foundation models. In this paper, we present a unified view of these models, formulating such layers as implicit causal self-attention layers. The formulation includes most of their sub-components and is not limited to a specific part of the architecture. The framework compares the underlying mechanisms on similar grounds for different layers and provides a direct means for applying explainability methods. Our experiments show that our attention matrices and attribution method outperform an alternative and a more limited formulation that was recently proposed for Mamba. For the other architectures for which our method is the first to provide such a view, our method is effective and competitive in the relevant metrics compared to the results obtained by state-of-the-art transformer explainability methods. Our code is publicly available.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# GRAG: グラフ検索拡張世代

GRAG: Graph Retrieval-Augmented Generation ( http://arxiv.org/abs/2405.16506v1 )

ライセンス: Link先を確認
Yuntong Hu, Zhihan Lei, Zheng Zhang, Bo Pan, Chen Ling, Liang Zhao, (参考訳) Retrieval-Augmented Generation (RAG)は、生成言語モデルによる応答の精度と関連性を高めるが、テキスト情報とトポロジ情報の両方が重要であるグラフベースの文脈では不足する。 ネイブRAGアプローチは本質的にテキストグラフの構造的複雑さを無視し、生成プロセスに重大なギャップをもたらす。 この課題に対処するために,$\textbf{Graph Retrieval-Augmented Generation (GRAG)$を導入する。 テキストベースのエンティティ検索にのみ焦点をあてるRAGアプローチとは異なり、GRAGはグラフトポロジを鋭く認識している。 我々のGRAGアプローチは4つの主要な段階から構成される:$k$-hop ego-graphのインデックス化、グラフ検索、無関係なエンティティの影響を軽減するソフトプルーニング、およびプルーニングされたテキストサブグラフの生成である。 GRAGの中核となるワークフローを検索するテキストサブグラフとそれに続くソフトプルーニングは、NPハードな排他的サブグラフ探索の典型的な計算不可能性を避けながら、関連するサブグラフ構造を効果的に識別する。 さらに,テキストのサブグラフから階層的なテキスト記述への無意味な変換を実現する新しいプロンプト戦略を提案する。 グラフマルチホップ推論ベンチマークの大規模な実験により、テキストグラフ上でのマルチホップ推論を必要とする場合において、GRAGアプローチは幻覚を効果的に緩和しつつ、現在のRAG法よりも著しく優れていることが示された。

While Retrieval-Augmented Generation (RAG) enhances the accuracy and relevance of responses by generative language models, it falls short in graph-based contexts where both textual and topological information are important. Naive RAG approaches inherently neglect the structural intricacies of textual graphs, resulting in a critical gap in the generation process. To address this challenge, we introduce $\textbf{Graph Retrieval-Augmented Generation (GRAG)}$, which significantly enhances both the retrieval and generation processes by emphasizing the importance of subgraph structures. Unlike RAG approaches that focus solely on text-based entity retrieval, GRAG maintains an acute awareness of graph topology, which is crucial for generating contextually and factually coherent responses. Our GRAG approach consists of four main stages: indexing of $k$-hop ego-graphs, graph retrieval, soft pruning to mitigate the impact of irrelevant entities, and generation with pruned textual subgraphs. GRAG's core workflow-retrieving textual subgraphs followed by soft pruning-efficiently identifies relevant subgraph structures while avoiding the computational infeasibility typical of exhaustive subgraph searches, which are NP-hard. Moreover, we propose a novel prompting strategy that achieves lossless conversion from textual subgraphs to hierarchical text descriptions. Extensive experiments on graph multi-hop reasoning benchmarks demonstrate that in scenarios requiring multi-hop reasoning on textual graphs, our GRAG approach significantly outperforms current state-of-the-art RAG methods while effectively mitigating hallucinations.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# モデルに因果概念を組み込む - ディープラーニングにおける因果オパシティを超えて

Causal Concept Embedding Models: Beyond Causal Opacity in Deep Learning ( http://arxiv.org/abs/2405.16507v1 )

ライセンス: Link先を確認
Gabriele Dominici, Pietro Barbiero, Mateo Espinosa Zarlenga, Alberto Termine, Martin Gjoreski, Marc Langheinrich, (参考訳) 因果不透明性(英: Causal opacity)とは、ディープニューラルネットワーク(DNN)推論の根底にある「隠れた」因果構造を理解することの難しさを指す。 これにより、特に高度なシナリオにおいて、最先端のDNNベースのシステムを頼りにし、検証することができない。 このため、因果不透明性は、深層学習、解釈可能性、因果性の交差における鍵となるオープンな課題である。 この研究は、因果概念埋め込みモデル(Causal Concept Embedding Models, Causal CEMs)を導入することで、このギャップに対処する。 実験の結果,Causal CEMは次のようなことが可能であった。 (i)因果オパクモデルの一般化性能に適合する。 二 介入及び反事実シナリオの分析を支援して、モデルの因果解釈性を改善し、その信頼性及び公正性の有効検証を支援すること。 三 修正後の下流の精度を向上するとともに、特定事例に対する説明の正確性を向上し、中間推論ステップの誤予測を可能にすること。

Causal opacity denotes the difficulty in understanding the "hidden" causal structure underlying a deep neural network's (DNN) reasoning. This leads to the inability to rely on and verify state-of-the-art DNN-based systems especially in high-stakes scenarios. For this reason, causal opacity represents a key open challenge at the intersection of deep learning, interpretability, and causality. This work addresses this gap by introducing Causal Concept Embedding Models (Causal CEMs), a class of interpretable models whose decision-making process is causally transparent by design. The results of our experiments show that Causal CEMs can: (i) match the generalization performance of causally-opaque models, (ii) support the analysis of interventional and counterfactual scenarios, thereby improving the model's causal interpretability and supporting the effective verification of its reliability and fairness, and (iii) enable human-in-the-loop corrections to mispredicted intermediate reasoning steps, boosting not just downstream accuracy after corrections but also accuracy of the explanation provided for a specific instance.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# ブラックボックスをコンセプト・ボトルネック・モデルに変える「AnyCBMs」

AnyCBMs: How to Turn Any Black Box into a Concept Bottleneck Model ( http://arxiv.org/abs/2405.16508v1 )

ライセンス: Link先を確認
Gabriele Dominici, Pietro Barbiero, Francesco Giannini, Martin Gjoreski, Marc Langhenirich, (参考訳) 解釈可能なディープラーニングは、意思決定プロセスがユーザによって理解されるニューラルネットワークの開発を目標としている。 これらの技術の中で、Concept Bottleneck Modelsは、人間の理解可能な概念のレイヤを統合することによって、ニューラルネットワークの解釈可能性を高める。 しかし、これらのモデルは最初から新しいモデルを訓練し、かなりのリソースを消費し、既に訓練済みの大規模モデルを利用できなかった。 この問題に対処するために,既存のトレーニング済みモデルを,計算資源への影響を最小限に抑えた概念ボトルネックモデルに変換する手法である"AnyCBM"を導入する。 我々は,AnyCBMの有効性を示す理論的および実験的知見と,下流タスクにおける概念に基づく介入の有効性について述べる。

Interpretable deep learning aims at developing neural architectures whose decision-making processes could be understood by their users. Among these techniqes, Concept Bottleneck Models enhance the interpretability of neural networks by integrating a layer of human-understandable concepts. These models, however, necessitate training a new model from the beginning, consuming significant resources and failing to utilize already trained large models. To address this issue, we introduce "AnyCBM", a method that transforms any existing trained model into a Concept Bottleneck Model with minimal impact on computational resources. We provide both theoretical and experimental insights showing the effectiveness of AnyCBMs in terms of classification performances and effectivenss of concept-based interventions on downstream tasks.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# 言語エージェントのためのメタタスク計画

Meta-Task Planning for Language Agents ( http://arxiv.org/abs/2405.16510v1 )

ライセンス: Link先を確認
Cong Zhang, Deik Derrick Goh Xin, Dexun Li, Hao Zhang, Yong Liu, (参考訳) ニューラルネットワークモデルの急速な進歩は、インテリジェントエージェント研究の新たな飛躍を引き起こした。 従来のエージェントとは異なり、大規模言語モデルベースエージェント(LLMエージェント)は、より優れた推論と一般化能力のために、人工知能(AGI)を実現するための有望なパラダイムとして登場した。 LLMエージェントが現実のタスクで成功するためには,効果的な計画が不可欠である。 現在の計画手法は通常、タスクを実行可能なアクションシーケンスに変換する。 しかし、複雑なタスクを細粒度で実行可能であるか最適な順序を決定することは、しばしば不均一なアクションの長い連鎖を構成することを必要とするが、依然として困難である。 本稿では,メタタスク計画(Meta-Task Planning, MTP)について紹介する。 各メタタスクは実行可能アクションにマッピングされる。 MTPはTravelPlannerとAPI-Bankの2つの厳格なベンチマークで評価された。 特に、MTPはTravelPlannerで平均$\sim40\%$成功率を達成し、最先端(SOTA)ベースライン(2.92\%$)よりもはるかに高く、API-BankでReActで$LLM_{api}$-4を上回り、LCMをマルチエージェントシステムに統合する可能性を示している。

The rapid advancement of neural language models has sparked a new surge of intelligent agent research. Unlike traditional agents, large language model-based agents (LLM agents) have emerged as a promising paradigm for achieving artificial general intelligence (AGI) due to their superior reasoning and generalization capabilities. Effective planning is crucial for the success of LLM agents in real-world tasks, making it a highly pursued topic in the community. Current planning methods typically translate tasks into executable action sequences. However, determining a feasible or optimal sequence for complex tasks at fine granularity, which often requires compositing long chains of heterogeneous actions, remains challenging. This paper introduces Meta-Task Planning (MTP), a zero-shot methodology for collaborative LLM-based multi-agent systems that simplifies complex task planning by decomposing it into a hierarchy of subordinate tasks, or meta-tasks. Each meta-task is then mapped into executable actions. MTP was assessed on two rigorous benchmarks, TravelPlanner and API-Bank. Notably, MTP achieved an average $\sim40\%$ success rate on TravelPlanner, significantly higher than the state-of-the-art (SOTA) baseline ($2.92\%$), and outperforming $LLM_{api}$-4 with ReAct on API-Bank by $\sim14\%$, showing the immense potential of integrating LLM with multi-agent systems.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# SE3Set:分子表現学習のためのハーネスリング同変ハイパーグラフニューラルネットワーク

SE3Set: Harnessing equivariant hypergraph neural networks for molecular representation learning ( http://arxiv.org/abs/2405.16511v1 )

ライセンス: Link先を確認
Hongfei Wu, Lijun Wu, Guoqing Liu, Zhirong Liu, Bin Shao, Zun Wang, (参考訳) 本稿では,分子表現学習に適したSE(3)同変ハイパーグラフニューラルネットワークアーキテクチャであるSE3Setを開発する。 ハイパーグラフは単に従来のグラフの拡張ではなく、高階関係をモデル化するための重要な要素である。 そこで我々はまず,分子系の化学情報と3次元空間情報の両方を考慮した断片化手法を提案する。 次に、ハイパーグラフニューラルネットワークに等価性を組み込んだSE3Setを設計する。 これにより、学習された分子表現が空間変換に不変であることを保証するため、分子特性の正確な予測に不可欠な堅牢性を提供する。 SE3Setは、QM9やMD17のような小さな分子データセットのための最先端(SOTA)モデルと同等のパフォーマンスを示している。 MD22データセットを上回り、全ての分子で約20%の精度向上を実現し、より大規模な分子における複雑な多体相互作用の頻度を強調している。 様々な分子構造にまたがるSE3Setの例外的な性能は、計算化学における変換可能性を強調し、より正確で物理的にニュアンスなモデリングへの道筋を提供する。

In this paper, we develop SE3Set, an SE(3) equivariant hypergraph neural network architecture tailored for advanced molecular representation learning. Hypergraphs are not merely an extension of traditional graphs; they are pivotal for modeling high-order relationships, a capability that conventional equivariant graph-based methods lack due to their inherent limitations in representing intricate many-body interactions. To achieve this, we first construct hypergraphs via proposing a new fragmentation method that considers both chemical and three-dimensional spatial information of molecular system. We then design SE3Set, which incorporates equivariance into the hypergragh neural network. This ensures that the learned molecular representations are invariant to spatial transformations, thereby providing robustness essential for accurate prediction of molecular properties. SE3Set has shown performance on par with state-of-the-art (SOTA) models for small molecule datasets like QM9 and MD17. It excels on the MD22 dataset, achieving a notable improvement of approximately 20% in accuracy across all molecules, which highlights the prevalence of complex many-body interactions in larger molecules. This exceptional performance of SE3Set across diverse molecular structures underscores its transformative potential in computational chemistry, offering a route to more accurate and physically nuanced modeling.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# Cascaded Amortized Latent Diffusion Modelを用いたメモリ効率の高い高分解能CTボリューム合成

Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models ( http://arxiv.org/abs/2405.16516v1 )

ライセンス: Link先を確認
Kun Huang, Xiao Ma, Yuhan Zhang, Na Su, Songtao Yuan, Yong Liu, Qiang Chen, Huazhu Fu, (参考訳) 光コヒーレンス断層撮影(OCT)画像解析は眼科領域において重要な役割を担っている。 現在の成功した分析モデルは利用可能な大規模なデータセットに依存しており、特定のタスクで取得することは困難である。 現実的なデータを作成するための深層生成モデルの使用は、有望なアプローチとして現れます。 しかし、ハードウェアリソースの制限のため、高解像度のOCTボリュームを合成することは依然として困難である。 本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded Amortized Latent diffusion model)を提案する。 まず,高分解能ボリューム空間と低分解能潜在空間の双方向マッピングを効率的に構築するための非全体論的オートエンコーダを提案する。 オートエンコーダを用いたタンデムでは,高分解能CTボリュームをグローバル・ローカルな精細化プロセスで合成し,メモリと計算要求を補正するカスケード拡散プロセスを提案する。 公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。 さらに、下流2つの細粒度セグメンテーションタスクの性能向上は、医用画像タスクのためのディープラーニングモデルのトレーニングにおいて提案手法の利点を示す。 コードは、https://github.com/nicetomeetu21/CA-LDM.comで公開されている。

Optical coherence tomography (OCT) image analysis plays an important role in the field of ophthalmology. Current successful analysis models rely on available large datasets, which can be challenging to be obtained for certain tasks. The use of deep generative models to create realistic data emerges as a promising approach. However, due to limitations in hardware resources, it is still difficulty to synthesize high-resolution OCT volumes. In this paper, we introduce a cascaded amortized latent diffusion model (CA-LDM) that can synthesis high-resolution OCT volumes in a memory-efficient way. First, we propose non-holistic autoencoders to efficiently build a bidirectional mapping between high-resolution volume space and low-resolution latent space. In tandem with autoencoders, we propose cascaded diffusion processes to synthesize high-resolution OCT volumes with a global-to-local refinement process, amortizing the memory and computational demands. Experiments on a public high-resolution OCT dataset show that our synthetic data have realistic high-resolution and global features, surpassing the capabilities of existing methods. Moreover, performance gains on two down-stream fine-grained segmentation tasks demonstrate the benefit of the proposed method in training deep learning models for medical imaging tasks. The code is public available at: https://github.com/nicetomeetu21/CA-LDM.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# Sp2360: Cascaded 2D Diffusion Priors を用いたSparse-view 360 シーン再構成

Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors ( http://arxiv.org/abs/2405.16517v1 )

ライセンス: Link先を確認
Soumava Paul, Christopher Wewer, Bernt Schiele, Jan Eric Lenssen, (参考訳) 我々は,潜伏拡散モデル(LDM)の先行モデルを用いて,360度3次元シーンのスパースビュー再構成に取り組むことを目的とする。 スパースビュー設定は、特にカメラが1点あたり360度回転するシーンでは、中心となる対象に焦点を絞ったフロントビュー以外の視覚情報がないため、不適切で制約の少ない。 本研究では,事前学習した2次元拡散モデルにより,低コストな微調整によるシーンの再現性を強く向上させることができることを示す。 具体的にはSparseSplat360 (Sp2360) について述べる。 トレーニングやレンダリングの速度が優れているため,NeRFに基づく暗示表現よりも3次元ガウスの形で明示的なシーン表現を用いる。 本稿では,初期スパース入力に適合する既存の3次元ガウスモデルを用いて,生成した擬似新奇なビューを融合する反復的更新戦略を提案する。 その結果、観察された入力に忠実な細部を持つ多視点一貫したシーン表現が得られる。 課題であるMip-NeRF360データセットに対する評価から,提案した2次元から3次元の蒸留アルゴリズムは,スパースビュー設定に適応した3DGSの正規化バージョンの性能を著しく向上し,既存のスパースビュー再構築手法を360度シーン再構成で性能良くすることを示す。 定性的には,本手法は,9つの入力ビューから全360シーンを生成する。

We aim to tackle sparse-view reconstruction of a 360 3D scene using priors from latent diffusion models (LDM). The sparse-view setting is ill-posed and underconstrained, especially for scenes where the camera rotates 360 degrees around a point, as no visual information is available beyond some frontal views focused on the central object(s) of interest. In this work, we show that pretrained 2D diffusion models can strongly improve the reconstruction of a scene with low-cost fine-tuning. Specifically, we present SparseSplat360 (Sp2360), a method that employs a cascade of in-painting and artifact removal models to fill in missing details and clean novel views. Due to superior training and rendering speeds, we use an explicit scene representation in the form of 3D Gaussians over NeRF-based implicit representations. We propose an iterative update strategy to fuse generated pseudo novel views with existing 3D Gaussians fitted to the initial sparse inputs. As a result, we obtain a multi-view consistent scene representation with details coherent with the observed inputs. Our evaluation on the challenging Mip-NeRF360 dataset shows that our proposed 2D to 3D distillation algorithm considerably improves the performance of a regularized version of 3DGS adapted to a sparse-view setting and outperforms existing sparse-view reconstruction methods in 360 scene reconstruction. Qualitatively, our method generates entire 360 scenes from as few as 9 input views, with a high degree of foreground and background detail.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# 4状態参照フレーム非依存量子鍵分布の200km以上での実験的実証

Experimental demonstration of 4-state reference-frame-independent quantum key distribution over 200km ( http://arxiv.org/abs/2405.16518v1 )

ライセンス: Link先を確認
Ziran Xie, Zhiyu Tian, Shihai Sun, (参考訳) 参照フレーム独立量子鍵分布(RFI-QKD)は、システム内のアクティブな参照フレームアライメントの必要性を回避するため、実用的な用途に特有の利点があるため、広く注目を集めている。 しかし、標準のBB84プロトコルと比較して、元の6状態のRFIプロトコルはアリスとボブによって操作されるより多くの量子状態を必要とする。 本研究では, 4 状態 RFI プロトコルを提案し,Alice と Bob はそれぞれ,参照フレームの偏差に依存しないチャネル推定を行うために, 4 つの量子状態しか必要としないことを示す。 さらに、有限サイズの鍵効果を考慮した数値シミュレーションにより、元の6状態RFIプロトコルと同等の安全な鍵レートと送信距離を実現できることを示す。 最後に,200km以上の実験を行い,本計画の実現可能性について検討した。 提案プロトコルは,RFI-QKDの実装の合理化に寄与し,RFI-QKDの実用化に寄与すると考えられる。

Reference frame independent quantum key distribution (RFI-QKD) has gained widespread attention due to the unique advantage for practical application, as it circumvents the need for active reference frame alignment within the system. However, in comparison to the standard BB84 protocol, the original 6-state RFI protocol requires a greater number of quantum states to be operated by Alice and Bob, which is an aspect that merits optimization. In this work, we propose a 4-state RFI protocol and illustrate that Alice and Bob each require only four quantum states to perform channel estimation that remains independent of reference frame deviation, which can proficiently reduce the system complexity. Furthermore, through numerical simulations taking the finite-size key effect into consideration, we show that 4-state RFI protocol can achieve a secure key rate and transmission distance on par with the original 6-state RFI protocol. Finally, a experiment over 200 km is inplemented to conducted the feasibility of our scheme. We believe that our protocol can streamline the implementation of RFI-QKD and thereby contribute to the practical advancement of RFI-QKD.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# 加重集合と点雲に対する単射スライス・ワッサーシュタイン埋め込み

Injective Sliced-Wasserstein embedding for weighted sets and point clouds ( http://arxiv.org/abs/2405.16519v1 )

ライセンス: Link先を確認
Tal Amir, Nadav Dym, (参考訳) 我々は、$\textit{Sliced Wasserstein Embedding}$ $\unicode{x2014}$という新しい方法を提示し、$\mathbb{R}^d$ 上の多重集合と分布をユークリッド空間に埋め込む。 我々の埋め込みは射影的であり、スライスされたワッサーシュタイン距離をほぼ保存する。 さらに、多重集合に制限された場合、それはビ・リプシッツである。 また、そのサポートが有界で有限である仮定の下でも、$\mathbb{R}^d$ 上の分布をバイ・リプシッツな方法でユークリッド空間に埋め込むのは $\textit{impossible}$ であることを示す。 我々は,既存のマルチセット処理手法よりも,組込みが学習タスクに実用的な優位性をもたらすことを実証的に実証した。

We present the $\textit{Sliced Wasserstein Embedding}$ $\unicode{x2014}$ a novel method to embed multisets and distributions over $\mathbb{R}^d$ into Euclidean space. Our embedding is injective and approximately preserves the Sliced Wasserstein distance. Moreover, when restricted to multisets, it is bi-Lipschitz. We also prove that it is $\textit{impossible}$ to embed distributions over $\mathbb{R}^d$ into a Euclidean space in a bi-Lipschitz manner, even under the assumption that their support is bounded and finite. We demonstrate empirically that our embedding offers practical advantage in learning tasks over existing methods for handling multisets.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# モデルレス強化学習のための多状態TDターゲット

Multi-State TD Target for Model-Free Reinforcement Learning ( http://arxiv.org/abs/2405.16522v1 )

ライセンス: Link先を確認
Wuhao Wang, Zhiyong Chen, Lepeng Zhang, (参考訳) 時間差学習(TD learning)は、TDターゲットを用いて状態または状態-作用対の値推定を更新する強化学習の基本的な技術である。 このターゲットは、後続状態の即時報酬と推定値の両方を組み込むことにより、真の価値の見積もりを改善することを表す。 伝統的に、TD学習は後の1つの状態の価値に依存している。 本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。 この新たなMSTD概念に基づいて,リプレイバッファを2つのモードで管理し,深い決定論的ポリシー最適化(DDPG)とソフトアクタクリティカル(SAC)を統合した,完全なアクタ批判アルゴリズムを開発した。 実験結果から,MSTDを対象とするアルゴリズムは従来の手法に比べて学習性能を著しく向上することが示された。

Temporal difference (TD) learning is a fundamental technique in reinforcement learning that updates value estimates for states or state-action pairs using a TD target. This target represents an improved estimate of the true value by incorporating both immediate rewards and the estimated value of subsequent states. Traditionally, TD learning relies on the value of a single subsequent state. We propose an enhanced multi-state TD (MSTD) target that utilizes the estimated values of multiple subsequent states. Building on this new MSTD concept, we develop complete actor-critic algorithms that include management of replay buffers in two modes, and integrate with deep deterministic policy optimization (DDPG) and soft actor-critic (SAC). Experimental results demonstrate that algorithms employing the MSTD target significantly improve learning performance compared to traditional methods.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# スピン-0粒子の崩壊によって生じるベクトルダイボソン系における絡み合いとベル不等式違反

Entanglement and Bell inequality violation in vector diboson systems produced in decays of spin-0 particles ( http://arxiv.org/abs/2405.16525v1 )

ライセンス: Link先を確認
Alexander Bernal, Paweł Caban, Jakub Rembieliński, (参考訳) 我々はスピン-0粒子の崩壊によって生じる2つのベクトルボソン系の絡み合いとCGLMP不等式の不等式について論じる。 我々は、スピン-0粒子と娘ボソンの最も一般的なCPT保存ローレンツ不変結合を仮定する。 運動学的構成を平均化して得られる最も一般的な2ボソン密度行列を、適切な確率分布で計算する(これは、両方のボソンが後にフェルミオン反フェルミオンに崩壊したときに得られる)。 2ボソン状態は絡み合っており、(非晶質)結合定数のすべての値に対してCGLMP不等式に反し、この場合、状態は絡み合わされ、CGLMP不等式に反する可能性があることを示す。 この種の模範的な過程として、異常結合を持つ崩壊 $H\to ZZ$ を用いる。

We discuss entanglement and the violation of the CGLMP inequality in a system of two vector bosons produced in the decay of a spin-0 particle. We assume the most general CPT conserving, Lorentz-invariant coupling of the spin-0 particle with the daughter bosons. We compute the most general two-boson density matrix obtained by averaging over kinematical configurations with an appropriate probability distribution (which can be obtained when both bosons subsequently decay into fermion-antifermion). We show that the two-boson state is entangled and violates the CGLMP inequality for all values of the (anomalous) coupling constants and that in this case the state is entangled iff it can violate the CGLMP inequality. As an exemplary process of this kind we use the decay $H\to ZZ$ with anomalous coupling.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# HCIにおけるCitation Practicesの過去・現在・未来

Past, Present, and Future of Citation Practices in HCI ( http://arxiv.org/abs/2405.16526v1 )

ライセンス: Link先を確認
Jonas Oppenlaender, (参考訳) 科学は、学術システムのサイズと性質により、システム全体にはほとんど影響を与えない、個別に集団決定を行う多くの科学者からなる複雑なシステムである。 しかし、HCI(Human-Computer Interaction)コミュニティのようなメソレベルの研究コミュニティにおける決定は、科学者の深い、長期にわたる行動変化をもたらす可能性がある。 本稿では,2016 年の ACM CHI 会議で導入された編集方針の変更が,CHI 記事に含まれる参照件数の平均が年々増加して,CHI コミュニティが拡大する過程でどのように展開されたかを示す。 もしこのほぼ直線的な傾向が相変わらず続くなら、CHI 2030の記事には平均130の参照が含まれている。 我々のメタリサーチは、資源のデジタルアクセシビリティや学術的圧力などの影響を受けながら、HCIにおける引用実践の性質と意味がどう変化したかについての洞察を提供する。 より多くの引用に対する観察傾向は、品質よりも量の方が優先される引用文化を反映し、著者と査読者の双方の疲労に寄与する。 本稿では、研究コミュニティにおけるメタリサーチの価値と、メソレベルの政策調整が科学的分野や規律の進化にもたらす大きな影響を、ステークホルダーに慎重に検討するよう促す。

Science is a complex system comprised of many scientists who individually make collective decisions that, due to the size and nature of the academic system, largely do not affect the system as a whole. However, certain decisions at the meso-level of research communities, such as the Human-Computer Interaction (HCI) community, may result in deep and long-lasting behavioral changes in scientists. In this article, we provide evidence on how a change in editorial policies introduced at the ACM CHI Conference in 2016 launched the CHI community on an expansive path, denoted by a year-by-year increase in the mean number of references included in CHI articles. If this near-linear trend continues undisrupted, an article in CHI 2030 will include on average almost 130 references. Our meta-research provides insights into how the nature and meaning of citation practices in HCI have changed, influenced by factors such as digital accessibility of resources and academic pressures. The observed trend towards more citations reflects a citation culture where quantity is prioritized over quality, contributing to both author and peer reviewer fatigue. This article underscores the value of meta-research for research communities and the profound impact that meso-level policy adjustments have on the evolution of scientific fields and disciplines, urging stakeholders to carefully consider the broader implications of such changes.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# LoQT: 量子化トレーニングのための低ランクアダプタ

LoQT: Low Rank Adapters for Quantized Training ( http://arxiv.org/abs/2405.16528v1 )

ライセンス: Link先を確認
Sebastian Loeschcke, Mads Toftrup, Michael J. Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson, (参考訳) 大規模なニューラルネットワークのトレーニングには、かなりの計算資源が必要である。 低ランクアダプタと量子化の進歩にもかかわらず、消費者ハードウェア上でのLCMのようなモデルの事前訓練は、モデルのシャーディング、トレーニング中のオフロード、層ごとの勾配更新なしでは不可能である。 これらの制約に対処するため、量子化モデルを効率的に訓練するLoQTを提案する。 LoQTは勾配に基づくテンソル分解を用いて、定期的に量子化されたフルランクの重み行列にマージされる低ランクのトレーニング可能な重み行列を初期化する。 提案手法は事前学習と微調整の両方に適しており,言語モデリングと下流タスク適応の実験的な実証を行った。 LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。 また,同一ハードウェア上での層間勾配更新による13Bパラメータモデルのトレーニングの実現可能性を示す。

Training of large neural networks requires significant computational resources. Despite advances using low-rank adapters and quantization, pretraining of models such as LLMs on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose LoQT, a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning of models, which we demonstrate experimentally for language modeling and downstream task adaptation. We find that LoQT enables efficient training of models up to 7B parameters on a consumer-grade 24GB GPU. We also demonstrate the feasibility of training a 13B parameter model using per-layer gradient updates on the same hardware.
翻訳日:2024-05-28 20:49:07 公開日:2024-05-26
# Zhukovsky-Volterraトップと量子化イデアル

Zhukovsky-Volterra top and quantisation ideals ( http://arxiv.org/abs/2405.16532v1 )

ライセンス: Link先を確認
A. Mikhailov, T. Skrypnyk, (参考訳) このレターでは、古典力学の基本モデルであるズコフスキー・ヴォルテラトップの量子化問題を再検討する。 2つの2次および2つの線形ポアソンブラケットからなる、互換性のあるポアソンブラケットの4つのパラメトリック鉛筆を発見した。 量子化理想法を用いて、Zhukovsky-Volterraトップの2つの異なる量子化を同定した。 最初の型は$so(3)$の普遍包絡代数に対応し、古典的極限におけるリー・ポアソン括弧に繋がる。 2番目のタイプは、4つのパラメトリックな不均一な二次ポアソン鉛筆の量子化と見なすことができる。 我々は,本稿で得られた量子化,オイラートップのスクリャニンの量子化,およびチューコフスキー-ヴォルテラトップのレヴィン・オルシャネツキー-ゾトフの量子化の関係について論じる。

In this letter, we revisit the quantisation problem for a fundamental model of classical mechanics - the Zhukovsky-Volterra top. We have discovered a four-parametric pencil of compatible Poisson brackets, comprising two quadratic and two linear Poisson brackets. Using the quantisation ideal method, we have identified two distinct quantisations of the Zhukovsky-Volterra top. The first type corresponds to the universal enveloping algebras of $so(3)$, leading to Lie-Poisson brackets in the classical limit. The second type can be regarded as a quantisation of the four-parametric inhomogeneous quadratic Poisson pencil. We discuss the relationships between the quantisations obtained in our paper, Sklyanin's quantisation of the Euler top, and Levin-Olshanetsky-Zotov's quantisation of the Zhukovsky-Volterra top.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# ツールのチェーン: 大規模言語モデルは自動マルチツール学習者である

Chain of Tools: Large Language Model is an Automatic Multi-tool Learner ( http://arxiv.org/abs/2405.16533v1 )

ライセンス: Link先を確認
Zhengliang Shi, Shen Gao, Xiuyi Chen, Yue Feng, Lingyong Yan, Haibo Shi, Dawei Yin, Zhumin Chen, Suzan Verberne, Zhaochun Ren, (参考訳) 大規模な言語モデル(LLM)を外部ツールで拡張することは、実用性を拡張し、実用的なタスクを解くための有望なアプローチとして現れました。 LLMはステップバイステップで一連のツールを計画し、各ツールを逐次実行して最終回答を得るまで中間結果を得る。 1) 手作りの制御フローは、しばしばアドホックで、LLMをローカルプランニングに制約する; 2) LLMは、手動でデモされたツールや、十分に訓練されたPython関数のみを使用するように指示され、新しいツールへの一般化が制限される。 本研究ではまず,LLMをマルチツールユーザとして機能させるためのフレームワークであるAutomatic Tool Chain(ATC)を提案する。 次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。 これにより、LLMはツールの使い方を積極的に発見し、文書化し、新しいツールを適切にマスターするように自らを教えるツール学習者として、さらに強化される。 包括的な評価のために、私たちはToolFlowという、長期計画シナリオと複雑なツールセットによって、以前のベンチマークから切り離された、挑戦的なベンチマークを構築しました。 既存のデータセットとToolFlowの両方の実験は、私たちのフレームワークの優位性を示しています。 異なる設定の分析は、我々のブラックボックス探索アルゴリズムの有効性と有用性も検証する。

Augmenting large language models (LLMs) with external tools has emerged as a promising approach to extend their utility, empowering them to solve practical tasks. Existing work typically empowers LLMs as tool users with a manually designed workflow, where the LLM plans a series of tools in a step-by-step manner, and sequentially executes each tool to obtain intermediate results until deriving the final answer. However, they suffer from two challenges in realistic scenarios: (1) The handcrafted control flow is often ad-hoc and constraints the LLM to local planning; (2) The LLM is instructed to use only manually demonstrated tools or well-trained Python functions, which limits its generalization to new tools. In this work, we first propose Automatic Tool Chain (ATC), a framework that enables the LLM to act as a multi-tool user, which directly utilizes a chain of tools through programming. To scale up the scope of the tools, we next propose a black-box probing method. This further empowers the LLM as a tool learner that can actively discover and document tool usages, teaching themselves to properly master new tools. For a comprehensive evaluation, we build a challenging benchmark named ToolFlow, which diverges from previous benchmarks by its long-term planning scenarios and complex toolset. Experiments on both existing datasets and ToolFlow illustrate the superiority of our framework. Analysis on different settings also validates the effectiveness and the utility of our black-box probing algorithm.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 拡散モデルにおけるロバスト概念消去のためのプルーニング

Pruning for Robust Concept Erasing in Diffusion Models ( http://arxiv.org/abs/2405.16534v1 )

ライセンス: Link先を確認
Tianyun Yang, Juan Cao, Chang Xu, (参考訳) 画像を生成するという印象的な能力にもかかわらず、テキストから画像への拡散モデルは、NSFWコンテンツや著作権付きアートワークのような望ましくないアウトプットを生成できる。 この問題に対処するために、最近の研究では、問題のある概念を消すための微調整モデルパラメータに焦点を当てている。 しかし、既存の手法は、巧妙に製作されたプロンプトに直面すると望ましくない出力をしばしば再現するため、ロバスト性に大きな欠陥を示す。 これは、現在のアプローチの根本的な制限を明らかにし、オープンな世界における拡散モデルの展開のリスクを高める可能性がある。 このギャップに対処するために、概念関連ニューロンを見つけ、これらのニューロンは敵のプロンプトに対して高い感度を示すので、攻撃下で再び消去と再活性化を行う際には、非活性化される可能性がある。 堅牢性を向上させるため,我々は概念消去のための新しいプルーニングベースの戦略を導入する。 本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。 提案手法は,既存の概念評価手法と容易に統合でき,対向入力に対する堅牢な改善を提供する。 実験結果から,NSFW内容の消去は40%,アートスタイルの消去は30%に向上した。

Despite the impressive capabilities of generating images, text-to-image diffusion models are susceptible to producing undesirable outputs such as NSFW content and copyrighted artworks. To address this issue, recent studies have focused on fine-tuning model parameters to erase problematic concepts. However, existing methods exhibit a major flaw in robustness, as fine-tuned models often reproduce the undesirable outputs when faced with cleverly crafted prompts. This reveals a fundamental limitation in the current approaches and may raise risks for the deployment of diffusion models in the open world. To address this gap, we locate the concept-correlated neurons and find that these neurons show high sensitivity to adversarial prompts, thus could be deactivated when erasing and reactivated again under attacks. To improve the robustness, we introduce a new pruning-based strategy for concept erasing. Our method selectively prunes critical parameters associated with the concepts targeted for removal, thereby reducing the sensitivity of concept-related neurons. Our method can be easily integrated with existing concept-erasing techniques, offering a robust improvement against adversarial inputs. Experimental results show a significant enhancement in our model's ability to resist adversarial inputs, achieving nearly a 40% improvement in erasing the NSFW content and a 30% improvement in erasing artwork style.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# I2VEdit:画像とビデオの拡散モデルによるファーストフレームの動画編集

I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models ( http://arxiv.org/abs/2405.16537v1 )

ライセンス: Link先を確認
Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan, (参考訳) 拡散モデルの顕著な生成能力は、画像編集とビデオ編集の両方において広範な研究を動機付けている。 ビデオ編集が時間軸のさらなる課題に直面しているのに対し、画像編集はより多様な高品質なアプローチとPhotoshopのようなより有能なソフトウェアの開発を目撃している。 このギャップを鑑みて,1フレームからビデオ全体への編集を事前学習した画像-映像モデルを用いて伝播させることにより,映像編集ツールの動画への適用性を高める,新規で汎用的なソリューションを提案する。 提案手法はI2VEditと呼ばれ,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保存し,グローバルな編集,局所的な編集,適度な形状変化を効果的に処理し,既存の手法では達成できない。 本手法のコアとなるのは,基本動作パターンを元の映像と整列する粗い動き抽出法と,微粒な注意マッチングを用いた精密調整のための外観補正法である。 また,複数のビデオクリップ間で自動回帰生成による品質劣化を軽減するために,スキップ区間戦略を取り入れた。 実験により,高精細ビデオ編集におけるフレームワークの優れた性能を示し,高品質で時間的に一貫した出力を生成する能力を示した。

The remarkable generative capabilities of diffusion models have motivated extensive research in both image and video editing. Compared to video editing which faces additional challenges in the time dimension, image editing has witnessed the development of more diverse, high-quality approaches and more capable software like Photoshop. In light of this gap, we introduce a novel and generic solution that extends the applicability of image editing tools to videos by propagating edits from a single frame to the entire video using a pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively preserves the visual and motion integrity of the source video depending on the extent of the edits, effectively handling global edits, local edits, and moderate shape changes, which existing methods cannot fully achieve. At the core of our method are two main processes: Coarse Motion Extraction to align basic motion patterns with the original video, and Appearance Refinement for precise adjustments using fine-grained attention matching. We also incorporate a skip-interval strategy to mitigate quality degradation from auto-regressive generation across multiple video clips. Experimental results demonstrate our framework's superior performance in fine-grained video editing, proving its capability to produce high-quality, temporally consistent outputs.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 認知症早期発見のためのゲーミフィケーションAIアプリ

Gamified AI Approch for Early Detection of Dementia ( http://arxiv.org/abs/2405.16538v1 )

ライセンス: Link先を確認
Paramita Kundu Maji, Soubhik Acharya, Priti Paul, Sanjay Chakraborty, Saikat Basu, (参考訳) 本稿では,認知症早期発見のための新しい深層学習型ゲーム手法を開発することを目的とする。 本研究は、認知評価ベースのゲームアプリケーションを通じて、健康指標データと顔画像データを用いた早期認知症検出のための頑健な畳み込みニューラルネットワーク(CNN)ベースのモデルを統合する。 ゲームレベル1のMOD-1D-CNNのトレーニング用としてラベル付けされたApollo Diagnostic Center Kolkataの健康測定データ1000と,ゲームレベル2のMOD-2D-CNNモデルのトレーニング用として,認知型または非認知型とラベル付けされた1800の顔データを含む顔画像のデータセットを収集した。 本研究で提案したMOD-1D-CNNモデルにおける損失は0.2692であり, 実際の健康指標データを用いて認知症特性の同定に最も高い精度が70.50%である。 同様に、提案したMOD-2D-CNNモデル損失は0.1755であり、実際の顔画像データを用いて認知症状態を認識するための最高精度は95.72%である。 そこで,提案手法を組み合わせ,最終決定を下すためにルールに基づく重み付け法を適用した。 MOD-1D-CNNおよびMOD-2D-CNNモデルは、他の最先端モデルと比較してパラメータ数が大幅に少ないため、より軽量で計算的に効率的な代替品である。 それらの精度とパラメータを、他の最先端のディープラーニングモデルと比較した。

This paper aims to develop a new deep learning-inspired gaming approach for early detection of dementia. This research integrates a robust convolutional neural network (CNN)-based model for early dementia detection using health metrics data as well as facial image data through a cognitive assessment-based gaming application. We have collected 1000 data samples of health metrics dataset from Apollo Diagnostic Center Kolkata that is labeled as either demented or non-demented for the training of MOD-1D-CNN for the game level 1 and another dataset of facial images containing 1800 facial data that are labeled as either demented or non-demented is collected by our research team for the training of MOD-2D-CNN model in-game level 2. In our work, the loss for the proposed MOD-1D-CNN model is 0.2692 and the highest accuracy is 70.50% for identifying the dementia traits using real-life health metrics data. Similarly, the proposed MOD-2D-CNN model loss is 0.1755 and the highest accuracy is obtained here 95.72% for recognizing the dementia status using real-life face-based image data. Therefore, a rule-based weightage method is applied to combine both the proposed methods to achieve the final decision. The MOD-1D-CNN and MOD-2D-CNN models are more lightweight and computationally efficient alternatives because they have a significantly lower number of parameters when compared to the other state-of-the-art models. We have compared their accuracies and parameters with the other state-of-the-art deep learning models.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 行列符号上のMinRank Gabidulin暗号方式

MinRank Gabidulin encryption scheme on matrix codes ( http://arxiv.org/abs/2405.16539v1 )

ライセンス: Link先を確認
Nicolas Aragon, Alain Couvreur, Victor Dyseryn, Philippe Gaborit, Adrien Vinçotte, (参考訳) McElieceスキームはジェネリックフレームであり、ジェネレータ行列コードを隠蔽して暗号化スキームを設計するための効率的な復号アルゴリズムが存在する任意の誤り訂正コードを使用することができる。 同様に、Niederreiter フレームは McEliece スキームの二重バージョンであり、より小さな暗号文を実現する。 本稿では,行列符号とMinRank問題に対するMcElieceフレームとNiederreiterフレームの一般化を提案し,ガビデュリン行列符号(ガビデュリン階数符号を行列符号と見なす)に適用する。 私たちが検討するマスキングは、ランクコードCから始まり、Cの行列バージョンを検討し、ランクコードCの行列コードに特定の行と列を連結し、その後、行列コードCの等尺形に適用する。 スキームのセキュリティは、暗号文を復号するためにMinRank問題に依存しており、スキームの構造的セキュリティは、我々が導入し、詳細に研究する新しい問題EGMC-Indistinguishability問題に依存している。 提案する主な構造的攻撃は,マスク処理中に失われる拡張体上でのマスク付き線形性回復である。 全体的には、ガビデュリン符号から、暗号文のサイズと公開鍵の大きさの間の非常に魅力的なトレードオフを得る。 セキュリティの128bについては、サイズ65Bの暗号文(およびサイズ98kBの公開鍵)からサイズ128Bの暗号文(およびサイズ41kBの公開鍵)までのパラメータを提案する。 我々の新しいアプローチは、古典的なMcEliece方式よりも、暗号文と公開鍵とのトレードオフを良くすることを可能にする。 我々の新しいアプローチは、古典的なMcElieceスキームに代わるスキームを得ることができ、非常に小さな暗号文を得ることができ、さらに、古典的なMcElieceスキームよりも小さな公開鍵を得ることができる。 256ビットのセキュリティでは、119B以下の暗号文や87kB以下の公開鍵を得ることができる。

The McEliece scheme is a generic frame which allows to use any error correcting code of which there exists an efficient decoding algorithm to design an encryption scheme by hiding the generator matrix code. Similarly, the Niederreiter frame is the dual version of the McEliece scheme, and achieves smaller ciphertexts. We propose a generalization of the McEliece frame and the Niederreiter frame to matrix codes and the MinRank problem, that we apply to Gabidulin matrix codes (Gabidulin rank codes considered as matrix codes). The masking we consider consists in starting from a rank code C, to consider a matrix version of C and to concatenate a certain number of rows and columns to the matrix codes version of the rank code C and then apply to an isometry for matric codes. The security of the schemes relies on the MinRank problem to decrypt a ciphertext, and the structural security of the scheme relies on a new problem EGMC-Indistinguishability problem that we introduce and that we study in detail. The main structural attack that we propose consists in trying to recover the masked linearity over the extension field which is lost during the masking process. Overall, starting from Gabidulin codes we obtain a very appealing tradeoff between the size of ciphertext and the size of the public key. For 128b of security we propose parameters ranging from ciphertext of size 65 B (and public keys of size 98 kB) to ciphertext of size 138B (and public key of size 41 kB). Our new approach permits to achieve better trade-off between ciphertexts and public key than the classical McEliece scheme. Our new approach permits to obtain an alternative scheme to the classic McEliece scheme, to obtain very small ciphertexts, with moreover smaller public keys than in the classic McEliece scheme. For 256 bits of security, we can obtain ciphertext as low as 119B, or public key as low as 87kB.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 準確率的ビット消去はベル非局所性を引き起こす

Quasi-probabilistic Bit Erasure Causes Bell Non-locality ( http://arxiv.org/abs/2405.16540v1 )

ライセンス: Link先を確認
Kelvin Onggadinata, Pawel Kurzynski, Dagomir Kaszlikowski, (参考訳) ベル非局所性(ベル非局所性)は、準確率過程、すなわち遷移確率が負の確率過程によって局所ビット消去の直接的な結果であることを示す。

We show that a maximal violation of the Bell-CHSH inequality for two entangled qubits, i.e., Bell non-locality, is a direct consequence of a local bit erasure by means of a quasi-stochastic process, i.e., a stochastic process in which some transition probabilities are negative.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# ランダムな特徴に対する変数還元結合:最適輸送の観点から

Variance-Reducing Couplings for Random Features: Perspectives from Optimal Transport ( http://arxiv.org/abs/2405.16541v1 )

ライセンス: Link先を確認
Isaac Reid, Stratis Markou, Krzysztof Choromanski, Richard E. Turner, Adrian Weller, (参考訳) ランダム機能(RF)は、機械学習におけるカーネルメソッドをスケールアップするための一般的なテクニックであり、正確なカーネル評価を確率的モンテカルロ推定に置き換える。 これらは(共分散関数を近似することによって)スパーススペクトルガウス過程に(注意を近似することによって)効率的な変換器と同じくらい多様なモデルを導く。 これらの推定値の収束を早めることで効率をさらに向上することができる:分散還元問題。 我々は、理論的洞察と数値アルゴリズムを用いて最適な輸送の統一的な枠組みを用いて、ユークリッドおよび離散入力空間上で定義されたカーネルに対して、新しい高性能なRF結合を開発する。 彼らは具体的な理論的性能保証を享受し、時にはグラフ上のスケーラブルな近似推論を含む、強力な実証的な下流ゲインを提供する。 パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。

Random features (RFs) are a popular technique to scale up kernel methods in machine learning, replacing exact kernel evaluations with stochastic Monte Carlo estimates. They underpin models as diverse as efficient transformers (by approximating attention) to sparse spectrum Gaussian processes (by approximating the covariance function). Efficiency can be further improved by speeding up the convergence of these estimates: a variance reduction problem. We tackle this through the unifying framework of optimal transport, using theoretical insights and numerical algorithms to develop novel, high-performing RF couplings for kernels defined on Euclidean and discrete input spaces. They enjoy concrete theoretical performance guarantees and sometimes provide strong empirical downstream gains, including for scalable approximate inference on graphs. We reach surprising conclusions about the benefits and limitations of variance reduction as a paradigm.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# Mamba4KT: 効率的かつ効果的なMambaベースの知識追跡モデル

Mamba4KT:An Efficient and Effective Mamba-based Knowledge Tracing Model ( http://arxiv.org/abs/2405.16542v1 )

ライセンス: Link先を確認
Yang Cao, Wei Zhang, (参考訳) 知識追跡(KT)は、過去のパフォーマンスを活用して将来のパフォーマンスを予測することによって、学生の学習を促進する。 現在の研究では、注意機構と繰り返しニューラルネットワーク構造に基づくモデルを使用して、エクササイズ間の長期的な依存関係と相関をキャプチャし、モデルの精度を向上させることを目的としている。 スマート教育のシナリオにおけるデータ量の増大により、知識追跡モデルの時間と空間消費の観点からも、これは課題となる。 しかし、既存の研究はモデルトレーニングと推論の効率とトレーニングリソースの制約をしばしば見落としている。 知識追跡におけるモデル効率と資源利用の優先順位付けの重要性を認識し,Mamba4KTを紹介する。 この新モデルは,知識追跡における効率性と資源利用の促進を初めて検討したモデルである。 また, モデル解釈可能性を高めるために, シーケンスレベルとエクササイズレベルの両方において, マンバ構造の解釈可能性についても検討した。 3つの公開データセットにわたる実験結果から、Mamba4KTは最先端モデルに匹敵する予測精度を達成し、トレーニングと推論効率とリソース利用を大幅に改善することが示された。 教育データの増加に伴い,本研究は,モデル予測精度,モデル効率,資源利用量,解釈可能性を同時に向上させる,知識追跡のための有望な研究方向を示唆する。

Knowledge tracing (KT) enhances student learning by leveraging past performance to predict future performance. Current research utilizes models based on attention mechanisms and recurrent neural network structures to capture long-term dependencies and correlations between exercises, aiming to improve model accuracy. Due to the growing amount of data in smart education scenarios, this poses a challenge in terms of time and space consumption for knowledge tracing models. However, existing research often overlooks the efficiency of model training and inference and the constraints of training resources. Recognizing the significance of prioritizing model efficiency and resource usage in knowledge tracing, we introduce Mamba4KT. This novel model is the first to explore enhanced efficiency and resource utilization in knowledge tracing. We also examine the interpretability of the Mamba structure both sequence-level and exercise-level to enhance model interpretability. Experimental findings across three public datasets demonstrate that Mamba4KT achieves comparable prediction accuracy to state-of-the-art models while significantly improving training and inference efficiency and resource utilization. As educational data continues to grow, our work suggests a promising research direction for knowledge tracing that improves model prediction accuracy, model efficiency, resource utilization, and interpretability simultaneously.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# Splat-SLAM: グローバルに最適化されたRGBのみのSLAMと3Dガウス

Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians ( http://arxiv.org/abs/2405.16544v1 )

ライセンス: Link先を確認
Erik Sandström, Keisuke Tateno, Michael Oechsle, Michael Niemeyer, Luc Van Gool, Martin R. Oswald, Federico Tombari, (参考訳) 3D Gaussian Splattingは、RGBのみの高密度局所化とマッピング(SLAM)のための幾何学と外観の強力な表現として登場した。 しかし、既存の手法では、グローバルマップを使わずに最適化を施したり、単分子深度を利用したりするため、他の3次元表現、例えばニューラルポイントクラウドを使った手法に比べて、再現性は著しく低下している。 そこで本研究では,RGBのみのSLAMシステムとして,キーフレームのポーズと深さの更新を動的に適応させることにより,グローバルに最適化されたトラッキングのすべての利点を生かした高密度な3次元ガウス地図表現を提案する。 さらに, 単分子深度推定器による不正確な領域の深度更新を補正することで, さらに3次元再構成の精度が向上することがわかった。 Replica, TUM-RGBD, ScanNetデータセットを用いた実験により, 地図サイズを小さく, 高速な実行環境を実現しつつ, 既存のRGBのみのSLAM法と同等あるいは同等の性能を達成できることを示す。 ソースコードはhttps://github.com/eriksandstroem/Splat-SLAM.comで入手できる。

3D Gaussian Splatting has emerged as a powerful representation of geometry and appearance for RGB-only dense Simultaneous Localization and Mapping (SLAM), as it provides a compact dense map representation while enabling efficient and high-quality map rendering. However, existing methods show significantly worse reconstruction quality than competing methods using other 3D representations, e.g. neural points clouds, since they either do not employ global map and pose optimization or make use of monocular depth. In response, we propose the first RGB-only SLAM system with a dense 3D Gaussian map representation that utilizes all benefits of globally optimized tracking by adapting dynamically to keyframe pose and depth updates by actively deforming the 3D Gaussian map. Moreover, we find that refining the depth updates in inaccurate areas with a monocular depth estimator further improves the accuracy of the 3D reconstruction. Our experiments on the Replica, TUM-RGBD, and ScanNet datasets indicate the effectiveness of globally optimized 3D Gaussians, as the approach achieves superior or on par performance with existing RGB-only SLAM methods methods in tracking, mapping and rendering accuracy while yielding small map sizes and fast runtimes. The source code is available at https://github.com/eriksandstroem/Splat-SLAM.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# Cocktail: LLM生成ドキュメント統合による総合的な情報検索ベンチマーク

Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration ( http://arxiv.org/abs/2405.16546v1 )

ライセンス: Link先を確認
Sunhao Dai, Weihao Liu, Yuqi Zhou, Liang Pang, Rongju Ruan, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen, (参考訳) LLM(Large Language Models)の普及により、インターネット上のAIGC(AIGC)が流入し、情報検索システム(IR)のコーパスが人間のみの書き起こしからLLM生成コンテンツとの共存へと変化した。 このAIGCのIRシステムへの影響は、研究者のための専用のベンチマークが欠如していることから、未解決の問題である。 本稿では,LLM時代の混在データランドスケープにおけるIRモデル評価に適した総合ベンチマークであるCocktailを紹介する。 Cocktailは16の多様なデータセットで構成されており、さまざまなテキスト検索タスクやドメインに対して、人間の書き起こしとLLM生成コーパスが混在している。 さらに,LLMに含まれるデータセット情報から潜在的なバイアスを回避するため,最近のイベントからクエリを抽出したNQ-UTDという最新のデータセットも導入する。 Cocktailのベンチマークデータセットに対して1,000以上の最先端の検索モデルを評価する実験を行うことで、ニューラルネットワークモデルにおけるランク付け性能とソースバイアスとの明確なトレードオフを明らかにし、将来のIRシステム設計におけるバランスのとれたアプローチの必要性を強調します。 我々は,Cocktail が LLM 時代のIR 研究の基盤となることを願っている。すべてのデータとコードは \url{https://github.com/KID-22/Cocktail} で公開されている。

The proliferation of Large Language Models (LLMs) has led to an influx of AI-generated content (AIGC) on the internet, transforming the corpus of Information Retrieval (IR) systems from solely human-written to a coexistence with LLM-generated content. The impact of this surge in AIGC on IR systems remains an open question, with the primary challenge being the lack of a dedicated benchmark for researchers. In this paper, we introduce Cocktail, a comprehensive benchmark tailored for evaluating IR models in this mixed-sourced data landscape of the LLM era. Cocktail consists of 16 diverse datasets with mixed human-written and LLM-generated corpora across various text retrieval tasks and domains. Additionally, to avoid the potential bias from previously included dataset information in LLMs, we also introduce an up-to-date dataset, named NQ-UTD, with queries derived from recent events. Through conducting over 1,000 experiments to assess state-of-the-art retrieval models against the benchmarked datasets in Cocktail, we uncover a clear trade-off between ranking performance and source bias in neural retrieval models, highlighting the necessity for a balanced approach in designing future IR systems. We hope Cocktail can serve as a foundational resource for IR research in the LLM era, with all data and code publicly available at \url{https://github.com/KID-22/Cocktail}.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 未知の共同設立者によるダイアド治療効果の推定

Estimating Dyadic Treatment Effects with Unknown Confounders ( http://arxiv.org/abs/2405.16547v1 )

ライセンス: Link先を確認
Tadao Hoshino, Takahide Yanagi, (参考訳) 本稿では,ダイアディックデータによる治療効果を統計的に評価する手法を提案する。 治療が交換可能な分布に従うという仮定の下で、我々のアプローチは、治療と結果以外の追加情報を必要としない、治療選択の内在性を引き起こす可能性のある、観測されていない要因の存在を可能にする。 ネットワークデータ解析におけるグラファイト推定の文献に基づいて, 線量平均処理効果を推定する近傍カーネル平滑化法を提案する。 また、鋭いヌル仮説をテストするための置換推論法を開発した。 一定の規則性条件下では、提案した推定器の収束率を導出し、テストのサイズ制御特性を実証する。 本手法を国際貿易データに適用し、自由貿易協定が二国間貿易フローに与える影響を評価する。

This paper proposes a statistical inference method for assessing treatment effects with dyadic data. Under the assumption that the treatments follow an exchangeable distribution, our approach allows for the presence of any unobserved confounding factors that potentially cause endogeneity of treatment choice without requiring additional information other than the treatments and outcomes. Building on the literature of graphon estimation in network data analysis, we propose a neighborhood kernel smoothing method for estimating dyadic average treatment effects. We also develop a permutation inference method for testing the sharp null hypothesis. Under certain regularity conditions, we derive the rate of convergence of the proposed estimator and demonstrate the size control property of our test. We apply our method to international trade data to assess the impact of free trade agreements on bilateral trade flows.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# 自動圧縮のための木状プロセステンソル収縮

Tree-like process tensor contraction for automated compression of environments ( http://arxiv.org/abs/2405.16548v1 )

ライセンス: Link先を確認
Moritz Cygorek, Brendon W. Lovett, Jonathan Keeling, Erik M. Gauger, (参考訳) アルゴリズム「環境の自動圧縮」 (ACE) [Nat. Phys. 18, 662 (2022)] は、非常に幅広いオープン量子系のクラスをシミュレートする汎用的な方法を提供する。 これは、相互作用ハミルトニアン(s)と初期状態によって決定される環境の影響を、コンパクトなプロセステンソル行列積作用素(PT-MPO)表現にカプセル化することで達成される。 ACE法の一般化は、高い数値コストで実現されている。 そこで本研究では,PT-MPO縮合の順序を逐次的にツリー様のスキームに変更することにより,ACEの次数調整が可能であることを実証する。 2つの部分PT-MPOと大きな内結合を結合する問題は、予備選択法によって解決される。 事前選択手法の欠点は、MPO圧縮が最適以下であり、逐次結合や圧縮よりもエラーの蓄積が多いことである。 そこで我々は、これらの欠点を微調整圧縮パラメーターによって軽減する戦略も特定する。 その結果、圧縮効率と精度はオリジナルのACEアルゴリズムとよく似ているが、かなり高速である。 以上の結果から, PT-MPOとPT-MPOの併用が特徴であることが示唆された。

The algorithm ``automated compression of environments'' (ACE) [Nat. Phys. 18, 662 (2022)] provides a versatile way of simulating an extremely broad class of open quantum systems. This is achieved by encapsulating the influence of the environment, which is determined by the interaction Hamiltonian(s) and initial states, into compact process tensor matrix product operator (PT-MPO) representations. The generality of the ACE method comes at high numerical cost. Here, we demonstrate that orders-of-magnitude improvement of ACE is possible by changing the order of PT-MPO contraction from a sequential to a tree-like scheme. The problem of combining two partial PT-MPOs with large inner bonds is solved by a preselection approach. The drawbacks of the preselection approach are that the MPO compression is suboptimal and that it is more prone to error accumulation than sequential combination and compression. We therefore also identify strategies to mitigate these disadvantages by fine-tuning compression parameters. This results in a scheme that is similar in compression efficiency and accuracy to the original ACE algorithm, yet is significantly faster. Our numerical experiments reach similar conclusions for bosonic and fermionic test cases, suggesting that our findings are characteristic of the combination of PT-MPOs more generally.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# ReCODE: ニューラルネットワークによる繰り返し消費のモデル化

ReCODE: Modeling Repeat Consumption with Neural ODE ( http://arxiv.org/abs/2405.16550v1 )

ライセンス: Link先を確認
Sunhao Dai, Changle Qu, Sirui Chen, Xiao Zhang, Jun Xu, (参考訳) 音楽分野のような現実世界のレコメンデーションシステムでは、ユーザーが好みの曲やアーティストの小さなセットを頻繁に聞く現象がよく見られる。 繰り返し消費をモデル化する鍵となる点は、ユーザーが繰り返し消費するアイテムの間の時間的パターンを捉えることである。 既存の研究は時空ギャップの指数分布を仮定するなど、しばしばヒューリスティックな仮定に依存している。 しかし、現実のレコメンデータシステムの複雑さが高いため、これらの事前定義された分布は複雑な動的なユーザ消費パターンを捉えず、サブ最適性能をもたらす可能性がある。 複雑なシステムの力学を捉える際に、ニューラル常微分方程式(ODE)の柔軟性から着想を得たReCODEは、ニューラルODEを用いて繰り返し消費をモデル化する新しいモデルに依存しないフレームワークである。 ReCODEは、ユーザの静的嗜好予測モジュールと、ユーザの動的反復意図のモデリングという、2つの重要なコンポーネントから構成される。 即時選択と過去の消費パターンの両方を考慮することで、ReCODEはターゲットコンテキストにおけるユーザー好みの包括的なモデリングを提供する。 さらにReCODEは、コラボレーションベースやシーケンシャルベースのモデルなど、既存のさまざまなレコメンデーションモデルとシームレスに統合することで、さまざまなシナリオに容易に適用できます。 2つの実世界のデータセットに対する実験結果から、ReCODEはベースモデルの性能を大幅に改善し、他のベースライン手法より優れていることが示された。

In real-world recommender systems, such as in the music domain, repeat consumption is a common phenomenon where users frequently listen to a small set of preferred songs or artists repeatedly. The key point of modeling repeat consumption is capturing the temporal patterns between a user's repeated consumption of the items. Existing studies often rely on heuristic assumptions, such as assuming an exponential distribution for the temporal gaps. However, due to the high complexity of real-world recommender systems, these pre-defined distributions may fail to capture the intricate dynamic user consumption patterns, leading to sub-optimal performance. Drawing inspiration from the flexibility of neural ordinary differential equations (ODE) in capturing the dynamics of complex systems, we propose ReCODE, a novel model-agnostic framework that utilizes neural ODE to model repeat consumption. ReCODE comprises two essential components: a user's static preference prediction module and the modeling of user dynamic repeat intention. By considering both immediate choices and historical consumption patterns, ReCODE offers comprehensive modeling of user preferences in the target context. Moreover, ReCODE seamlessly integrates with various existing recommendation models, including collaborative-based and sequential-based models, making it easily applicable in different scenarios. Experimental results on two real-world datasets consistently demonstrate that ReCODE significantly improves the performance of base models and outperforms other baseline methods.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# GPUベースの微分進化:新しい洞察と比較研究

GPU Based Differential Evolution: New Insights and Comparative Study ( http://arxiv.org/abs/2405.16551v1 )

ライセンス: Link先を確認
Dylan Janssen, Wayne Pullan, Alan Wee-Chung Liew, (参考訳) 微分進化(DE)は、数値最適化問題の解法として一般的に用いられる、人口ベースで成功したグローバル最適化アルゴリズムである。 しかし、目的関数の複雑さが増大するにつれて、探索空間を効果的に探索するためには、多くの適合関数評価を行う必要があるため、アルゴリズムのウォールクロック実行時間に悩まされる。 DEアルゴリズムの本質的に並列性のため、グラフィクス処理ユニット(GPU)は適合性評価とDアルゴリズムの両方を効果的に高速化するために使われてきた。 この研究は、GPUベースのDreアルゴリズムの文献で得られた主なアーキテクチャ選択をレビューし、GPUベースのDreアルゴリズムを評価し比較するための新しいGPUベースの数値最適化ベンチマークを導入する。

Differential Evolution (DE) is a highly successful population based global optimisation algorithm, commonly used for solving numerical optimisation problems. However, as the complexity of the objective function increases, the wall-clock run-time of the algorithm suffers as many fitness function evaluations must take place to effectively explore the search space. Due to the inherently parallel nature of the DE algorithm, graphics processing units (GPU) have been used to effectively accelerate both the fitness evaluation and DE algorithm. This work reviews the main architectural choices made in the literature for GPU based DE algorithms and introduces a new GPU based numerical optimisation benchmark to evaluate and compare GPU based DE algorithms.
翻訳日:2024-05-28 20:39:12 公開日:2024-05-26
# SED: 自己評価デコーディングは、より優れた生成のための大規模言語モデルを実現する

SED: Self-Evaluation Decoding Enhances Large Language Models for Better Generation ( http://arxiv.org/abs/2405.16552v1 )

ライセンス: Link先を確認
Ziqin Luo, Haixia Han, Haokun Zhao, Guochao Jiang, Chengyu Du, Tingyun Li, Jiaqing Liang, Deqing Yang, Yanghua Xiao, (参考訳) 既存のLarge Language Models (LLM) は、一方向の自己回帰復号法でテキストを生成し、様々なユーザクエリに応答する。 これらの手法は、簡単な順序でトークンの選択を考える傾向があり、不確実なトークンに遭遇する際、我々の作業においてカオスポイントと呼ばれる、最適以下の選択肢に陥ることが容易である。 LLMが生成したテキストには多くのカオスポイントが存在し、後に生成されたトークンの品質に大きく影響し、LLMの生成に干渉することがある。 本稿では,モデル生成の高速化を目的とした自己評価復号法であるSEDを提案する。 人間の意思決定プロセスと類似して、SEDは推測と評価のステップをデコードプロセスに統合し、LCMがより慎重に決定し、カオス点におけるトークン選択を最適化できるようにする。 異なるLLMを用いた各種タスクに対する実験結果から,SEDの有効性が示された。

Existing Large Language Models (LLMs) generate text through unidirectional autoregressive decoding methods to respond to various user queries. These methods tend to consider token selection in a simple sequential manner, making it easy to fall into suboptimal options when encountering uncertain tokens, referred to as chaotic points in our work. Many chaotic points exist in texts generated by LLMs, and they often significantly affect the quality of subsequently generated tokens, which can interfere with LLMs' generation. This paper proposes Self-Evaluation Decoding, SED, a decoding method for enhancing model generation. Analogous to the human decision-making process, SED integrates speculation and evaluation steps into the decoding process, allowing LLMs to make more careful decisions and thus optimize token selection at chaotic points. Experimental results across various tasks using different LLMs demonstrate SED's effectiveness.
翻訳日:2024-05-28 20:29:28 公開日:2024-05-26
# vHeat: 熱伝導による視覚モデルの構築

vHeat: Building Vision Models upon Heat Conduction ( http://arxiv.org/abs/2405.16555v1 )

ライセンス: Link先を確認
Zhaozhi Wang, Yue Liu, Yunfan Liu, Hongtian Yu, Yaowei Wang, Qixiang Ye, Yunjie Tian, (参考訳) 堅牢で表現力のある視覚表現を学習する際の根本的な問題は、画像全体を通して視覚的意味論の空間的関係を効率的に推定することにある。 本研究では,高い計算効率と大域的受容場を同時に実現するビジョンバックボーンモデルであるvHeatを提案する。 熱伝導の物理的原理にインスパイアされた基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。 この機構は、新たに提案されたモジュールであるHeat Conduction Operator (HCO)を通じて深層モデルに組み込まれ、DCTとIDCTの操作で効率よく実装でき、複雑さは$\mathcal{O}(N^{1.5})$である。 大規模な実験では、vHeatは様々なビジョンタスクでビジョントランスフォーマー(ViT)を超越し、推論速度の向上、FLOPの削減、高解像度画像のGPUメモリ使用率の低下を実証している。 コードはhttps://github.com/MzeroMiko/vHeat.comでリリースされる。

A fundamental problem in learning robust and expressive visual representations lies in efficiently estimating the spatial relationships of visual semantics throughout the entire image. In this study, we propose vHeat, a novel vision backbone model that simultaneously achieves both high computational efficiency and global receptive field. The essential idea, inspired by the physical principle of heat conduction, is to conceptualize image patches as heat sources and model the calculation of their correlations as the diffusion of thermal energy. This mechanism is incorporated into deep models through the newly proposed module, the Heat Conduction Operator (HCO), which is physically plausible and can be efficiently implemented using DCT and IDCT operations with a complexity of $\mathcal{O}(N^{1.5})$. Extensive experiments demonstrate that vHeat surpasses Vision Transformers (ViTs) across various vision tasks, while also providing higher inference speeds, reduced FLOPs, and lower GPU memory usage for high-resolution images. The code will be released at https://github.com/MzeroMiko/vHeat.
翻訳日:2024-05-28 20:29:28 公開日:2024-05-26
# 多変量時系列のためのスケーラブルな数値埋め込み:医療データ表現学習の強化

Scalable Numerical Embeddings for Multivariate Time Series: Enhancing Healthcare Data Representation Learning ( http://arxiv.org/abs/2405.16557v1 )

ライセンス: Link先を確認
Chun-Kai Huang, Yi-Hsien Hsieh, Ta-Jung Chien, Li-Cheng Chien, Shao-Hua Sun, Tung-Hung Su, Jia-Horng Kao, Che Lin, (参考訳) 多変量時系列(MTS)データは、不規則かつ非同期にサンプリングされると、しばしば大きな欠落値を示す。 MTS解析の従来の手法は、後続の計算を必要とするタイムスタンプに基づく時間的埋め込みに依存する傾向にあるが、これらのインプットされた値は実際の手法と大きく異なるため、予測精度が向上する。 さらに、これらの手法は、通常、トレーニングセット内でしばしば観測されるか、あるいは欠落している値に対して、堅牢な初期埋め込みを提供することができず、一般化可能性のモデル化に重大な課題を生じさせる。 これらの課題に対応するために、各特徴値を独立トークンとして扱う新しいフレームワークであるSCANE(SCAlable Numerical Embedding)を提案する。 SCANEは、異なる機能埋め込みの特性を正規化し、スケーラブルな埋め込みメカニズムを通じて表現学習を強化する。 SCANE と Transformer Encoder アーキテクチャを結合した Scalable nUMerical eMbeddIng Transformer (SUMMIT) を開発した。 異なる3つの電子健康記録(EHR)データセットを用いて実験を行った結果,SUMMITの性能は,同種の課題に対処する現代的最先端アプローチよりも優れていたことが確認された。 これらの結果はSCANEとSUMMITの有効性を裏付けるものであり、MSSデータ解析タスクの幅広い範囲で適用可能であることを裏付けるものである。

Multivariate time series (MTS) data, when sampled irregularly and asynchronously, often present extensive missing values. Conventional methodologies for MTS analysis tend to rely on temporal embeddings based on timestamps that necessitate subsequent imputations, yet these imputed values frequently deviate substantially from their actual counterparts, thereby compromising prediction accuracy. Furthermore, these methods typically fail to provide robust initial embeddings for values infrequently observed or even absent within the training set, posing significant challenges to model generalizability. In response to these challenges, we propose SCAlable Numerical Embedding (SCANE), a novel framework that treats each feature value as an independent token, effectively bypassing the need for imputation. SCANE regularizes the traits of distinct feature embeddings and enhances representational learning through a scalable embedding mechanism. Coupling SCANE with the Transformer Encoder architecture, we develop the Scalable nUMerical eMbeddIng Transformer (SUMMIT), which is engineered to deliver precise predictive outputs for MTS characterized by prevalent missing entries. Our experimental validation, conducted across three disparate electronic health record (EHR) datasets marked by elevated missing value frequencies, confirms the superior performance of SUMMIT over contemporary state-of-the-art approaches addressing similar challenges. These results substantiate the efficacy of SCANE and SUMMIT, underscoring their potential applicability across a broad spectrum of MTS data analytical tasks.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 実験的リフレンスフレーム非依存量子鍵分布250km光ファイバー

Experimental Refrence-Frame-Independent Quantum Key Distribution over 250 km of Optical Fiber ( http://arxiv.org/abs/2405.16558v1 )

ライセンス: Link先を確認
Xin Liu, Di Luo, Zhicheng Luo, Shizhuo Li, Zhenrong Zhang, Kejin Wei, (参考訳) 参照フレームに依存しない量子キー分散(RFI-QKD)プロトコルにより、ゆっくりと変化する参照フレームにもかかわらずQKDシステムは効果的に機能し、特にモバイルプラットフォームにおいて、実用的なシナリオにおいて明確な利点を提供する。 本研究では,150MHzの繰り返し速度を持つRFI-QKDシステムの開発により,250kmの光ファイバー距離でセキュアな鍵ビットを分散することに成功した。 高い繰り返し速度から得られる有限鍵秘密鍵レートは、200kmの距離で49.65ビット/秒であり、最先端システムより3倍以上高い。 我々の研究は送信距離を劇的に拡張し、RFI-QKDの秘密鍵レートを高め、その実用性を著しく促進する。

The reference-frame-independent quantum key distribution (RFI-QKD) protocol enables QKD systems to function effectively despite slowly varying reference frames, offering a distinct advantage in practical scenarios, particularly in mobile platforms. In this study, we successfully distribute secure key bits over a 250 km optical fiber distance by developing an RFI-QKD system with a repetition rate of 150 MHz. Benefiting from high repetition rate, we achieve a finite-key secret key rate of 49.65 bit/s at a distance of 200 km, which is more than three times higher than state-of-the-art systems. Our work dramatically extends the transmission distance and enhances the secret key rate of RFI-QKD, significantly promoting its practical application.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# ゼロショット型質問応答に対するマップベースモジュラーアプローチ

Map-based Modular Approach for Zero-shot Embodied Question Answering ( http://arxiv.org/abs/2405.16559v1 )

ライセンス: Link先を確認
Koya Sakamoto, Daichi Azuma, Taiki Miyanishi, Shuhei Kurita, Motoaki Kawanabe, (参考訳) 視覚の世界において、自然言語で人間と対話できるロボットを構築することは、ロボット工学の分野で大きな課題となっている。 この課題を克服するために、Embodied Question Answering (EQA) は、人間が提示した質問に応答して、これまで目に見えない環境をナビゲートする物体を識別する能力を測定するためのベンチマークタスクとして提案されている。 いくつかの手法が提案されているが、それらの評価はシミュレーションに限られており、実世界のシナリオでの実験は行われていない。 さらに、これらの手法はすべて質問と回答の相互作用に限定された語彙で制約されており、実用的な応用には適さない。 本研究では,実際のロボットがフロンティアベースの地図作成を通じて未知の環境をナビゲートし,オープン語彙をサポートする基礎モデルを用いて未知のQAペアに対処することのできる,マップベースのモジュール型EQA手法を提案する。 Matterport 3D(MP3D)に関する以前のEQAデータセットの質問とは異なり、実際の実験では、トレーニングデータに含まれていない様々な質問形式や語彙が含まれています。 我々は,仮想環境(MP3D-EQA)と2つの実世界の住宅環境に関する総合的な実験を行い,実世界においてもEQAを実現できることを示す。

Building robots capable of interacting with humans through natural language in the visual world presents a significant challenge in the field of robotics. To overcome this challenge, Embodied Question Answering (EQA) has been proposed as a benchmark task to measure the ability to identify an object navigating through a previously unseen environment in response to human-posed questions. Although some methods have been proposed, their evaluations have been limited to simulations, without experiments in real-world scenarios. Furthermore, all of these methods are constrained by a limited vocabulary for question-and-answer interactions, making them unsuitable for practical applications. In this work, we propose a map-based modular EQA method that enables real robots to navigate unknown environments through frontier-based map creation and address unknown QA pairs using foundation models that support open vocabulary. Unlike the questions of the previous EQA dataset on Matterport 3D (MP3D), questions in our real-world experiments contain various question formats and vocabularies not included in the training data. We conduct comprehensive experiments on virtual environments (MP3D-EQA) and two real-world house environments and demonstrate that our method can perform EQA even in the real world.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# タスクグルーピングの正規化:不均一事前学習モデルによるデータ自由メタラーニング

Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models ( http://arxiv.org/abs/2405.16560v1 )

ライセンス: Link先を確認
Yongxian Wei, Zixuan Hu, Li Shen, Zhenyi Wang, Yu Li, Chun Yuan, Dacheng Tao, (参考訳) Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。 現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。 本稿では,DFMLにおけるモデル不均一性を実証的,理論的に同定し,解析する。 モデルの不均一性は、均質なモデルがタスクの衝突を減らすだけでなく、過度に適合するリスクを増大させる異質性-均一性トレードオフをもたらす。 このトレードオフのバランスをとることは、タスク間で共有表現を学ぶために重要です。 本研究は,タスク群正規化(Task Groupings Regularization)を提案する。 具体的には、学習前のモデルをタスク空間に埋め込んで異種性を計算し、この尺度に基づいて異種モデルをグループ化する。 そして、潜在的な対立を緩和するために、各グループ内で暗黙的な勾配正規化を導入する。 すべてのタスクに適した勾配方向を奨励することにより、メタモデルはタスク全体にわたって一般化された共有表現をキャプチャする。 総合的な実験では、複数のベンチマークでアプローチの優位性を示し、挑戦的なマルチドメインとマルチアーキテクチャのシナリオにおいて、モデルの不均一性に効果的に取り組みます。

Data-Free Meta-Learning (DFML) aims to derive knowledge from a collection of pre-trained models without accessing their original data, enabling the rapid adaptation to new unseen tasks. Current methods often overlook the heterogeneity among pre-trained models, which leads to performance degradation due to task conflicts. In this paper, we empirically and theoretically identify and analyze the model heterogeneity in DFML. We find that model heterogeneity introduces a heterogeneity-homogeneity trade-off, where homogeneous models reduce task conflicts but also increase the overfitting risk. Balancing this trade-off is crucial for learning shared representations across tasks. Based on our findings, we propose Task Groupings Regularization, a novel approach that benefits from model heterogeneity by grouping and aligning conflicting tasks. Specifically, we embed pre-trained models into a task space to compute dissimilarity, and group heterogeneous models together based on this measure. Then, we introduce implicit gradient regularization within each group to mitigate potential conflicts. By encouraging a gradient direction suitable for all tasks, the meta-model captures shared representations that generalize across tasks. Comprehensive experiments showcase the superiority of our approach in multiple benchmarks, effectively tackling the model heterogeneity in challenging multi-domain and multi-architecture scenarios.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 現実は一度だけ起こる:変圧器の単一パス一般化境界

Reality Only Happens Once: Single-Path Generalization Bounds for Transformers ( http://arxiv.org/abs/2405.16563v1 )

ライセンス: Link先を確認
Yannick Limmer, Anastasis Kratsios, Xuwei Yang, Raeid Saqur, Blanka Horvath, (参考訳) 時系列上でトランスフォーマーをデプロイする際の固有の課題の1つは、 \emph{reality only occur once} である。 マルコフ過程の1つの摂動軌跡から$N\le t$ の観測を用いて訓練されたことを考慮し、この設定における非漸近的統計的保証を、将来的な$t$における変圧器ネットワークの \textit{ Generalization} のバウンダリによって導き出す。 マルコフ過程が対数ソボレフの不等式を満たすという仮定の下で、${O}(1/\sqrt{N})$の速度で効果的に収束する一般化境界を得る。 私たちのバウンダリは、アクティベーション関数($\operatorname{Swish}$, $\operatorname{GeLU}$, $\tanh$)、自己アテンションヘッドの数、深さ、幅、およびトランスフォーマーアーキテクチャを定義するノルムバウンドに依存する。 第一に、データ生成マルコフ過程の定常分布と時間$t$での分布とのギャップを定量化し、この項は指数関数的に$0$に収束する。 (II) 次の項は変換モデルの複雑さをエンコードし、十分な時間を与えると、任意の$r>0$に対して${O}(\log(N)^r/\sqrt{N})$で$0$に収束する。 (III) 第3項は、有界が少なくとも1$-$\delta$の確率を持ち、${O}(\sqrt{\log(1/\delta)}/\sqrt{N})$の速度で収束することを保証している。

One of the inherent challenges in deploying transformers on time series is that \emph{reality only happens once}; namely, one typically only has access to a single trajectory of the data-generating process comprised of non-i.i.d. observations. We derive non-asymptotic statistical guarantees in this setting through bounds on the \textit{generalization} of a transformer network at a future-time $t$, given that it has been trained using $N\le t$ observations from a single perturbed trajectory of a Markov process. Under the assumption that the Markov process satisfies a log-Sobolev inequality, we obtain a generalization bound which effectively converges at the rate of ${O}(1/\sqrt{N})$. Our bound depends explicitly on the activation function ($\operatorname{Swish}$, $\operatorname{GeLU}$, or $\tanh$ are considered), the number of self-attention heads, depth, width, and norm-bounds defining the transformer architecture. Our bound consists of three components: (I) The first quantifies the gap between the stationary distribution of the data-generating Markov process and its distribution at time $t$, this term converges exponentially to $0$. (II) The next term encodes the complexity of the transformer model and, given enough time, eventually converges to $0$ at the rate ${O}(\log(N)^r/\sqrt{N})$ for any $r>0$. (III) The third term guarantees that the bound holds with probability at least $1$-$\delta$, and converges at a rate of ${O}(\sqrt{\log(1/\delta)}/\sqrt{N})$.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 帯域フィードバックを用いたコンテキスト線形最適化

Contextual Linear Optimization with Bandit Feedback ( http://arxiv.org/abs/2405.16564v1 )

ライセンス: Link先を確認
Yichun Hu, Nathan Kallus, Xiaojie Mao, Yanchen Wu, (参考訳) 文脈線形最適化(CLO)は、予測観測を用いてランダムコスト係数の不確かさを低減し、平均コスト性能を向上させる。 例えば、ランダムなエッジコスト(トラフィックなど)と予測機能(トラフィック、天気など)を備えた確率的最短経路がある。 CLOに関する既存の研究は、データが完全に観測されたコスト係数ベクトルを前提としているが、多くのアプリケーションでは、歴史的決定の実際のコスト、すなわちランダムコスト係数ベクトルの1つの投影しか見つからない。 我々は,帯域幅フィードバックを用いたCLOのアルゴリズムのクラスについて検討し,このアルゴリズムは経験的リスク最小化(IERM)と呼ばれ,予測モデルに適合して,それが引き起こすポリシーの下流性能を直接最適化する。 提案手法では, モデルクラスが不特定であり, 最適化推定の柔軟な選択が可能なIERMの高速な後悔境界を示し, 計算的に抽出可能なサロゲート損失を発生させる。 当社の独立利害理論の副産物は、完全なフィードバックと不特定政策クラスを持つIERMにとっての高速な後悔である。 確率的最短経路の例を用いて、異なるモデリング選択の性能を数値的に比較し、経験的結果から実践的な洞察を与える。

Contextual linear optimization (CLO) uses predictive observations to reduce uncertainty in random cost coefficients and thereby improve average-cost performance. An example is a stochastic shortest path with random edge costs (e.g., traffic) and predictive features (e.g., lagged traffic, weather). Existing work on CLO assumes the data has fully observed cost coefficient vectors, but in many applications, we can only see the realized cost of a historical decision, that is, just one projection of the random cost coefficient vector, to which we refer as bandit feedback. We study a class of algorithms for CLO with bandit feedback, which we term induced empirical risk minimization (IERM), where we fit a predictive model to directly optimize the downstream performance of the policy it induces. We show a fast-rate regret bound for IERM that allows for misspecified model classes and flexible choices of the optimization estimate, and we develop computationally tractable surrogate losses. A byproduct of our theory of independent interest is fast-rate regret bound for IERM with full feedback and misspecified policy class. We compare the performance of different modeling choices numerically using a stochastic shortest path example and provide practical insights from the empirical results.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# テキスト・画像生成型AIシステムの自動脱獄

Automatic Jailbreaking of the Text-to-Image Generative AI Systems ( http://arxiv.org/abs/2405.16567v1 )

ライセンス: Link先を確認
Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang, (参考訳) 最近のAIシステムは、情報検索、言語生成、大規模言語モデル(LLM)に基づく画像生成といった様々なタスクにおいて、人的パフォーマンスを超越した、非常に強力なパフォーマンスを示している。 同時に、LLMのアライメントを回避して悪意のあるコンテンツの発生を引き起こす様々な安全性リスクがあり、これはしばしばジェイルブレイクと呼ばれる。 しかし、以前の作品のほとんどはLLMにおけるテキストベースのジェイルブレイクのみに焦点を当てており、テキスト・ツー・イメージ(T2I)生成システムのジェイルブレイクは比較的見過ごされている。 本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの著作権侵害における安全性を,ナイーブなプロンプトで評価する。 この実証実験から、コピロとジェミニがそれぞれ12%と17%の攻撃しかブロックしていないのに対し、ChatGPTは84%の攻撃をブロックしていることがわかった。 さらに、安全ガードをバイパスするプロンプトを生成するT2I生成システムのための、より強力な自動脱獄パイプラインを提案する。 我々の自動ジェイルブレイクフレームワークは、LLMオプティマイザを利用して、重み付けや勾配計算なしに生成された画像からの違反の程度を最大化するプロンプトを生成する。 驚いたことに、私たちの単純な効果的なアプローチは、ChatGPTを11.0\%のブロックレートでジェイルブレイクし、76\%の時間で著作権のあるコンテンツを生成します。 最後に, ポストジェネレーションフィルタリングやマシンアンラーニング技術など, 様々な防衛戦略を探求するが, それらが不十分であることから, より強力な防御機構の必要性が示唆された。

Recent AI systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cause the generation of malicious contents by circumventing the alignment in LLMs, which are often referred to as jailbreaking. However, most of the previous works only focused on the text-based jailbreaking in LLMs, and the jailbreaking of the text-to-image (T2I) generation system has been relatively overlooked. In this paper, we first evaluate the safety of the commercial T2I generation systems, such as ChatGPT, Copilot, and Gemini, on copyright infringement with naive prompts. From this empirical study, we find that Copilot and Gemini block only 12\% and 17\% of the attacks with naive prompts, respectively, while ChatGPT blocks 84\% of them. Then, we further propose a stronger automated jailbreaking pipeline for T2I generation systems, which produces prompts that bypass their safety guards. Our automated jailbreaking framework leverages an LLM optimizer to generate prompts to maximize degree of violation from the generated images without any weight updates or gradient computation. Surprisingly, our simple yet effective approach successfully jailbreaks the ChatGPT with 11.0\% block rate, making it generate copyrighted contents in 76\% of the time. Finally, we explore various defense strategies, such as post-generation filtering and machine unlearning techniques, but found that they were inadequate, which suggests the necessity of stronger defense mechanisms.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# ID-to-3D:Score Distillation Smplingによる表現型ID誘導型3Dヘッド

ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling ( http://arxiv.org/abs/2405.16570v1 )

ライセンス: Link先を確認
Francesca Babiloni, Alexandros Lattas, Jiankang Deng, Stefanos Zafeiriou, (参考訳) そこで本研究では,ID-to-3Dとテキスト誘導型3次元頭部のアンタングル表現を生成する手法を提案する。 提案手法の基盤は,タスク固有の2次元拡散モデルと相まって構成性に支えられている。 まず、軽量な表現認識およびID認識アーキテクチャで基礎モデルを拡張し、利用可能なトレーニングパラメータの0.2%だけを微調整することで、幾何学とテクスチャ生成のための2D先行モデルを作成します。 次に,各被験者の表現にニューラルパラメトリック表現を併用し,高精度な幾何学とアルベドテクスチャの多段階生成を行う。 この強力な顔のアイデンティティ埋め込みと神経表現を組み合わせることで、顔の特徴だけでなく、アクセサリーや毛髪の正確な再構築が可能になり、ゲームやテレプレゼンスのためのレンダリング可能なアセットを提供することができる。 本研究は, 人的資産の大規模な3次元キャプチャーデータセットに頼ることなく, 未知の3次元アイデンティティの 'world'' に一般化し, アイデンティティ一貫性と高品質なテクスチャと幾何生成の先例のないレベルを達成した。 https://https://idto3d.github.io.comで3D結果を調べてください。

We propose ID-to-3D, a method to generate identity- and text-guided 3D human heads with disentangled expressions, starting from even a single casually captured in-the-wild image of a subject. The foundation of our approach is anchored in compositionality, alongside the use of task-specific 2D diffusion models as priors for optimization. First, we extend a foundational model with a lightweight expression-aware and ID-aware architecture, and create 2D priors for geometry and texture generation, via fine-tuning only 0.2% of its available training parameters. Then, we jointly leverage a neural parametric representation for the expressions of each subject and a multi-stage generation of highly detailed geometry and albedo texture. This combination of strong face identity embeddings and our neural representation enables accurate reconstruction of not only facial features but also accessories and hair and can be meshed to provide render-ready assets for gaming and telepresence. Our results achieve an unprecedented level of identity-consistent and high-quality texture and geometry generation, generalizing to a ``world'' of unseen 3D identities, without relying on large 3D captured datasets of human assets. Explore our 3D results at: https://https://idto3d.github.io.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# Prompt-based Unsupervised Keyphrase 抽出に関する予備的研究

A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction ( http://arxiv.org/abs/2405.16571v1 )

ライセンス: Link先を確認
Mingyang Song, Yi Feng, Liping Jing, (参考訳) 事前訓練された大規模言語モデルは、人間が設計したプロンプトを条件にすることで、自然言語処理の下流タスクを実行することができる。 しかし、プロンプトベースのアプローチでは、しばしば異なるプロンプトを設計するために「プロンプトエンジニアリング」を必要とする。 プロンプトベースのキーフレーズ抽出法を構築する場合、これは難しい問題である。 そこで本研究では,キーフレーズ抽出作業における異なるプロンプトの有効性を検討した。 6つのベンチマークキーフレーズ抽出データセットと異なる事前訓練された大規模言語モデルによる大規模な実験結果から、(1)複雑なプロンプトの設計は単純なプロンプトの設計よりも必ずしも効果的ではないこと、(2)設計したプロンプトの個々のキーワード変更が全体的なパフォーマンスに影響を与えること、(3)複雑なプロンプトの設計は、長いドキュメントに直面するときの単純なプロンプトの設計よりも優れたパフォーマンスを達成することが示されている。

Pre-trained large language models can perform natural language processing downstream tasks by conditioning on human-designed prompts. However, a prompt-based approach often requires "prompt engineering" to design different prompts, primarily hand-crafted through laborious trial and error, requiring human intervention and expertise. It is a challenging problem when constructing a prompt-based keyphrase extraction method. Therefore, we investigate and study the effectiveness of different prompts on the keyphrase extraction task to verify the impact of the cherry-picked prompts on the performance of extracting keyphrases. Extensive experimental results on six benchmark keyphrase extraction datasets and different pre-trained large language models demonstrate that (1) designing complex prompts may not necessarily be more effective than designing simple prompts; (2) individual keyword changes in the designed prompts can affect the overall performance; (3) designing complex prompts achieve better performance than designing simple prompts when facing long documents.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 半教師型医用画像分割のためのFRCNet周波数と領域整合性

FRCNet Frequency and Region Consistency for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2405.16573v1 )

ライセンス: Link先を確認
Along He, Tao Li, Yanlin Wu, Ke Zou, Huazhu Fu, (参考訳) ラベル付きデータは、医学領域におけるディープラーニングの適用を妨げる。 臨床実践では、効果的に使用されていない十分なラベルなしデータが存在し、半教師付き学習(SSL)は、これらのラベルなしデータを活用するための有望な方法である。 しかし、既存のSSL法では周波数領域や領域レベルの情報は無視されており、低周波領域や大規模な変化を伴う病変領域にとって重要である。 本稿では、周波数領域における特徴学習を支援する周波数領域整合性(FDC)と、マルチスケール領域レベルの局所的文脈情報特徴学習を行うMRSC(Multi-granularity region similarity consistency)という2つの半教師付き医用画像セグメンテーションの整合性正規化戦略を提案する。 提案したFDCとMRSCの助けを借りて,その強力な特徴表現能力を効果的かつ効率的に活用することができる。 我々は2つのデータセットに対して総合的な実験を行い、その結果、本手法は大きな性能向上を達成し、他の最先端手法を超えることを示す。

Limited labeled data hinder the application of deep learning in medical domain. In clinical practice, there are sufficient unlabeled data that are not effectively used, and semi-supervised learning (SSL) is a promising way for leveraging these unlabeled data. However, existing SSL methods ignore frequency domain and region-level information and it is important for lesion regions located at low frequencies and with significant scale changes. In this paper, we introduce two consistency regularization strategies for semi-supervised medical image segmentation, including frequency domain consistency (FDC) to assist the feature learning in frequency domain and multi-granularity region similarity consistency (MRSC) to perform multi-scale region-level local context information feature learning. With the help of the proposed FDC and MRSC, we can leverage the powerful feature representation capability of them in an effective and efficient way. We perform comprehensive experiments on two datasets, and the results show that our method achieves large performance gains and exceeds other state-of-the-art methods.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# リフレクションフローマッチング

Reflected Flow Matching ( http://arxiv.org/abs/2405.16577v1 )

ライセンス: Link先を確認
Tianyu Xie, Yu Zhu, Longlin Yu, Tong Yang, Ziheng Cheng, Shiyue Zhang, Xiangyu Zhang, Cheng Zhang, (参考訳) 連続正規化フロー(CNF)は通常の微分方程式を学習し、先行サンプルをデータに変換する。 流れマッチング (FM) は, 条件付速度場に向けて速度モデルを回帰させることにより, CNF を訓練するためのシミュレーションのない手法として最近登場した。 しかし、制約された領域では、学習速度モデルが望ましくない流れを引き起こす可能性があり、フローマッチング誤差とシミュレーション誤差の両方により、高度に不自然なサンプル、例えば過飽和画像が生じる。 この問題に対処するために、境界制約項をCNFに追加し、制約領域内に軌道を保持するCNFを反映させる。 本研究では,バニラFMと同様,条件付速度場をシミュレーションのない方法でマッチングすることにより,反射CNFの速度モデルをトレーニングするための反射流マッチング(RFM)を提案する。 さらに、RFMにおける条件速度場の解析形式は、潜在的な偏りの近似を回避し、制約領域上の既存のスコアベース生成モデルよりも優れている。 我々は,RAMが標準画像ベンチマークと同等あるいはより良い結果が得られることを実証し,高誘導重みで高品質なクラス条件付きサンプルを生成することを示した。

Continuous normalizing flows (CNFs) learn an ordinary differential equation to transform prior samples into data. Flow matching (FM) has recently emerged as a simulation-free approach for training CNFs by regressing a velocity model towards the conditional velocity field. However, on constrained domains, the learned velocity model may lead to undesirable flows that result in highly unnatural samples, e.g., oversaturated images, due to both flow matching error and simulation error. To address this, we add a boundary constraint term to CNFs, which leads to reflected CNFs that keep trajectories within the constrained domains. We propose reflected flow matching (RFM) to train the velocity model in reflected CNFs by matching the conditional velocity fields in a simulation-free manner, similar to the vanilla FM. Moreover, the analytical form of conditional velocity fields in RFM avoids potentially biased approximations, making it superior to existing score-based generative models on constrained domains. We demonstrate that RFM achieves comparable or better results on standard image benchmarks and produces high-quality class-conditioned samples under high guidance weight.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 有限サイズのデコイ状態量子鍵分布に対する統合的かつアクセス可能なセキュリティ証明

A consolidated and accessible security proof for finite-size decoy-state quantum key distribution ( http://arxiv.org/abs/2405.16578v1 )

ライセンス: Link先を確認
Jerome Wiesemann, Jan Krause, Davide Rusca, Nino Walenta, (参考訳) 近年、量子鍵分布(QKD)は、科学研究分野から、数学的に定式化されたセキュリティ証明によって支持された商業的に実行可能なセキュリティソリューションへと進化してきた。 しかし、セキュリティ証明の完全な理解に必要な知識は、多くの出版物に散らばっているため、プロセスとそれらの制限に関わる各ステップについて、かなりの努力と詳細への注意なしに包括的な理解を得ることは困難であることが証明されている。 本稿では,Renner のエントロピー不確実性関係フレームワークにおいて,有限サイズの 1-デコイ(および 2-デコイ) BB84 プロトコルに対して,アクセス可能かつ包括的なセキュリティ証明を提供することにより,この問題に対処することを目的とする。 我々は、多くの作品から概念を広く統合し、統一し、基礎となる前提を徹底的に議論し、技術的な矛盾を解消する。 この研究は、QKDセキュリティの議論と潜在的な脆弱性とデバイス欠陥の特定の基盤となる。 我々のステップバイステップのアプローチと一貫した表記は、セキュリティ証明への事前の露出を前提とせず、理論的な厳密さを維持しつつ、堅牢で理解しやすい参照となる。 したがって、我々の貢献は、QKDセキュリティ証明のより広範な理解に向けた大きな進歩を示している。

In recent years, quantum key distribution (QKD) has evolved from a scientific research field to a commercially viable security solution, supported by mathematically formulated security proofs. However, since the knowledge required for a full understanding of a security proof is scattered across numerous publications, it has proven difficult to gain a comprehensive understanding of each step involved in the process and their limitations without considerable effort and attention to detail. Our paper aims to address this issue by presenting an accessible and comprehensive security proof for the finite-size 1-decoy (and 2-decoy) BB84 protocol in Renner's entropic uncertainty relation framework. We extensively consolidate and unify concepts from many works, thoroughly discussing the underlying assumptions and resolving technical inconsistencies. This work can serve as a foundation for the discussion of QKD security and for the identification of potential vulnerabilities and device imperfections. Our step-by-step approach and consistent notation assumes no prior exposure to security proofs, making it a robust and comprehensible reference, while maintaining theoretical rigor. Therefore, our contribution represents a significant advancement towards a broader understanding of QKD security proofs.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 多様な粒度にまたがるLCMのための多数の文脈駆動型SFTデータの自動生成

Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity ( http://arxiv.org/abs/2405.16579v1 )

ライセンス: Link先を確認
Shanghaoran Quan, (参考訳) カスタムコーパスから高品質なクエリ-レスポンスペアを構築することは、ドメイン固有のAIアシスタントやロールプレイングエージェントの作成など、多くのアプリケーションにおいて、教師付き微調整(SFT)大規模言語モデル(LLM)に不可欠である。 しかし、このデータを人間のアノテーションでソーシングするのはコストがかかるため、既存の自動化手法は様々な文脈の粒度を捉えることができず、均質なデータを生成する傾向がある。 これらの課題に対処するために、AugConという新しい手法を導入し、多段階の粒度をまたいだコンテキスト駆動型SFTデータを自動的に生成し、高い多様性、品質、忠実度を実現する。 AugConは、クエリを再帰的に導出する革新的なアプローチであるContext-Split-Tree (CST)を使用してクエリを生成することから始まる。 そして、コントラスト学習を通じてスコアラーをトレーニングし、CSTと協調してクエリのランク付けと洗練を行う。 最後に、自己アライメントと自己改善の相乗的統合を導入し、高忠実度応答を得る。 テストシナリオと、英語と中国語で広く使用されている4つのベンチマークを含む、人間と自動評価の両方を組み込んだ大規模な実験が実施されている。 その結果、AugConがいくつかの最先端手法に対して高多様性、品質、忠実度SFTデータを生成する際の大きな利点を浮き彫りにした。 コード、データセット、微調整されたモデルはすべて、https://github.com/quanshr/AugConで利用可能になります。

Constructing high-quality query-response pairs from custom corpus is crucial for supervised fine-tuning (SFT) large language models (LLMs) in many applications, like creating domain-specific AI assistants or roleplaying agents. However, sourcing this data through human annotation is costly, and existing automated methods often fail to capture the diverse range of contextual granularity and tend to produce homogeneous data. To tackle these issues, we introduce a novel method named AugCon, capable of automatically generating context-driven SFT data across multiple levels of granularity with high diversity, quality and fidelity. AugCon begins by generating queries using the Context-Split-Tree (CST), an innovative approach for recursively deriving queries and splitting context to cover full granularity. Then, we train a scorer through contrastive learning to collaborate with CST to rank and refine queries. Finally, a synergistic integration of self-alignment and self-improving is introduced to obtain high-fidelity responses. Extensive experiments are conducted incorporating both human and automatic evaluations, encompassing a test scenario and four widely-used benchmarks in English and Chinese. The results highlight the significant advantages of AugCon in producing high diversity, quality, and fidelity SFT data against several state-of-the-art methods. All of our code, dataset, and fine-tuned model will be available at: https://github.com/quanshr/AugCon.
翻訳日:2024-05-28 20:29:27 公開日:2024-05-26
# 超音波非破壊検査における生成モデルを用いた教師なし異常検出と欠陥位置推定に関する研究

A Study on Unsupervised Anomaly Detection and Defect Localization using Generative Model in Ultrasonic Non-Destructive Testing ( http://arxiv.org/abs/2405.16580v1 )

ライセンス: Link先を確認
Yusaku Ando, Miya Nakajima, Takahiro Saitoh, Tsuyoshi Kato, (参考訳) 近年, 構造物に使用されている人工物の劣化が深刻な社会問題となり, 検査の重要性が高まっている。 非破壊検査は、機能を維持しながら構造物の欠陥や劣化を検査する能力により、需要が増している。 これらのうち、超音波伝搬の可視化を可能にするため、レーザー超音波可視化試験(LUVT)は際立っている。 これにより、視覚的に欠陥の検出が容易になり、検査効率が向上する。 劣化構造の増加に伴い,非破壊試験における検査員不足や作業負荷の増加といった課題が顕在化している。 これらの課題に対処するための取り組みとしては、マシンラーニングを使用した自動検査の探索がある。 しかし、異常なデータと欠陥の欠如は、機械学習による自動検査の精度向上の障壁となる。 そこで本研究では,負の例(欠陥のないデータ)のみに基づいて学習可能な拡散モデルを用いて,異常検出手法を用いたLUVT自動検査手法を提案する。 提案手法は, 従来の汎用物体検出アルゴリズムと比較して, 欠陥検出と局所化を改善できることを実験的に確認した。

In recent years, the deterioration of artificial materials used in structures has become a serious social issue, increasing the importance of inspections. Non-destructive testing is gaining increased demand due to its capability to inspect for defects and deterioration in structures while preserving their functionality. Among these, Laser Ultrasonic Visualization Testing (LUVT) stands out because it allows the visualization of ultrasonic propagation. This makes it visually straightforward to detect defects, thereby enhancing inspection efficiency. With the increasing number of the deterioration structures, challenges such as a shortage of inspectors and increased workload in non-destructive testing have become more apparent. Efforts to address these challenges include exploring automated inspection using machine learning. However, the lack of anomalous data with defects poses a barrier to improving the accuracy of automated inspection through machine learning. Therefore, in this study, we propose a method for automated LUVT inspection using an anomaly detection approach with a diffusion model that can be trained solely on negative examples (defect-free data). We experimentally confirmed that our proposed method improves defect detection and localization compared to general object detection algorithms used previously.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# ビットと帯域について:レグレット情報トレードオフの定量化

On Bits and Bandits: Quantifying the Regret-Information Trade-off ( http://arxiv.org/abs/2405.16581v1 )

ライセンス: Link先を確認
Itai Shufaro, Nadav Merlis, Nir Weinberger, Shie Mannor, (参考訳) インタラクティブな意思決定タスクでは、情報は直接のインタラクション、間接的なフィードバックの受信、および外部の知識のあるソースから取得することができる。 エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフを検討する。 ビット単位で測定された外部ソースからの情報は、後悔と引き換えに、報酬で測定できることを示す。 我々は,いくつかの既知の下界を容易に導出できるような,後悔の少ない下界を得るための情報理論的手法を考案する。 次に、外部情報を用いた様々な対話型意思決定タスクを新しい設定に一般化する。 この設定を用いて、エージェントが蓄積する情報に依存する最初のベイズ後悔の低い境界を導入する。 これらの下界はまた、ベイズ問題に対するトンプソンサンプリングのほぼ最適性を証明している。 最後に,これらの境界が大規模言語モデルを用いた質問応答タスクの性能向上に有効であることを示す。

In interactive decision-making tasks, information can be acquired by direct interactions, through receiving indirect feedback, and from external knowledgeable sources. We examine the trade-off between the information an agent accumulates and the regret it suffers. We show that information from external sources, measured in bits, can be traded off for regret, measured in reward. We invoke information-theoretic methods for obtaining regret lower bounds, that also allow us to easily re-derive several known lower bounds. We then generalize a variety of interactive decision-making tasks with external information to a new setting. Using this setting, we introduce the first Bayesian regret lower bounds that depend on the information an agent accumulates. These lower bounds also prove the near-optimality of Thompson sampling for Bayesian problems. Finally, we demonstrate the utility of these bounds in improving the performance of a question-answering task with large language models, allowing us to obtain valuable insights.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# メンタルマニプ:会話におけるメンタルマニピュレーションのきめ細かい分析のためのデータセット

MentalManip: A Dataset For Fine-grained Analysis of Mental Manipulation in Conversations ( http://arxiv.org/abs/2405.16584v1 )

ライセンス: Link先を確認
Yuxin Wang, Ivory Yang, Saeed Hassanpour, Soroush Vosoughi, (参考訳) 対人会話における重要な虐待形態である心的操作は、文脈に依存し、しばしば微妙な性質のために識別することが困難である。 マニピュティブ言語の検出は潜在的な犠牲者を保護するために不可欠であるが、自然言語処理(NLP)分野は現在、このトピックに関するリソースや研究の不足に直面している。 我々の研究は、4000ドルの注釈付き映画対話からなる${\rm M{\small ental}M{\small anip}}$という新しいデータセットを導入することで、このギャップに対処する。 このデータセットは、精神的な操作の包括的な分析を可能にし、操作に使用されるテクニックと、被害者がターゲットとする脆弱性の両方をピンポイントする。 本研究は, 各種構成を用いた一連の実験を通して, 操作対話とその構成要素を認識する上で, 先行モデルの有効性について検討する。 その結果,これらのモデルでは操作内容の同定と分類が不十分であることが示唆された。 メンタルヘルスと毒性に関する既存のデータセットを微調整してパフォーマンスを向上させる試みは、これらの制限を克服していない。 我々は、${\rm M{\small ental}M{\small anip}}$がさらなる研究を刺激し、会話における精神的操作の影響の理解と軽減の両面で進展すると予想している。

Mental manipulation, a significant form of abuse in interpersonal conversations, presents a challenge to identify due to its context-dependent and often subtle nature. The detection of manipulative language is essential for protecting potential victims, yet the field of Natural Language Processing (NLP) currently faces a scarcity of resources and research on this topic. Our study addresses this gap by introducing a new dataset, named ${\rm M{\small ental}M{\small anip}}$, which consists of $4,000$ annotated movie dialogues. This dataset enables a comprehensive analysis of mental manipulation, pinpointing both the techniques utilized for manipulation and the vulnerabilities targeted in victims. Our research further explores the effectiveness of leading-edge models in recognizing manipulative dialogue and its components through a series of experiments with various configurations. The results demonstrate that these models inadequately identify and categorize manipulative content. Attempts to improve their performance by fine-tuning with existing datasets on mental health and toxicity have not overcome these limitations. We anticipate that ${\rm M{\small ental}M{\small anip}}$ will stimulate further research, leading to progress in both understanding and mitigating the impact of mental manipulation in conversations.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 局所的一貫性と領域多様性を有するドメインスキューによる公正なフェデレーション学習

Fair Federated Learning under Domain Skew with Local Consistency and Domain Diversity ( http://arxiv.org/abs/2405.16585v1 )

ライセンス: Link先を確認
Yuhang Chen, Wenke Huang, Mang Ye, (参考訳) フェデレートラーニング(FL)は、プライバシ保護の協調トレーニングのための新しいパラダイムとして登場した。 ドメインスキューでは、現在のFLアプローチはバイアスがあり、2つのフェアネス問題に直面している。 1) パラメータ更新競合: クライアント間のデータ格差は、パラメータの重要性や一貫性のない更新方向を異にする。 これら2つの相違により、重要なパラメータは、主要な更新の重要でないパラメータに圧倒される可能性がある。 その結果、パフォーマンスの低いクライアントではパフォーマンスが大幅に低下する。 2)モデル集約バイアス:既存のFLアプローチは、不公平な重み付けを導入し、ドメインの多様性を無視する。 これは、モデル収束の目的とドメイン間の異なるパフォーマンスにバイアスを与えます。 我々は、フェデレートラーニングにおいて、明らかな方向性の更新一貫性を発見し、上記の問題に対処するための新しいフレームワークを提案する。 まず、検出した特徴を利用して、重要でないパラメータの更新を選択的に破棄し、重要でないパラメータに圧倒されたパフォーマンスの低いクライアントからの更新を防止し、より公平な一般化性能を実現する。 第2に,グローバルモデルが非バイアスモデルと連続的に整合することを保証し,いくつかの領域に対するグローバルモデルバイアスを防止するための,公平な集約目標を提案する。 提案手法は汎用的であり,他のFL法と組み合わせて公正性を高めることができる。 Digits と Office-Caltech に関する総合的な実験により,本手法の妥当性と性能を実証した。

Federated learning (FL) has emerged as a new paradigm for privacy-preserving collaborative training. Under domain skew, the current FL approaches are biased and face two fairness problems. 1) Parameter Update Conflict: data disparity among clients leads to varying parameter importance and inconsistent update directions. These two disparities cause important parameters to potentially be overwhelmed by unimportant ones of dominant updates. It consequently results in significant performance decreases for lower-performing clients. 2) Model Aggregation Bias: existing FL approaches introduce unfair weight allocation and neglect domain diversity. It leads to biased model convergence objective and distinct performance among domains. We discover a pronounced directional update consistency in Federated Learning and propose a novel framework to tackle above issues. First, leveraging the discovered characteristic, we selectively discard unimportant parameter updates to prevent updates from clients with lower performance overwhelmed by unimportant parameters, resulting in fairer generalization performance. Second, we propose a fair aggregation objective to prevent global model bias towards some domains, ensuring that the global model continuously aligns with an unbiased model. The proposed method is generic and can be combined with other existing FL methods to enhance fairness. Comprehensive experiments on Digits and Office-Caltech demonstrate the high fairness and performance of our method.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# ヴァーサタイルリワードモデルを用いた費用対効果オンラインマルチLLM選択

Cost-Effective Online Multi-LLM Selection with Versatile Reward Models ( http://arxiv.org/abs/2405.16587v1 )

ライセンス: Link先を確認
Xiangxiang Dai, Jin Li, Xutong Liu, Anqi Yu, John C. S. Lui, (参考訳) 大規模言語モデル (LLM) の急速な進歩により, 複数LLMタスクの多様性と価格構造の変化がますます重要になり, コストは異なるLLM間で大きく異なる。 これらの課題に対処するために、最適LLM選択と使用のために、 \textit{C2MAB-V}, a \underline{C}ost- Effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward modelを導入する。 このオンラインモデルは、従来の静的アプローチや、コストを考慮せずに単一のLCMに依存しているものとは異なる。 スケジューリングクラウドとユーザクエリ処理専用のローカルサーバに複数のLLMを配置することにより,組み合わせ検索空間上での複数のLLMの選択が容易になる。 設計したオンラインフィードバック機構と信頼性バウンド技術に基づいて,さまざまなモデル間の探索・探索トレードオフを管理するとともに,さまざまなタスクに対するコストと報酬のバランスをとることで,マルチLLM選択の課題に効果的に対処することができる。 トレードオフジレンマで複数の LLM を選択するためのNP-hard 整数線形計画問題に、次のように対処する。 一 整数問題をローカルサーバにより緩和形式に分解すること。 二 スケジューリングクラウドによる最適なLCM組合せを提供する離散化ラウンドリング方式の利用及び 三 フィードバックに基づく継続的なオンライン更新 理論的には, <textit{C2MAB-V} は, 万能報酬モデルに対する厳密な保証を提供し, 後悔や不当な事例に対する最先端の結果と一致することを証明している。 実験により,3つのアプリケーションシナリオに対して, 性能とコスト効率を9つのLLMと効果的にバランスさせることを示した。

With the rapid advancement of large language models (LLMs), the diversity of multi-LLM tasks and the variability in their pricing structures have become increasingly important, as costs can vary greatly between different LLMs. To tackle these challenges, we introduce the \textit{C2MAB-V}, a \underline{C}ost-effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward models for optimal LLM selection and usage. This online model differs from traditional static approaches or those reliant on a single LLM without cost consideration. With multiple LLMs deployed on a scheduling cloud and a local server dedicated to handling user queries, \textit{C2MAB-V} facilitates the selection of multiple LLMs over a combinatorial search space, specifically tailored for various collaborative task types with different reward models. Based on our designed online feedback mechanism and confidence bound technique, \textit{C2MAB-V} can effectively address the multi-LLM selection challenge by managing the exploration-exploitation trade-off across different models, while also balancing cost and reward for diverse tasks. The NP-hard integer linear programming problem for selecting multiple LLMs with trade-off dilemmas is addressed by: i) decomposing the integer problem into a relaxed form by the local server, ii) utilizing a discretization rounding scheme that provides optimal LLM combinations by the scheduling cloud, and iii) continual online updates based on feedback. Theoretically, we prove that \textit{C2MAB-V} offers strict guarantees over versatile reward models, matching state-of-the-art results for regret and violations in some degenerate cases. Empirically, we show that \textit{C2MAB-V} effectively balances performance and cost-efficiency with nine LLMs for three application scenarios.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 構造因果ゲームによる人間とAIの相互作用における人間の望ましい成果の獲得

Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games ( http://arxiv.org/abs/2405.16588v1 )

ライセンス: Link先を確認
Anjie Liu, Jianhong Wang, Haoxuan Li, Xu Chen, Jun Wang, Samuel Kaski, Mengyue Yang, (参考訳) 人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて人間の望ましい結果を達成することである。 しかしながら、この結果に到達することは、通常、補助作業に関連するが人間の望ましい結果と一致しない複数のナッシュ平衡が存在するため、困難である。 この問題に対処するために,構造因果ゲーム(SCG)と呼ばれる理論フレームワークを用いて,人間とAIの対話プロセスを形式化する。 さらに、我々は、AIエージェントを操り、人間の望ましい結果を達成するための、SCGに対する事前政治介入と呼ばれる戦略を導入する。 より詳しくは、SCGが決定する透明で解釈可能な手順の下で、エージェントの政策選択を導くための一般的な介入として、事前政治が学習される。 本手法を実用化するために,この事前政治を探索する強化学習型アルゴリズムを提案する。 提案アルゴリズムはグリッドワールド環境と,大規模言語モデルを用いた現実的な対話シナリオの両方でテストされ,より広範な問題のクラスにおける適応性と実世界の状況における潜在的有効性を示す。

In human-AI interaction, a prominent goal is to attain human`s desirable outcome with the assistance of AI agents, which can be ideally delineated as a problem of seeking the optimal Nash Equilibrium that matches the human`s desirable outcome. However, reaching the outcome is usually challenging due to the existence of multiple Nash Equilibria that are related to the assisting task but do not correspond to the human`s desirable outcome. To tackle this issue, we employ a theoretical framework called structural causal game (SCG) to formalize the human-AI interactive process. Furthermore, we introduce a strategy referred to as pre-policy intervention on the SCG to steer AI agents towards attaining the human`s desirable outcome. In more detail, a pre-policy is learned as a generalized intervention to guide the agents` policy selection, under a transparent and interpretable procedure determined by the SCG. To make the framework practical, we propose a reinforcement learning-like algorithm to search out this pre-policy. The proposed algorithm is tested in both gridworld environments and realistic dialogue scenarios with large language models, demonstrating its adaptability in a broader class of problems and potential effectiveness in real-world situations.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# CapSアダプタ:ゼロショット分類におけるキャプションベースのマルチモーダルアダプタ

CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification ( http://arxiv.org/abs/2405.16591v1 )

ライセンス: Link先を確認
Qijie Wang, Guandu Liu, Bin Wang, (参考訳) CLIPのような視覚言語基盤モデルの最近の進歩は、ゼロショット分類において大きな進歩を見せている。 しかし、CLIPのようなモデルの広範なパラメータ化は、リソース集約的な微調整プロセスを必要とする。 これに対し、TIP-AdapterとSuS-Xは、下流タスクの有効性を高めるためのトレーニング不要な手法を導入した。 これらの手法には、知識キャッシュとテストセット間のデータの分散一貫性を維持するためのサポートセットが組み込まれているが、テストセットの一般化の観点からは、特にかなりの分散変化を示すテストデータに直面している場合、しばしば不足する。 本研究では,キャプションベースのサポートセットを用いた新しい手法であるCapS-Adapterを提案する。 CapS-Adapterは、マルチモーダルな大規模モデルから抽出したインスタンスレベルの分散特性を利用して、ターゲット分布を密接にミラーするサポートセットを構築する。 CLIPのシングルとクロスモーダルの強度を活用することで、CapS-Adapterはマルチモーダルサポートセットを使用して予測精度を向上させる。 提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れ,従来の先行手法よりも精度が2.19倍向上した。 当社のコントリビューションは、複数のベンチマークデータセットに対する広範な検証を通じて、優れたパフォーマンスと堅牢な一般化能力を示す形で実証されています。 私たちのコードはhttps://github.com/WLuLi/CapS-Adapter.comで公開されています。

Recent advances in vision-language foundational models, such as CLIP, have demonstrated significant strides in zero-shot classification. However, the extensive parameterization of models like CLIP necessitates a resource-intensive fine-tuning process. In response, TIP-Adapter and SuS-X have introduced training-free methods aimed at bolstering the efficacy of downstream tasks. While these approaches incorporate support sets to maintain data distribution consistency between knowledge cache and test sets, they often fall short in terms of generalization on the test set, particularly when faced with test data exhibiting substantial distributional variations. In this work, we present CapS-Adapter, an innovative method that employs a caption-based support set, effectively harnessing both image and caption features to exceed existing state-of-the-art techniques in training-free scenarios. CapS-Adapter adeptly constructs support sets that closely mirror target distributions, utilizing instance-level distribution features extracted from multimodal large models. By leveraging CLIP's single and cross-modal strengths, CapS-Adapter enhances predictive accuracy through the use of multimodal support sets. Our method achieves outstanding zero-shot classification results across 19 benchmark datasets, improving accuracy by 2.19\% over the previous leading method. Our contributions are substantiated through extensive validation on multiple benchmark datasets, demonstrating superior performance and robust generalization capabilities. Our code is made publicly available at https://github.com/WLuLi/CapS-Adapter.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 共変量シフト下におけるトレーニング・コンディション被覆境界

Training-Conditional Coverage Bounds under Covariate Shift ( http://arxiv.org/abs/2405.16594v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi, Yu Xiang, (参考訳) トレーニング条件のカバレッジは、一定の名目レベル以下で、トレーニングデータに条件付きであるエラー分布の集中を、コンフォーマルな予測で保証する。 共形予測手法は、最近、共変量シフト設定、すなわち、トレーニングデータとテストデータの間の共変量分布の変化に一般化されている。 本稿では,分布変化に合わせたドヴォルツキー・キーファー・ウルフウィッツの不等式(DKW)の重み付きバージョンを用いて,共変量シフト下での様々な共形予測手法の訓練条件カバレッジ特性について検討する。 分割共形法の結果はほぼ仮定なしで、完全共形法とJackknife+法の結果はトレーニングアルゴリズムの均一安定性を含む強い仮定に依存している。

Training-conditional coverage guarantees in conformal prediction concern the concentration of the error distribution, conditional on the training data, below some nominal level. The conformal prediction methodology has recently been generalized to the covariate shift setting, namely, the covariate distribution changes between the training and test data. In this paper, we study the training-conditional coverage properties of a range of conformal prediction methods under covariate shift via a weighted version of the Dvoretzky-Kiefer-Wolfowitz (DKW) inequality tailored for distribution change. The result for the split conformal method is almost assumption-free, while the results for the full conformal and jackknife+ methods rely on strong assumptions including the uniform stability of the training algorithm.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# テストベッドとしてのConnect-4の進化的フレームワーク : 高度なミニマックス, Q-Learning, MCTSの比較

An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS ( http://arxiv.org/abs/2405.16595v1 )

ライセンス: Link先を確認
Henry Taylor, Leonardo Stella, (参考訳) 大きな状態空間を持つドメインを決定する上での大きな課題は、有効性を最大化するアクションを効果的に選択することである。 近年, 強化学習 (RL) や探索アルゴリズムなどの手法は, 違いはあるものの, この問題に対処することに成功している。 RLは、エージェントが探索し、相互作用する学習フレームワークを定義する。 探索アルゴリズムは、解を探索するフォーマリズムを提供する。 しかし,このような手法を実践的に評価することはしばしば困難である。 この問題に触発されて、我々は1つのゲーム領域、すなわちConnect-4に焦点を当て、RL、Minimax、Monte Carlo Tree Search(MCTS)という3つのアルゴリズムのクラスを評価する新しい進化的フレームワークを開発する。 本論文の貢献は以下の3つである。 一 これらのアルゴリズムの先進版を実装し、その標準版と体系的に比較する。 二 進化トーナメントと呼ぶ新しい評価枠組みを整備し、 三 それぞれのアルゴリズムの相対性能を広範囲に評価し、結果を比較する。 我々は,MCTSが勝利率で最高の結果を得るのに対して,MinimaxとQ-Learningはそれぞれ2位,Q-Learningは3位であるが,後者は決定を下すのが最速であることが示されている。

A major challenge in decision making domains with large state spaces is to effectively select actions which maximize utility. In recent years, approaches such as reinforcement learning (RL) and search algorithms have been successful to tackle this issue, despite their differences. RL defines a learning framework that an agent explores and interacts with. Search algorithms provide a formalism to search for a solution. However, it is often difficult to evaluate the performances of such approaches in a practical way. Motivated by this problem, we focus on one game domain, i.e., Connect-4, and develop a novel evolutionary framework to evaluate three classes of algorithms: RL, Minimax and Monte Carlo tree search (MCTS). The contribution of this paper is threefold: i) we implement advanced versions of these algorithms and provide a systematic comparison with their standard counterpart, ii) we develop a novel evaluation framework, which we call the Evolutionary Tournament, and iii) we conduct an extensive evaluation of the relative performance of each algorithm to compare our findings. We evaluate different metrics and show that MCTS achieves the best results in terms of win percentage, whereas Minimax and Q-Learning are ranked in second and third place, respectively, although the latter is shown to be the fastest to make a decision.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# Protect-Your-IP: パーソナライズドジェネレーションに対するスケーラブルなソーストレースと属性

Protect-Your-IP: Scalable Source-Tracing and Attribution against Personalized Generation ( http://arxiv.org/abs/2405.16596v1 )

ライセンス: Link先を確認
Runyi Li, Xuanyu Zhang, Zhipei Xu, Yongbing Zhang, Jian Zhang, (参考訳) パーソナライズされた世代モデルの出現により、ユーザーは既存のコンテンツに似た画像を容易に作成することができ、肖像画の権利と知的財産権(IP)を侵害するリスクを高めることができる。 AIGC(AIGC)の伝統的なポストホック検出とソーストレーシング手法は、プロアクティブな透かしアプローチを採用しているが、これらはパーソナライズされた生成モデルに対して効果が低い。 さらに、AIGCの属性技術は受動的検出に依存しているが、AIGCを本物の画像と区別するのに苦労することが多く、重大な課題が提示されている。 これら2つのプロセスを結合的なフレームワークに統合することは、保護と法医学の実践的な要求を満たすだけでなく、帰属タスクの有効性を向上させる。 この知見に触発されて、我々は画像著作権のソーストレーシングと属性の統一的アプローチを提案し、プロアクティブ戦略とパッシブ戦略を融合した革新的なウォーターマーキング・アトリビューション手法を導入した。 保護された画像に著作権の透かしを埋め込んで、透かしデコーダを訓練し、パーソナライズされたモデルの出力から著作権情報を検索する。 特定の生成テクニックをピンポイントにするために、我々は強力な視覚バックボーンネットワークを用いて分類する。 さらに,従来の知識を損なうことなく,新たなパーソナライズされたモデルへの適応性を高めるために,段階的な学習戦略を実装した。 オンラインで公開されている様々な有名肖像画シリーズを用いて実験を行い、情報源追跡や帰属タスクにおける手法の有効性と、その知識の忘れに対する堅牢性を確認した。

With the advent of personalized generation models, users can more readily create images resembling existing content, heightening the risk of violating portrait rights and intellectual property (IP). Traditional post-hoc detection and source-tracing methods for AI-generated content (AIGC) employ proactive watermark approaches; however, these are less effective against personalized generation models. Moreover, attribution techniques for AIGC rely on passive detection but often struggle to differentiate AIGC from authentic images, presenting a substantial challenge. Integrating these two processes into a cohesive framework not only meets the practical demands for protection and forensics but also improves the effectiveness of attribution tasks. Inspired by this insight, we propose a unified approach for image copyright source-tracing and attribution, introducing an innovative watermarking-attribution method that blends proactive and passive strategies. We embed copyright watermarks into protected images and train a watermark decoder to retrieve copyright information from the outputs of personalized models, using this watermark as an initial step for confirming if an image is AIGC-generated. To pinpoint specific generation techniques, we utilize powerful visual backbone networks for classification. Additionally, we implement an incremental learning strategy to adeptly attribute new personalized models without losing prior knowledge, thereby enhancing the model's adaptability to novel generation methods. We have conducted experiments using various celebrity portrait series sourced online, and the results affirm the efficacy of our method in source-tracing and attribution tasks, as well as its robustness against knowledge forgetting.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 衣服交換者再同定のための内容と有能なセマンティックコラボレーション

Content and Salient Semantics Collaboration for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2405.16597v1 )

ライセンス: Link先を確認
Qizao Wang, Xuelin Qian, Bin Li, Lifeng Chen, Yanwei Fu, Xiangyang Xue, (参考訳) Re-ID(Re-ID)は、重複しないカメラで同じ人の衣服の変化を認識することを目的としている。 従来の人物のRe-ID法は、通常、生物学的特性に関連するアイデンティティに敏感な特徴よりも、布に関連した外観特徴にモデルが焦点を偏らせる。 近年,先進的な衣料品交換者Re-ID法は,衣服の影響を軽減するために,アイデンティティ関連補助的モダリティ(スケッチ,シルエット,キーポイント,3次元形状など)や衣服ラベルを取り入れている。 しかし、非実用的で柔軟性のない補助的なモダリティやアノテーションに頼ると、現実の応用性は制限される。 本稿では,歩行者画像内に存在する多彩な意味を補助詞を必要とせずに効果的に活用することにより,布を交換するRe-IDを促進する。 具体的には,CSSC(Content and Salient Semantics Collaboration)フレームワークを提案する。 我々のフレームワークはシンプルだが有効であり、重要な設計はセマンティックス・マイニング・アンド・リファインメント(SMR)モジュールである。 衣服の外観からの干渉を効果的に軽減しつつ、内容と有能な意味論に関する堅牢なアイデンティティの特徴を抽出する。 提案手法は,マイニングされた豊富なセマンティックな特徴を活かして,従来のベンチマークと同様に3つの布の交換ベンチマークの最先端性能を実現し,先進的な競合相手よりも優位性を示す。

Cloth-changing person Re-IDentification (Re-ID) aims at recognizing the same person with clothing changes across non-overlapping cameras. Conventional person Re-ID methods usually bias the model's focus on cloth-related appearance features rather than identity-sensitive features associated with biological traits. Recently, advanced cloth-changing person Re-ID methods either resort to identity-related auxiliary modalities (e.g., sketches, silhouettes, keypoints and 3D shapes) or clothing labels to mitigate the impact of clothes. However, relying on unpractical and inflexible auxiliary modalities or annotations limits their real-world applicability. In this paper, we promote cloth-changing person Re-ID by effectively leveraging abundant semantics present within pedestrian images without the need for any auxiliaries. Specifically, we propose the Content and Salient Semantics Collaboration (CSSC) framework, facilitating cross-parallel semantics interaction and refinement. Our framework is simple yet effective, and the vital design is the Semantics Mining and Refinement (SMR) module. It extracts robust identity features about content and salient semantics, while mitigating interference from clothing appearances effectively. By capitalizing on the mined abundant semantic features, our proposed approach achieves state-of-the-art performance on three cloth-changing benchmarks as well as conventional benchmarks, demonstrating its superiority over advanced competitors.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 正規化射影行列近似とコミュニティ検出への応用

Regularized Projection Matrix Approximation with Applications to Community Detection ( http://arxiv.org/abs/2405.16598v1 )

ライセンス: Link先を確認
Zheng Zhai, Mingxin Wu, Xiaohui Li, (参考訳) 本稿では,アフィニティ行列からクラスタ情報を復元することを目的とした正規化プロジェクション行列近似フレームワークを提案する。 このモデルは、エントリーワイドペナルティ関数を組み込んだ投影近似問題として定式化される。 本稿では,それぞれ有界,正,スパースなシナリオに対処する3つの異なるペナルティ関数を探索し,その問題を解決するために乗算器の交互方向法(ADMM)アルゴリズムを導出する。 次に,提案アルゴリズムの収束特性を確立する理論的解析を行う。 合成および実世界の両方のデータセットに対する大規模な数値実験により、我々の正規化射影行列近似アプローチはクラスタリング性能において最先端の手法を著しく上回ることを示した。

This paper introduces a regularized projection matrix approximation framework aimed at recovering cluster information from the affinity matrix. The model is formulated as a projection approximation problem incorporating an entrywise penalty function. We explore three distinct penalty functions addressing bounded, positive, and sparse scenarios, respectively, and derive the Alternating Direction Method of Multipliers (ADMM) algorithm to solve the problem. Then, we provide a theoretical analysis establishing the convergence properties of the proposed algorithm. Extensive numerical experiments on both synthetic and real-world datasets demonstrate that our regularized projection matrix approximation approach significantly outperforms state-of-the-art methods in terms of clustering performance.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# ハイブリッド衣服状態を用いた生涯人物再同定のための画像-テキスト-画像知識伝達

Image-Text-Image Knowledge Transferring for Lifelong Person Re-Identification with Hybrid Clothing States ( http://arxiv.org/abs/2405.16600v1 )

ライセンス: Link先を確認
Qizao Wang, Xuelin Qian, Bin Li, Yanwei Fu, Xiangyang Xue, (参考訳) 知的監視ネットワークの継続的な拡張により、生涯にわたる人物再識別(LReID)が広く注目され、異なる領域にまたがる自己進化の必要性が追求されている。 しかし、既存のLReID研究は、人々が服を変えないという仮定で知識を蓄積している。 本稿では, 生涯学習において, 布地や布地との整合性を考慮に入れた, ハイブリッド衣料状態 (LReID-Hybrid) による生涯的人物識別の実践的課題を提案する。 LReID-Hybridで発生した知識粒度ミスマッチと知識提示ミスマッチの課題に対処するため、テキスト空間の一貫性と一般化を活用し、"画像-テキスト-画像"閉ループで知識を効果的に調整し、伝達し、蓄積する「Teata$」と呼ばれる新しいフレームワークを提案する。 具体的には、効率的な知識伝達を実現するために、テキストプロンプトを複数の構造化されたペアに分解し、画像空間からの知識をテキスト記述の統一的な粒度で抽出するために、構造化セマンティック・プロンプト(SSP)学習を設計する。 そこで我々は,学習者によるテキスト知識の調整を行うKAP(Knowledge Adaptation and Projection Strategy)を導入する。 LReID-Hybrid に対して提案した $Teata$ と,従来の LReID ベンチマークの先進的手法に対する優位性を実証した。

With the continuous expansion of intelligent surveillance networks, lifelong person re-identification (LReID) has received widespread attention, pursuing the need of self-evolution across different domains. However, existing LReID studies accumulate knowledge with the assumption that people would not change their clothes. In this paper, we propose a more practical task, namely lifelong person re-identification with hybrid clothing states (LReID-Hybrid), which takes a series of cloth-changing and cloth-consistent domains into account during lifelong learning. To tackle the challenges of knowledge granularity mismatch and knowledge presentation mismatch that occurred in LReID-Hybrid, we take advantage of the consistency and generalization of the text space, and propose a novel framework, dubbed $Teata$, to effectively align, transfer and accumulate knowledge in an "image-text-image" closed loop. Concretely, to achieve effective knowledge transfer, we design a Structured Semantic Prompt (SSP) learning to decompose the text prompt into several structured pairs to distill knowledge from the image space with a unified granularity of text description. Then, we introduce a Knowledge Adaptation and Projection strategy (KAP), which tunes text knowledge via a slow-paced learner to adapt to different tasks without catastrophic forgetting. Extensive experiments demonstrate the superiority of our proposed $Teata$ for LReID-Hybrid as well as on conventional LReID benchmarks over advanced methods.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# メタセーフ強化学習のためのCMDP-within-onlineフレームワーク

A CMDP-within-online framework for Meta-Safe Reinforcement Learning ( http://arxiv.org/abs/2405.16601v1 )

ライセンス: Link先を確認
Vanshaj Khattar, Yuhao Ding, Bilgehan Sel, Javad Lavaei, Ming Jin, (参考訳) メタ強化学習は、経験に乏しい未確認タスクを解決するための学習から学習までのフレームワークとして広く利用されている。 しかし、制約違反の側面は既存の作業では適切に対処されておらず、アプリケーションの実際の設定に制限されている。 本稿では,メタセーフ強化学習(Meta-SRL)のCMDP-within-onlineフレームワークによる課題を考察し,この重要な環境における最初の証明可能な保証を確立する。 本研究では, 静的環境におけるタスク類似性や, 動的環境におけるタスク関連性によって, タスク平均最適性ギャップと制約満足度が向上することを示し, 報酬最大化(最適ギャップ)と制約違反に対するタスク平均後悔境界を求める。 このフレームワークを実用化する際には、いくつかの技術的な課題が発生する。 そこで本稿では,非政治的定常分布補正によって推定される,タスク内最適性ギャップと制約違反の上限上で,不正確なオンライン学習を行うメタアルゴリズムを提案する。 さらに、各タスクに学習率を適応させ、動的に変化するオラクルと競合する設定にアプローチを拡張します。 最後に,本手法の有効性を示す実験を行った。

Meta-reinforcement learning has widely been used as a learning-to-learn framework to solve unseen tasks with limited experience. However, the aspect of constraint violations has not been adequately addressed in the existing works, making their application restricted in real-world settings. In this paper, we study the problem of meta-safe reinforcement learning (Meta-SRL) through the CMDP-within-online framework to establish the first provable guarantees in this important setting. We obtain task-averaged regret bounds for the reward maximization (optimality gap) and constraint violations using gradient-based meta-learning and show that the task-averaged optimality gap and constraint satisfaction improve with task-similarity in a static environment or task-relatedness in a dynamic environment. Several technical challenges arise when making this framework practical. To this end, we propose a meta-algorithm that performs inexact online learning on the upper bounds of within-task optimality gap and constraint violations estimated by off-policy stationary distribution corrections. Furthermore, we enable the learning rates to be adapted for every task and extend our approach to settings with a competing dynamically changing oracle. Finally, experiments are conducted to demonstrate the effectiveness of our approach.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# 計算としての知性

Intelligence as Computation ( http://arxiv.org/abs/2405.16604v1 )

ライセンス: Link先を確認
Oliver Brock, (参考訳) 本稿では,インテリジェンスを計算として具体的概念化することを提案する。 この概念化は、インテリジェンス研究のすべての分野に統一された視点を提供することを目的としている。 すでに、物理的、神経的、身体的、形態学的、機械的知性など、現在調査中のいくつかの概念化を統一している。 これを実現するために、提案した概念化では、デジタル、アナログ、メカニカル、モルフォロジー計算など、異なる計算パラダイムによる既存の見解の違いを説明する。 インテリジェンスを異なるパラダイムからの計算の合成と見なすと、従来の概念化による課題が解決される。 知性は、特定の計算原理に依存するマルチパラダイム計算として仮定される。 これらの原理は知能を他の非知能計算と区別する。 提案された概念化は、インテリジェンスの統一科学につながることを意図した、多分野の研究課題を意味する。

This paper proposes a specific conceptualization of intelligence as computation. This conceptualization is intended to provide a unified view for all disciplines of intelligence research. Already, it unifies several conceptualizations currently under investigation, including physical, neural, embodied, morphological, and mechanical intelligences. To achieve this, the proposed conceptualization explains the differences among existing views by different computational paradigms, such as digital, analog, mechanical, or morphological computation. Viewing intelligence as a composition of computations from different paradigms, the challenges posed by previous conceptualizations are resolved. Intelligence is hypothesized as a multi-paradigmatic computation relying on specific computational principles. These principles distinguish intelligence from other, non-intelligent computations. The proposed conceptualization implies a multi-disciplinary research agenda that is intended to lead to unified science of intelligence.
翻訳日:2024-05-28 20:19:32 公開日:2024-05-26
# Demystify Mamba in Vision: 線形注意視点

Demystify Mamba in Vision: A Linear Attention Perspective ( http://arxiv.org/abs/2405.16605v1 )

ライセンス: Link先を確認
Dongchen Han, Ziyi Wang, Zhuofan Xia, Yizeng Han, Yifan Pu, Chunjiang Ge, Jun Song, Shiji Song, Bo Zheng, Gao Huang, (参考訳) Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。 最近、様々な視覚タスクにわたる高精細な入力を扱う際に、驚くほどの効率性を示した。 本稿では,従来の変圧器を性能的に劣る線形アテンション変換器と,強力なマンバモデルが驚くほど類似していることを明らかにする。 有効マンバとサブパーリニアアテンショントランスフォーマーの類似点と相違点を探索することにより,マンバの成功の鍵となる要因を解明するための総合的な分析を行う。 具体的には、入力ゲート、忘れゲート、ショートカット、アテンション正規化なし、シングルヘッド、修正ブロック設計の6つの主要な特徴を持つ線形アテンショントランスフォーマーの変種としてマンバを表現し、統一された定式化内での選択状態空間モデルと線形アテンションを再構成する。 それぞれの設計について,その長所と短所を慎重に分析し,視覚タスクにおけるモデル性能への影響を実証的に評価する。 興味深いことに、結果はマンバの成功に寄与する中核的な要因として、忘れ門とブロックの設計を強調しているが、他の4つのデザインは重要ではない。 これらの知見に基づいて,これらの2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。 得られたモデルは、並列化可能な計算と高速推論速度を楽しみながら、画像分類と高解像度密度予測タスクの両方において様々な視覚的マンバモデルより優れている。 コードはhttps://github.com/LeapLabTHU/MLLAで公開されている。

Mamba is an effective state space model with linear computation complexity. It has recently shown impressive efficiency in dealing with high-resolution inputs across various vision tasks. In this paper, we reveal that the powerful Mamba model shares surprising similarities with linear attention Transformer, which typically underperform conventional Transformer in practice. By exploring the similarities and disparities between the effective Mamba and subpar linear attention Transformer, we provide comprehensive analyses to demystify the key factors behind Mamba's success. Specifically, we reformulate the selective state space model and linear attention within a unified formulation, rephrasing Mamba as a variant of linear attention Transformer with six major distinctions: input gate, forget gate, shortcut, no attention normalization, single-head, and modified block design. For each design, we meticulously analyze its pros and cons, and empirically evaluate its impact on model performance in vision tasks. Interestingly, the results highlight the forget gate and block design as the core contributors to Mamba's success, while the other four designs are less crucial. Based on these findings, we propose a Mamba-Like Linear Attention (MLLA) model by incorporating the merits of these two key designs into linear attention. The resulting model outperforms various vision Mamba models in both image classification and high-resolution dense prediction tasks, while enjoying parallelizable computation and fast inference speed. Code is available at https://github.com/LeapLabTHU/MLLA.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# メソスコピックスケールにおける結晶化の効率的な確率論的モデリング

Efficient Probabilistic Modeling of Crystallization at Mesoscopic Scale ( http://arxiv.org/abs/2405.16608v1 )

ライセンス: Link先を確認
Pol Timmer, Koen Minartz, Vlado Menkovski, (参考訳) メソスコピックスケールでの結晶化過程では, 表面成長, 樹状突起成長, 多結晶形成が観察され, 材料科学や冶金学において特に注目されている。 これらのプロセスは非常に非線形で確率的であり、システムのパラメータと初期条件の小さな摂動に敏感である。 これらのプロセスのシミュレーション法は離散数値モデルを用いて開発されているが、計算コストが高い。 本研究の目的は,機械学習エミュレータを用いて結晶成長シミュレーションをスケールすることである。 特に、自己回帰潜在変数モデルは、システムパラメータと結晶化軌跡の結合分布をモデル化するのに適している。 しかし、システムの確率性と感度のため、そのようなモデルをうまく訓練することは困難である。 既存のアプローチでは、多様で忠実な結晶化軌道を作ることができない。 本稿では,これらの課題を克服するメソスコピックスケールでの効率的な結晶成長エミュレーションのための確率モデルであるCrystal Growth Neural Emulator (CGNE)を紹介する。 数値シミュレーションにより得られた結晶の形態特性を用いてCGNEの結果を検証する。 CGNEは、最近の動的システムの最先端確率モデルと比較して、推論時間と性能の向上率を11倍に向上させる。

Crystallization processes at the mesoscopic scale, where faceted, dendritic growth, and multigrain formation can be observed, are of particular interest within materials science and metallurgy. These processes are highly nonlinear, stochastic, and sensitive to small perturbations of system parameters and initial conditions. Methods for the simulation of these processes have been developed using discrete numerical models, but these are computationally expensive. This work aims to scale crystal growth simulation with a machine learning emulator. Specifically, autoregressive latent variable models are well suited for modeling the joint distribution over system parameters and the crystallization trajectories. However, successfully training such models is challenging due to the stochasticity and sensitivity of the system. Existing approaches consequently fail to produce diverse and faithful crystallization trajectories. In this paper, we introduce the Crystal Growth Neural Emulator (CGNE), a probabilistic model for efficient crystal growth emulation at the mesoscopic scale that overcomes these challenges. We validate CGNE results using the morphological properties of the crystals produced by numerical simulation. CGNE delivers a factor of 11 improvement in inference time and performance gains compared with recent state-of-the-art probabilistic models for dynamical systems.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# 悪魔は識別の相違にある。単一段階探索プロトコルによる識別可能なNASのロバスト化

The devil is in discretization discrepancy. Robustifying Differentiable NAS with Single-Stage Searching Protocol ( http://arxiv.org/abs/2405.16610v1 )

ライセンス: Link先を確認
Konstanty Subbotko, Wojciech Jablonski, Piotr Bilinski, (参考訳) ニューラルアーキテクチャサーチ(NAS)は、様々なコンピュータビジョンタスクのためのニューラルネットワークの設計に広く採用されている。 最も有望なサブドメインの1つは差別化可能なNAS(DNAS)である。 しかし、勾配に基づく手法は離散化誤差に悩まされ、最終的なアーキテクチャを得る過程を著しく損なう可能性がある。 本研究では、まず、離散化エラーのリスクを調査し、非正規化スーパーネットにどのように影響するかを示す。 そこで,アーキテクチャ正則化の一般的な手法である高エントロピーのペナルティ化は,スーパーネットの性能を損なう可能性があることを示す。 そこで我々は,DNASフレームワークを堅牢化するために,連続的なアーキテクチャの復号化に依存しない新しい単一ステージ探索プロトコルを導入する。 本手法は,Cityscapesバリデーションデータセットの検索段階において75.3%の精度で他のDNAS法よりも優れた性能を示し,短接続を含む非密度検索空間におけるDCNASの最適ネットワークよりも1.1%高い性能を示した。 トレーニングプロセス全体は、重量再利用のためにわずか5.5GPU日しかかからず、計算効率の良いアーキテクチャが得られる。 さらに、DARTSにおける結果を大幅に改善し、アーキテクチャの劣化を防ぐ新しいデータセット分割手順を提案する。

Neural Architecture Search (NAS) has been widely adopted to design neural networks for various computer vision tasks. One of its most promising subdomains is differentiable NAS (DNAS), where the optimal architecture is found in a differentiable manner. However, gradient-based methods suffer from the discretization error, which can severely damage the process of obtaining the final architecture. In our work, we first study the risk of discretization error and show how it affects an unregularized supernet. Then, we present that penalizing high entropy, a common technique of architecture regularization, can hinder the supernet's performance. Therefore, to robustify the DNAS framework, we introduce a novel single-stage searching protocol, which is not reliant on decoding a continuous architecture. Our results demonstrate that this approach outperforms other DNAS methods by achieving 75.3% in the searching stage on the Cityscapes validation dataset and attains performance 1.1% higher than the optimal network of DCNAS on the non-dense search space comprising short connections. The entire training process takes only 5.5 GPU days due to the weight reuse, and yields a computationally efficient architecture. Additionally, we propose a new dataset split procedure, which substantially improves results and prevents architecture degeneration in DARTS.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# DPHGNN:デュアルパースペクティブハイパーグラフニューラルネットワーク

DPHGNN: A Dual Perspective Hypergraph Neural Networks ( http://arxiv.org/abs/2405.16616v1 )

ライセンス: Link先を確認
Siddhant Saxena, Shounak Ghatak, Raghu Kolla, Debashis Mukherjee, Tanmoy Chakraborty, (参考訳) ハイパーグラフ上のメッセージパッシングは、ハイパーノード間の高次相関を学習するための標準フレームワークである。 最近提案されたハイパーグラフニューラルネットワーク(HGNN)は,その設計選択に基づいて,空間的およびスペクトル的手法に分類することができる。 本研究では,HGNNの最適性能に対するハイパーグラフトポロジの変化の影響を解析し,トポロジに適応した空間およびスペクトル誘導バイアスを誘導することにより,低階意味論を捉えるための同変演算子学習を導入した新しい双対パースペクティブHGNNを提案する。 DPHGNNは、下階の明示的な特徴表現を下層グラフから超似グラフ構造に動的に融合させる統一的なフレームワークを使用している。 半教師付きハイパーノード分類タスクに対して,DPHGNNを8つのベンチマークハイパーグラフデータセットでベンチマークし,最先端の7つのベースラインと比較して優れた性能を得た。 また、空間的HGNNのパワーを表現し、一般化Weisfeiler Leman (1-GWL)テストを超えてDPHGNNの表現性を定量化するための理論的枠組みと合成ハイパーグラフ同型テストを提供する。 最後に、DPHGNNはパートナーのEコマース企業によってRTO(Return-to-Origin)予測タスクのためにデプロイされました。

Message passing on hypergraphs has been a standard framework for learning higher-order correlations between hypernodes. Recently-proposed hypergraph neural networks (HGNNs) can be categorized into spatial and spectral methods based on their design choices. In this work, we analyze the impact of change in hypergraph topology on the suboptimal performance of HGNNs and propose DPHGNN, a novel dual-perspective HGNN that introduces equivariant operator learning to capture lower-order semantics by inducing topology-aware spatial and spectral inductive biases. DPHGNN employs a unified framework to dynamically fuse lower-order explicit feature representations from the underlying graph into the super-imposed hypergraph structure. We benchmark DPHGNN over eight benchmark hypergraph datasets for the semi-supervised hypernode classification task and obtain superior performance compared to seven state-of-the-art baselines. We also provide a theoretical framework and a synthetic hypergraph isomorphism test to express the power of spatial HGNNs and quantify the expressivity of DPHGNN beyond the Generalized Weisfeiler Leman (1-GWL) test. Finally, DPHGNN was deployed by our partner e-commerce company for the Return-to-Origin (RTO) prediction task, which shows ~7% higher macro F1-Score than the best baseline.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# FUELでUFUを空気中に戻す:無制限ファイルアップロード脆弱性スキャナの有効性を評価するフレームワーク

Bringing UFUs Back into the Air With FUEL: A Framework for Evaluating the Effectiveness of Unrestricted File Upload Vulnerability Scanners ( http://arxiv.org/abs/2405.16619v1 )

ライセンス: Link先を確認
Sebastian Neef, Maath Oudeh, (参考訳) 無制限ファイルアップロード(Unrestricted file upload, UFU)は、Webアプリケーションのセキュリティ上の脆弱性のクラスである。 関連する研究のレビューでは、そのような脆弱性を発見する新しい方法を見つけることへの関心が高まっている。 しかし、各出版物は、新しい脆弱性スキャナーを、執筆時に利用可能な異なる人工または現実世界のアプリケーションに対して評価する。 したがって、既存のUFU脆弱性スキャナーと将来のUFU脆弱性スキャナーとの再現可能な比較を可能にするための包括的なテストフレームワークの必要性を特定する。 これは、UFUスキャナの機能を再現可能な評価を可能にするために、15の異なるUFU脆弱性を独立したシナリオでモデル化するものです。 FUELに対して4つのブラックボックスUFUスキャナーを評価した結果、すべてのUFU脆弱性をスキャナーが特定できず、現実のWebサイトは偽陰性による妥協のリスクを負うことがわかった。 本研究の目的は,既存のUFUスキャナを複数の新しい検出・利用手法で拡張することで,その精度を約50%から90%以上に向上し,既存のUFUスキャナの能力を超越し,UFU脆弱性評価フレームワークとしてのFUELの重要性を示すことである。 オープンサイエンスと今後の研究を促進するため,FUEL と Fuxploider-NG をオープンソース化した。

Unrestricted file upload (UFU) is a class of web security vulnerabilities that can have a severe impact on web applications if uploaded files are not sufficiently validated or securely handled. A review of related work shows an increased interest in finding new methods to discover such vulnerabilities. However, each publication evaluates its new vulnerability scanner against a different set of artificial or real-world applications available at the time of writing. Thus, we identify the need for a comprehensive testing framework to allow a reproducible comparison between existing and future UFU vulnerability scanners. Our contributions include the File Upload Exploitation Lab (FUEL), which models 15 distinct UFU vulnerabilities in isolated scenarios to enable a reproducible evaluation of UFU scanners' capabilities. The results of evaluating four black-box UFU scanners against FUEL show that no scanner manages to identify all UFU vulnerabilities, leaving real-world websites at risk of compromise due to false negatives. Our work aims to solve this problem by extending an existing UFU scanner with multiple new detection and exploitation techniques, which we call Fuxploider-NG, to increase its accuracy from ~50% to over 90%, thereby surpassing the capabilities of existing UFU scanners and showcasing the importance of FUEL as a UFU vulnerability evaluation framework. To foster open science and future work in this area, we open-source FUEL and Fuxploider-NG.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# ライドバーグ原子の表面コード安定化器の測定

Surface Code Stabilizer Measurements for Rydberg Atoms ( http://arxiv.org/abs/2405.16621v1 )

ライセンス: Link先を確認
Sven Jandura, Guido Pupillo, (参考訳) 我々は、中性原子を持つ表面符号に対する安定化器の測定と、ライドバーグ状態からの自然放出である基本的な誤差源の存在下で論理誤差率を最小化するゲートプロトコルの同定を検討する。 本稿では,Rydbergリークエラーの伝播を防止するプロトコルで,物理2ビット誤り率を最小化するプロトコルでもなく,論理誤差率を最小化できることを実証する。 これらの誤りに対処するためのレーザーパルスレベルのゲートプロトコルを提供する。 これらのプロトコルは、1種または2種類の原子を含む表面符号の実装における論理的誤り率を著しく低減する。 我々の研究は、論理的誤りに対する量子ゲートの最適化の重要性を証明し、中性原子による表面符号の効率的な実現への道を開く。

We consider stabilizer measurements for surface codes with neutral atoms and identify gate protocols that minimize logical error rates in the presence of a fundamental error source -- spontaneous emission from Rydberg states. We demonstrate that logical error rates are minimized by protocols that prevent the propagation of Rydberg leakage errors and not by protocols that minimize the physical two-qubit error rate. We provide laser-pulse-level gate protocols to counter these errors. These protocols significantly reduce the logical error rate for implementations of surface codes involving one or two species of atoms. Our work demonstrates the importance of optimizing quantum gates for logical errors in addition to gate fidelities and opens the way to the efficient realization of surface codes with neutral atoms.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# ミミリーと協調コミュニケーションの創発

Mimicry and the Emergence of Cooperative Communication ( http://arxiv.org/abs/2405.16622v1 )

ライセンス: Link先を確認
Dylan Cope, Peter McBurney, (参考訳) 多くの状況において、エージェント間のコミュニケーションは協調型マルチエージェントシステムの重要な構成要素であるが、学習や進化は困難である。 本稿では,コミュニケーションの出現を容易にするための簡単な方法について検討する。 すなわち、エージェントが既存の外部から生成された有用な信号を模倣する効果を探索する。 ここでの鍵となるアイデアは、これらの信号が聴取者に肯定的な反応を与え、それを模倣するスピーカーによっても呼び出すことができるということだ。 この調査は、この問題を形式化し、この形態の模倣が最適化ダイナミクスを変化させ、非コミュニケーション的局所最適化から逃れる機会を与えることを実証することから始まる。 次に、空間的位置のエージェントがリソース収集のために通信しなければならないシミュレーションを用いて、この問題を経験的に探求する。 以上の結果から,進化的最適化と強化学習の両方がこの介入の恩恵を受ける可能性が示唆された。

In many situations, communication between agents is a critical component of cooperative multi-agent systems, however, it can be difficult to learn or evolve. In this paper, we investigate a simple way in which the emergence of communication may be facilitated. Namely, we explore the effects of when agents can mimic preexisting, externally generated useful signals. The key idea here is that these signals incentivise listeners to develop positive responses, that can then also be invoked by speakers mimicking those signals. This investigation starts with formalising this problem, and demonstrating that this form of mimicry changes optimisation dynamics and may provide the opportunity to escape non-communicative local optima. We then explore the problem empirically with a simulation in which spatially situated agents must communicate to collect resources. Our results show that both evolutionary optimisation and reinforcement learning may benefit from this intervention.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# テンソルコンパイラの構成クロスアテンションを持つグラフニューラルネットワーク

Graph neural networks with configuration cross-attention for tensor compilers ( http://arxiv.org/abs/2405.16623v1 )

ライセンス: Link先を確認
Dmitrii Khizbullin, Eduardo Rocha de Andrade, Thanh Hau Nguyen, Matheus Pedroza Ferreira, David R. Pugh, (参考訳) 近年のニューラルネットワークの普及により、推論ワークロードの効率的な提供の必要性が高まっている。 ニューラルネットワーク推論ワークロードは、多次元テンソルを変換する演算子としてノードを持つ計算グラフとして表現することができる。 テンソルは、組合せ的に多くの方法で変換したり、タイルを張ったりできるが、いくつかの構成は推論を加速させる。 本稿では,従来のヒューリスティックスベースのコンパイラとは対照的に,人工知能(AI)テンソルコンパイラを表現するニューラルネットワークアーキテクチャTGraphを提案する。 提案されたソリューションでは、TpuGraphのレイアウトコレクションをまたいだKendallの$\tau$が、信頼性の高いベースラインの29.8%から、TGraphの67.4%に改善されている。 我々は、我々の研究に関連するCO$2$排出削減の可能性について、AI指向データセンターをホストする領域における世帯の排出量の50%以上に相当すると見積もっている。

With the recent popularity of neural networks comes the need for efficient serving of inference workloads. A neural network inference workload can be represented as a computational graph with nodes as operators transforming multidimensional tensors. The tensors can be transposed and/or tiled in a combinatorially large number of ways, some configurations leading to accelerated inference. We propose TGraph, a neural graph architecture that allows screening for fast configurations of the target computational graph, thus representing an artificial intelligence (AI) tensor compiler in contrast to the traditional heuristics-based compilers. The proposed solution improves mean Kendall's $\tau$ across layout collections of TpuGraphs from 29.8% of the reliable baseline to 67.4% of TGraph. We estimate the potential CO$_2$ emission reduction associated with our work to be equivalent to over 50% of the total household emissions in the areas hosting AI-oriented data centers.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# 授業増進学習のための基礎モデルの微調整

Few-shot Tuning of Foundation Models for Class-incremental Learning ( http://arxiv.org/abs/2405.16625v1 )

ライセンス: Link先を確認
Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad, (参考訳) はじめに、クラス増分学習のための視覚基礎モデルの数発のチューニングについて検討する。 将来的な継続的な学習のための前方互換性を確保するために、ベースセッションでエンコーダを訓練する既存の数ショットクラスインクリメンタルラーニング(FSCIL)とは異なり、基礎モデルは一般にそのような考慮なしに大きな未学習データに基づいて訓練される。 これにより、FSCILとファンデーションモデルとの互換性のない従来のFSCILからの先行メソッドがレンダリングされる。 この目的のために,一貫性誘導型非同期コントラストチューニング(CoACT)を提案する。 CoACTは3つのコンポーネントから構成される。 i) 2つの非同期エンコーダ間の一貫性を保ちながら、事前訓練されたエンコーダにLoRAモジュールを含めることで、新しいクラスを学ぶ非同期コントラストチューニング。 (二)基礎モデルのサブセットの効果的なチューニングを容易にする微調整制御、及び 3) 整合性誘導型インクリメンタルチューニングは、後続のセッションで追加の規則化を強制し、学習したクラスの忘れを減らします。 我々は16の多様なデータセットについて広範な調査を行い、CoACTの有効性を実証し、最高のベースライン法を平均2.47%、個々のデータセットで最大12.52%で上回った。 さらに、CoACTは低ショット実験において、忘れることと堅牢性を減らしている。 追加のボーナスとして、CoACTはベンチマーク評価において現在のSOTAよりも13.5%の標準FSCILを改善している。 コードをhttps://github.com/ShuvenduRoy/CoACT-FSCILで公開しています。

For the first time, we explore few-shot tuning of vision foundation models for class-incremental learning. Unlike existing few-shot class incremental learning (FSCIL) methods, which train an encoder on a base session to ensure forward compatibility for future continual learning, foundation models are generally trained on large unlabelled data without such considerations. This renders prior methods from traditional FSCIL incompatible for FSCIL with the foundation model. To this end, we propose Consistency-guided Asynchronous Contrastive Tuning (CoACT), a new approach to continually tune foundation models for new classes in few-shot settings. CoACT comprises three components: (i) asynchronous contrastive tuning, which learns new classes by including LoRA modules in the pre-trained encoder, while enforcing consistency between two asynchronous encoders; (ii) controlled fine-tuning, which facilitates effective tuning of a subset of the foundation model; and (iii) consistency-guided incremental tuning, which enforces additional regularization during later sessions to reduce forgetting of the learned classes. We perform an extensive study on 16 diverse datasets and demonstrate the effectiveness of CoACT, outperforming the best baseline method by 2.47% on average and with up to 12.52% on individual datasets. Additionally, CoACT shows reduced forgetting and robustness in low-shot experiments. As an added bonus, CoACT shows up to 13.5% improvement in standard FSCIL over the current SOTA on benchmark evaluations. We make our code publicly available at https://github.com/ShuvenduRoy/CoACT-FSCIL.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# ピクセルの競合:弱教師付きセグメンテーションのためのセルフプレイアルゴリズム

Competing for pixels: a self-play algorithm for weakly-supervised segmentation ( http://arxiv.org/abs/2405.16628v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Shiqi Huang, João Ramalhinho, Iani J. M. B. Gayo, Nina Montaña-Brown, Ester Bonmati, Stephen P. Pereira, Brian Davidson, Dean C. Barratt, Matthew J. Clarkson, Yipeng Hu, (参考訳) 弱教師付きセグメンテーション (WSS) 法は、対象の存在を示す画像レベルのラベルに依存し、ラベルと関心領域(ROI)との明確な対応が欠如しており、重大な課題となっている。 それにもかかわらず、WSSメソッドは、完全に教師されたセグメンテーションに比べて、アノテーションコストがはるかに低いため、注目を集めている。 強化学習(RL)の自己プレーを活用することで、ROIのイメージセグメンテーションをゲーミフィケーションする新しいWSS手法を提案する。 我々は、これらのパッチが枯渇するまでROIを含むパッチを選択しようとする2つのエージェント間の競合としてセグメンテーションを定式化する。 エージェントトレーニングの報酬を計算するために使用される各タイムステップのスコアは、対象存在のイメージレベルのバイナリ分類ラベルのみを用いて事前訓練された対象存在検知器によって決定された、選択中の対象存在の確率を表す。 さらに,すべてのROIを含むパッチが枯渇すると,各パッチから最終パッチが選択され,双方で呼び出すことができるゲーム終了条件を提案する。 終了すると、競合相手によってROI含有パッチが検出された場合、ROI含有パッチが消毒された場合、または消毒された場合には、エージェントのインセンティブが付与される。 この競合的な設定により、WSSメソッドの一般的な問題であるオーバーセグメンテーションやアンダーセグメンテーションの最小化が保証されます。 4つのデータセットにわたる大規模な実験は、最近の最先端の手法よりも大幅なパフォーマンス向上を示している。 コード:https://github.com/s-sd/spurl/tree/main/wss

Weakly-supervised segmentation (WSS) methods, reliant on image-level labels indicating object presence, lack explicit correspondence between labels and regions of interest (ROIs), posing a significant challenge. Despite this, WSS methods have attracted attention due to their much lower annotation costs compared to fully-supervised segmentation. Leveraging reinforcement learning (RL) self-play, we propose a novel WSS method that gamifies image segmentation of a ROI. We formulate segmentation as a competition between two agents that compete to select ROI-containing patches until exhaustion of all such patches. The score at each time-step, used to compute the reward for agent training, represents likelihood of object presence within the selection, determined by an object presence detector pre-trained using only image-level binary classification labels of object presence. Additionally, we propose a game termination condition that can be called by either side upon exhaustion of all ROI-containing patches, followed by the selection of a final patch from each. Upon termination, the agent is incentivised if ROI-containing patches are exhausted or disincentivised if an ROI-containing patch is found by the competitor. This competitive setup ensures minimisation of over- or under-segmentation, a common problem with WSS methods. Extensive experimentation across four datasets demonstrates significant performance improvements over recent state-of-the-art methods. Code: https://github.com/s-sd/spurl/tree/main/wss
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# 深い弱非線形ネットワークを用いたベイズ推論

Bayesian Inference with Deep Weakly Nonlinear Networks ( http://arxiv.org/abs/2405.16630v1 )

ライセンス: Link先を確認
Boris Hanin, Alexander Zlokapa, (参考訳) 完全連結ニューラルネットワークによるベイジアン推論と,$\phi(t) = t + \psi t^3/L$の形の非線形性は,トレーニングデータポイント数$P$,入力次元$N_0$,ネットワーク層幅$N$,ネットワーク深度$L$が同時に大きい状態において(摂動的に)解決可能であることを示す。 主な制約は、$P < N_0$である。 我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。 1)幅$N$が深さ$L$よりもはるかに大きく、トレーニングセットサイズが$P$である場合、ニューラルネットワークベイズ推論はカーネルを用いたベイズ推論と一致する。 $\psi$の値は、トレーニングデータが特徴マップの下に暗黙的に埋め込まれている球、双曲線、平面の曲率を決定する。 2.$LP/N$が小さな定数である場合、ニューラルネットワークベイズ推論はカーネル状態から離れる。 ゼロ温度では、ニューラルネットワークベイズ推論はデータ依存カーネルを使用したベイズ推論と等価であり、$LP/N$は機能学習の程度を制御する効果的な深さとして機能する。 3) 深部線形ネットワーク(\psi=0$) とノイズデータの制限の場合, 証拠と一般化誤差がゼロ温度で最適となる単純なデータモデルを示す。 LP/N$が増加するにつれて、エビデンスと一般化の両方がさらに改善され、良性オーバーフィッティングの深さの利点が示される。

We show at a physics level of rigor that Bayesian inference with a fully connected neural network and a shaped nonlinearity of the form $\phi(t) = t + \psi t^3/L$ is (perturbatively) solvable in the regime where the number of training datapoints $P$ , the input dimension $N_0$, the network layer widths $N$, and the network depth $L$ are simultaneously large. Our results hold with weak assumptions on the data; the main constraint is that $P < N_0$. We provide techniques to compute the model evidence and posterior to arbitrary order in $1/N$ and at arbitrary temperature. We report the following results from the first-order computation: 1. When the width $N$ is much larger than the depth $L$ and training set size $P$, neural network Bayesian inference coincides with Bayesian inference using a kernel. The value of $\psi$ determines the curvature of a sphere, hyperbola, or plane into which the training data is implicitly embedded under the feature map. 2. When $LP/N$ is a small constant, neural network Bayesian inference departs from the kernel regime. At zero temperature, neural network Bayesian inference is equivalent to Bayesian inference using a data-dependent kernel, and $LP/N$ serves as an effective depth that controls the extent of feature learning. 3. In the restricted case of deep linear networks ($\psi=0$) and noisy data, we show a simple data model for which evidence and generalization error are optimal at zero temperature. As $LP/N$ increases, both evidence and generalization further improve, demonstrating the benefit of depth in benign overfitting.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# let Silence Speak: 大規模言語モデルからのコメント生成によるフェイクニュース検出の強化

Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models ( http://arxiv.org/abs/2405.16631v1 )

ライセンス: Link先を確認
Qiong Nan, Qiang Sheng, Juan Cao, Beizhe Hu, Danding Wang, Jintao Li, (参考訳) フェイクニュースの検出は、ソーシャルメディアユーザーを保護し、健全なニュースエコシステムを維持する上で重要な役割を果たす。 既存の研究の中で、コメントベースの偽ニュース検出手法は、ユーザーの意見、姿勢、感情を反映し、モデルによる偽ニュースに対する理解を深めるため、実証的に有望であることが実証されている。 残念ながら、露出バイアスとユーザーがコメントする意思が異なるため、特に早期検出シナリオにおいて、現実には多様なコメントを得るのは容易ではない。 サイレント」ユーザからのコメントが得られなければ、認識された意見は不完全であり、その後、ニュースの正確性判断に影響を及ぼす可能性がある。 本稿では,多種多様なコメント,特にサイレントユーザからのコメントの入手を確実にするための代替コメントソースを見つける可能性について検討する。 具体的には,ユーザシミュレータおよびコメントジェネレータとして大規模言語モデル(LLM)を採用することを提案し,複数のサブポピュレーショングループから生成されたコメントを多種多様なユーザプロファイルでプロンプトすることでコメントを生成するフィードバック強化検出フレームワークGenFENDを設計する。 GenFENDの有効性を実証し、さらに分析した結果、生成したコメントがより多様なユーザーをカバーし、実際のコメントよりも効果的である可能性が示されている。

Fake news detection plays a crucial role in protecting social media users and maintaining a healthy news ecosystem. Among existing works, comment-based fake news detection methods are empirically shown as promising because comments could reflect users' opinions, stances, and emotions and deepen models' understanding of fake news. Unfortunately, due to exposure bias and users' different willingness to comment, it is not easy to obtain diverse comments in reality, especially for early detection scenarios. Without obtaining the comments from the ``silent'' users, the perceived opinions may be incomplete, subsequently affecting news veracity judgment. In this paper, we explore the possibility of finding an alternative source of comments to guarantee the availability of diverse comments, especially those from silent users. Specifically, we propose to adopt large language models (LLMs) as a user simulator and comment generator, and design GenFEND, a generated feedback-enhanced detection framework, which generates comments by prompting LLMs with diverse user profiles and aggregating generated comments from multiple subpopulation groups. Experiments demonstrate the effectiveness of GenFEND and further analysis shows that the generated comments cover more diverse users and could even be more effective than actual comments.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# UltraGist を用いた長調圧縮

Compressing Lengthy Context With UltraGist ( http://arxiv.org/abs/2405.16635v1 )

ライセンス: Link先を確認
Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou, (参考訳) 長いコンテキストを圧縮することは重要な問題ですが、技術的には難しい問題です。 本稿では, 圧縮学習アルゴリズムの革新的な設計により, コンテクストの高品質な圧縮を特徴とするUltraGistという新しい手法を提案する。 UltraGistは以下の重要な利点をもたらす。 まず、広い範囲のコンテキスト長と圧縮比をサポートするために効果的に学習できるので、圧縮の柔軟性に特に寄与する。 第二に、コンテキストの各小さなセグメントが、調整されたクロスアテンション機構の上に徐々に処理される、長いコンテキストに対するきめ細かい圧縮を生成するのに役立ちます。 第3に、トレーニングプロセスのサンプル効率を向上し、トレーニングデータの使用を最大化する。 最後に、圧縮結果が徐々に生成され、したがって漸進的に更新されるため、動的コンテキストに対する効率的な圧縮の実行を容易にする。 UltraGist は文書 QA や要約,少数ショット学習,マルチセッション会話など,長いコンテキストに関連するタスクを多種多様なタスクで評価する。 我々のデータ、モデル、コードは、 \url{https://github.com/namespace-Pt/UltraGist}でリリースされました。

Compressing lengthy context is a critical but technically challenging problem. In this paper, we propose a new method called UltraGist, which is distinguished for its high-quality compression of lengthy context due to the innovative design of the compression and learning algorithm. UltraGist brings forth the following important benefits. Firstly, it notably contributes to the flexibility of compression, as it can be effectively learned to support a broad range of context lengths and compression ratios. Secondly, it helps to produce fine-grained compression for the lengthy context, where each small segment of the context is progressively processed on top of a tailored cross-attention mechanism. Thirdly, it makes the training process sample-efficient and thus maximizes the use of training data. Finally, it facilitates the efficient running of compression for dynamic context, as the compression result can be progressively generated and hence incrementally updated. UltraGist is evaluated on a wide variety of tasks associated with lengthy context, such as document QA and summarization, few-shot learning, multi-session conversation, et al. Whilst the existing methods fail to handle these challenging scenarios, our approach is able to preserve a near-lossless compression performance throughout all the evaluations. Our data, model, and code have been released at \url{https://github.com/namespace-Pt/UltraGist}.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# ブレグマン発散損失に対する統一ロバスト性則

A unified law of robustness for Bregman divergence losses ( http://arxiv.org/abs/2405.16639v1 )

ライセンス: Link先を確認
Santanu Das, Jatin Batra, Piyush Srivastava, (参考訳) 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。 しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値である$n$よりもはるかに多い:過パラメータ化と呼ばれる現象である。 オーバーパラメトリゼーションを理解するために費やされたかなりの研究に寄与する興味深い研究の中で、ブベックとセルケは、広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、過パラメトリゼーションは堅牢な補間(すなわち補間関数がリプシッツであることが要求される場合)に必要であることを示した。 しかし, その頑健性は, 正方損失を伴う回帰の設定においてのみ証明された。 実際には、他の多くの種類の損失が使用されるが、例えば、分類のためのクロスエントロピー損失がある。 本研究では,ブベックとセルケの結果をブレグマン分散損失に一般化し,二乗損失とクロスエントロピー損失の共通一般化を形成する。 我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。

In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points $n$, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work that contributes to the considerable research that has been devoted to understand overparameterization, Bubeck, and Sellke showed that for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. However, their robustness results were proved only in the setting of regression with square loss. In practice, however many other kinds of losses are used, e.g. cross entropy loss for classification. In this work, we generalize Bubeck and Selke's result to Bregman divergence losses, which form a common generalization of square loss and cross-entropy loss. Our generalization relies on identifying a bias variance-type decomposition that lies at the heart of the proof and Bubeck and Sellke.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# データ中心から見たマルチモーダル大言語モデルの検討

A Survey of Multimodal Large Language Model from A Data-centric Perspective ( http://arxiv.org/abs/2405.16640v1 )

ライセンス: Link先を確認
Tianyi Bai, Hao Liang, Binwang Wan, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Conghui He, Binhang Yuan, Wentao Zhang, (参考訳) 人間は視覚、嗅覚、聴覚、触覚といった様々な感覚を通じて世界を認識する。 同様に、マルチモーダルな大言語モデル(MLLM)は、テキスト、ビジョン、オーディオ、ビデオ、および3D環境を含む複数のモダリティからのデータの統合と処理によって、従来の大言語モデルの能力を高める。 データはこれらのモデルの開発と改良において重要な役割を担います。 本稿では,データ中心の観点からMLLMに関する文献を概観的にレビューする。 具体的には,MLLMの事前学習および適応段階におけるマルチモーダルデータ作成手法について検討する。 さらに,MLLMの評価のためのデータセットの評価手法とベンチマークについて分析する。 今後の研究の方向性についても概説する。 この研究は、MLLMのデータ駆動的な側面の詳細な理解を研究者に提供することを目的としており、この分野におけるさらなる探索と革新を促進することを目的としている。

Human beings perceive the world through diverse senses such as sight, smell, hearing, and touch. Similarly, multimodal large language models (MLLMs) enhance the capabilities of traditional large language models by integrating and processing data from multiple modalities including text, vision, audio, video, and 3D environments. Data plays a pivotal role in the development and refinement of these models. In this survey, we comprehensively review the literature on MLLMs from a data-centric perspective. Specifically, we explore methods for preparing multimodal data during the pretraining and adaptation phases of MLLMs. Additionally, we analyze the evaluation methods for datasets and review benchmarks for evaluating MLLMs. Our survey also outlines potential future research directions. This work aims to provide researchers with a detailed understanding of the data-driven aspects of MLLMs, fostering further exploration and innovation in this field.
翻訳日:2024-05-28 20:09:48 公開日:2024-05-26
# 生涯強化学習のためのパラメータフリー最適化器 PACE のピックアップ

Pick up the PACE: A Parameter-Free Optimizer for Lifelong Reinforcement Learning ( http://arxiv.org/abs/2405.16642v1 )

ライセンス: Link先を確認
Aneesh Muppidi, Zhiyu Zhang, Heng Yang, (参考訳) 生涯強化学習(RL)における重要な課題は、前回の学習がエージェントの新たなタスクへの適応を妨げる、可塑性の喪失である。 正規化とリセットは有効であるが、初期および環境に依存した調整において正確なハイパーパラメータ選択が必要となる。 オンライン凸最適化の原理的理論に基づいて、分散シフトに関するチューニングや事前の知識を必要としないPACEと呼ばれる長寿命RLのためのパラメータフリー最適化器を提案する。 Procgen, Atari, Gym Control環境に関する大規模な実験は、PACEが驚くほどうまく機能していることを示している。

A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent's adaptation to new tasks. While regularization and resetting can help, they require precise hyperparameter selection at the outset and environment-dependent adjustments. Building on the principled theory of online convex optimization, we present a parameter-free optimizer for lifelong RL, called PACE, which requires no tuning or prior knowledge about the distribution shifts. Extensive experiments on Procgen, Atari, and Gym Control environments show that PACE works surprisingly well$\unicode{x2013}$mitigating loss of plasticity and rapidly adapting to challenging distribution shifts$\unicode{x2013}$despite the underlying optimization problem being nonconvex and nonstationary.
翻訳日:2024-05-28 19:58:16 公開日:2024-05-26
# 平均線形確率近似に対するガウス近似と乗算器ブートストラップとTD学習への応用

Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning ( http://arxiv.org/abs/2405.16644v1 )

ライセンス: Link先を確認
Sergey Samsonov, Eric Moulines, Qi-Man Shao, Zhuo-Song Zhang, Alexey Naumov, (参考訳) 本稿では, 線形確率近似(LSA)アルゴリズムの多変量正規近似に対するBerry-Esseen境界を求める。 以上の結果から,最も攻撃的なステップサイズを$\alpha_{k} \asymp k^{-1/2}$と設定すると,正規近似の速度が最速であることが判明した。 さらに,マルチプライヤブートストラップに基づくパラメータ推定において,信頼区間の非漸近的妥当性を証明した。 この手順は、後続の観測が到着すると、ランダムに摂動したLSA推定値と共にLSA推定値を更新する。 本稿では,線形関数近似を用いた時間差学習の設定について述べる。

In this paper, we obtain the Berry-Esseen bound for multivariate normal approximation for the Polyak-Ruppert averaged iterates of the linear stochastic approximation (LSA) algorithm with decreasing step size. Our findings reveal that the fastest rate of normal approximation is achieved when setting the most aggressive step size $\alpha_{k} \asymp k^{-1/2}$. Moreover, we prove the non-asymptotic validity of the confidence intervals for parameter estimation with LSA based on multiplier bootstrap. This procedure updates the LSA estimate together with a set of randomly perturbed LSA estimates upon the arrival of subsequent observations. We illustrate our findings in the setting of temporal difference learning with linear function approximation.
翻訳日:2024-05-28 19:58:16 公開日:2024-05-26
# Diffusion4D:ビデオ拡散モデルによる時空間連続4次元生成

Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models ( http://arxiv.org/abs/2405.16645v1 )

ライセンス: Link先を確認
Hanwen Liang, Yuyang Yin, Dejia Xu, Hanxue Liang, Zhangyang Wang, Konstantinos N. Plataniotis, Yao Zhao, Yunchao Wei, (参考訳) 大規模マルチモーダルデータセットの可用性と拡散モデルの進歩は、4Dコンテンツ生成の進歩を著しく加速させた。 従来のアプローチのほとんどは、複数の画像やビデオ拡散モデルに依存しており、スコアの蒸留サンプリングを最適化や、直接監督のための疑似新しいビューの生成に利用している。 しかし、これらの手法は、最適化速度の遅さと複数ビューの不整合の問題によって妨げられている。 4次元幾何学における空間的一貫性と時間的一貫性は、それぞれ3次元対応拡散モデルと従来の単眼ビデオ拡散モデルで広く研究されている。 本研究は,映像拡散モデルにおける時間的一貫性を4次元生成に必要な空間的時間的一貫性に移行するための戦略を提案する。 具体的には, 効率的かつスケーラブルな4Dコンテンツ生成のための新しいフレームワーク, \textbf{Diffusion4D} を提案する。 精密にキュレートされたダイナミック3Dデータセットを活用し,ダイナミック3Dアセットのオービタルビューを合成できる4D対応ビデオ拡散モデルを開発した。 これらの資産の動的強度を制御するため、3次元から4次元の運動度測定をガイダンスとして導入する。 さらに,運動力学の学習と生成を洗練させるために,新たな運動量再構成損失と3次元認識型分類器フリーガイダンスを提案する。 4Dアセットの軌道ビューを得た後、粗い方法でガウススプラッティングを用いて明示的な4D構築を行う。 合成した多視点一貫した4D画像セットにより、数分で高忠実で多様な4Dアセットを迅速に生成できる。 大規模な実験により,本手法は様々な急激なモダリティをまたいだ生成効率と4次元幾何整合性の観点から,先行技術よりも優れていることが示された。

The availability of large-scale multimodal datasets and advancements in diffusion models have significantly accelerated progress in 4D content generation. Most prior approaches rely on multiple image or video diffusion models, utilizing score distillation sampling for optimization or generating pseudo novel views for direct supervision. However, these methods are hindered by slow optimization speeds and multi-view inconsistency issues. Spatial and temporal consistency in 4D geometry has been extensively explored respectively in 3D-aware diffusion models and traditional monocular video diffusion models. Building on this foundation, we propose a strategy to migrate the temporal consistency in video diffusion models to the spatial-temporal consistency required for 4D generation. Specifically, we present a novel framework, \textbf{Diffusion4D}, for efficient and scalable 4D content generation. Leveraging a meticulously curated dynamic 3D dataset, we develop a 4D-aware video diffusion model capable of synthesizing orbital views of dynamic 3D assets. To control the dynamic strength of these assets, we introduce a 3D-to-4D motion magnitude metric as guidance. Additionally, we propose a novel motion magnitude reconstruction loss and 3D-aware classifier-free guidance to refine the learning and generation of motion dynamics. After obtaining orbital views of the 4D asset, we perform explicit 4D construction with Gaussian splatting in a coarse-to-fine manner. The synthesized multi-view consistent 4D image set enables us to swiftly generate high-fidelity and diverse 4D assets within just several minutes. Extensive experiments demonstrate that our method surpasses prior state-of-the-art techniques in terms of generation efficiency and 4D geometry consistency across various prompt modalities.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 微調整されたスパース・オブ・エクササイズにおけるエキスパートの選抜方法の確率的有効性

A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts ( http://arxiv.org/abs/2405.16646v1 )

ライセンス: Link先を確認
Mohammed Nowaz Rabbani Chowdhury, Meng Wang, Kaoutar El Maghraoui, Naigang Wang, Pin-Yu Chen, Christopher Carothers, (参考訳) 疎結合のエキスパート(MoE)アーキテクチャは異なるサブネットワーク、すなわち訓練可能なルータを介して異なるサブネットワークに異なる入力を送信する。 MoEは大規模モデルのトレーニング計算を大幅に削減するが、ダウンストリームタスクではメモリや計算コストがかかる可能性がある。 モデルプルーニングは推論計算の削減に人気があるが、MoEアーキテクチャにおけるその応用は明らかにされていない。 我々の知る限り、本論文は、微調整されたMoEモデルのエキスパートを刈り取るための、初めて、証明可能な効率のよい技術を提供する。 理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更した専門家のプルーニングの優先順位付けは、テスト精度の維持を保証し、モデルサイズと計算要求を大幅に削減する。 我々の理論解析は、単純化されたMoEアーキテクチャのバイナリ分類タスクを中心にしているが、我々は、CIFAR10、CIFAR100、ImageNetなどのベンチマークデータセットに基づいて、VMoEやE3MoEのような大視的MoEモデルで検証する。

The sparsely gated mixture of experts (MoE) architecture sends different inputs to different subnetworks, i.e., experts, through trainable routers. MoE reduces the training computation significantly for large models, but its deployment can be still memory or computation expensive for some downstream tasks. Model pruning is a popular approach to reduce inference computation, but its application in MoE architecture is largely unexplored. To the best of our knowledge, this paper provides the first provably efficient technique for pruning experts in finetuned MoE models. We theoretically prove that prioritizing the pruning of the experts with a smaller change of the routers l2 norm from the pretrained model guarantees the preservation of test accuracy, while significantly reducing the model size and the computational requirements. Although our theoretical analysis is centered on binary classification tasks on simplified MoE architecture, our expert pruning method is verified on large vision MoE models such as VMoE and E3MoE finetuned on benchmark datasets such as CIFAR10, CIFAR100, and ImageNet.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 部分微分方程式制約最適化のための変分量子フレームワーク

Variational Quantum Framework for Partial Differential Equation Constrained Optimization ( http://arxiv.org/abs/2405.16651v1 )

ライセンス: Link先を確認
Amit Surana, Abeynaya Gnanasekaran, (参考訳) 本稿では、偏微分方程式(PDE)制約設計最適化問題に対する新しい変分量子フレームワークを提案する。 このような問題は、多くの科学的・工学的な領域においてシミュレーションに基づく設計で生じる。 例えば空力設計では、PDEの制約は運動量、質量、エネルギー収支などの保存則であり、設計変数は車両形状パラメータと材料特性であり、車両への過渡的な熱負荷の影響を最小限に抑えるか、リフトを最大化することである。 提案フレームワークは,変分量子線形システム(VQLS)アルゴリズムとブラックボックスオプティマイザを2つの主構成ブロックとして利用する。 VQLSは、与えられた設計パラメータに対するPDE制約の離散化から生じる線形システムを解くために使用され、設計コスト/オブジェクト関数を評価する。 ブラックボックスオプティマイザは、この評価コストに基づいて、次のパラメータ値のセットを選択するために使用される。 本稿では,従来の手法に比較して,提案するフレームワークの潜在的な利点を明らかにするために,詳細な複雑性解析を提案する。 我々はPennyLaneライブラリを用いて我々のフレームワークを実装し、それを応用して原型熱伝達最適化問題を解くとともに、ベイズ最適化をブラックボックスとしたシミュレーション結果を示す。

We present a novel variational quantum framework for partial differential equation (PDE) constrained design optimization problems. Such problems arise in simulation based design in many scientific and engineering domains. For instance in aerodynamic design, the PDE constraints are the conservation laws such as momentum, mass and energy balance, the design variables are vehicle shape parameters and material properties, and the objective could be to minimize the effect of transient heat loads on the vehicle or to maximize the lift. The proposed framework utilizes the variational quantum linear system (VQLS) algorithm and a black box optimizer as its two main building blocks. VQLS is used to solve the linear system, arising from the discretization of the PDE constraints for given design parameters, and evaluate the design cost/objective function. The black box optimizer is used to select next set of parameter values based on this evaluated cost, leading to nested bi-level optimization structure within a hybrid classical-quantum setting. We present detailed complexity analysis to highlight the potential advantages of our proposed framework over classical techniques. We implement our framework using the PennyLane library, apply it to solve a prototypical heat transfer optimization problem, and present simulation results using Bayesian optimization as the black box
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 倫理パス:HCI研究における倫理エンゲージメントを反映するデザイン活動

Ethics Pathways: A Design Activity for Reflecting on Ethics Engagement in HCI Research ( http://arxiv.org/abs/2405.16654v1 )

ライセンス: Link先を確認
Inha Cha, Ajit G. Pillai, Richmond Y. Wong, (参考訳) 本稿では、HCIの理解と研究過程における研究者の倫理的関与とフローの設計を目的としたデザイン活動である倫理的パスウェイスを紹介する。 これらの分野での強い倫理的コミットメントにもかかわらず、研究者の倫理への関与(倫理を運用するための実践)の複雑さを、ある施設の文脈で把握する上で、課題は続いている。 倫理パスウェイズ(Ethics Pathways)は、6つのプレイテストセッションを通じて開発され、研究者の過去の倫理的関与の複雑さを理解するための設計アプローチを提供する。 このアクティビティには、倫理的なインシデントをリコールすること、状況に関わる利害関係者を説明すること、彼らの行動や投機的な選択肢を振り返ること、リフレクションと感情のウォークスルーという4つの主要なタスクが含まれる。 本稿は,これらの目標達成における設計決定とファシリテーション戦略の役割を考察する。 デザイン活動は、現在進行中の研究プロセスの一部として倫理的エンゲージメントを概念化し、個人の感情経験、力の差による社会的相互作用、制度的目標とのつながりを強調することにより、倫理的HCI研究に関する議論に寄与する。

This paper introduces Ethics Pathways, a design activity aimed at understanding HCI and design researchers' ethics engagements and flows during their research process. Despite a strong ethical commitment in these fields, challenges persist in grasping the complexity of researchers' engagement with ethics -- practices conducted to operationalize ethics -- in situated institutional contexts. Ethics Pathways, developed through six playtesting sessions, offers a design approach to understanding the complexities of researchers' past ethics engagements in their work. This activity involves four main tasks: recalling ethical incidents; describing stakeholders involved in the situation; recounting their actions or speculative alternatives; and reflection and emotion walk-through. The paper reflects on the role of design decisions and facilitation strategies in achieving these goals. The design activity contributes to the discourse on ethical HCI research by conceptualizing ethics engagement as a part of ongoing research processing, highlighting connections between individual affective experiences, social interactions across power differences, and institutional goals.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 同じように脆弱性のあるコード変更を予測する - Androidオープンソースプロジェクトのためのマシンラーニングベースの脆弱性保護

Predicting Likely-Vulnerable Code Changes: Machine Learning-based Vulnerability Protections for Android Open Source Project ( http://arxiv.org/abs/2405.16655v1 )

ライセンス: Link先を確認
Keun Soo Yim, (参考訳) 本稿では,ソースコードの変更に対するセキュリティレビューを選択的にトリガするフレームワークを提案する。 コードレビューサービス内のレビューボットとして機能し、コード変更がソースコードリポジトリに送信される前に、追加のセキュリティレビューをコミット前に自動的に要求することができる。 このようなセキュアなコードレビューを実行するとコストが増すため、このフレームワークでは、脆弱性の高いコード変更を識別するためのトレーニング済みの分類器を使用している。 オンライン分類器は、さまざまな入力機能を活用して、レビューパターンを分析し、ソフトウェアエンジニアリングプロセスを追跡し、所定のコード変更の中で特定のテキストパターンをマイニングする。 分類器とその機能は、提出されたコードの変更とAndroid Open Source Project(AOSP)の脆弱性を報告したデータを使用して、慎重に選択され、最適化されている。 評価結果は、我々の脆弱性防止(VP)フレームワークが、データセットの脆弱性誘発コード変更の約80%を、精度が98%、偽陽性率が1.7%であることを示す。 マルチプロジェクト環境におけるVPフレームワークの展開と今後のAndroidセキュリティ研究の方向性について論じる。 本稿では、コード変更の粒度脆弱性予測に対する我々のアプローチを探求し、提案する前に脆弱性のあるコード変更をプリエンプティブに検出することで、ソフトウェアセキュリティの予防技術を提供する。

This paper presents a framework that selectively triggers security reviews for incoming source code changes. Functioning as a review bot within a code review service, the framework can automatically request additional security reviews at pre-submit time before the code changes are submitted to a source code repository. Because performing such secure code reviews add cost, the framework employs a classifier trained to identify code changes with a high likelihood of vulnerabilities. The online classifier leverages various types of input features to analyze the review patterns, track the software engineering process, and mine specific text patterns within given code changes. The classifier and its features are meticulously chosen and optimized using data from the submitted code changes and reported vulnerabilities in Android Open Source Project (AOSP). The evaluation results demonstrate that our Vulnerability Prevention (VP) framework identifies approximately 80% of the vulnerability-inducing code changes in the dataset with a precision ratio of around 98% and a false positive rate of around 1.7%. We discuss the implications of deploying the VP framework in multi-project settings and future directions for Android security research. This paper explores and validates our approach to code change-granularity vulnerability prediction, offering a preventive technique for software security by preemptively detecting vulnerable code changes before submission.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# Kolmogorov-Arnold表現による算数演算学習におけるグロッキングの高速化

Acceleration of Grokking in Learning Arithmetic Operations via Kolmogorov-Arnold Representation ( http://arxiv.org/abs/2405.16658v1 )

ライセンス: Link先を確認
Yeachan Park, Minseok Kim, Yeoneung Kim, (参考訳) 本稿では,グルーキング現象の加速を目的とした新しい手法を提案する。 変圧器モデルによる算術二項演算の学習において発生するグルーキング現象に着目し,可換二項演算の場合のデータ増大に関する議論から始める。 さらに加速するために、Kolmogorov-Arnold(KA)表現定理のレンズを通して算術演算を解明し、その変換器アーキテクチャ(埋め込み、デコーダブロック、分類器)への対応を明らかにする。 二項演算に関連するKA表現間の共有構造を観察し、グラッキングを高速化する様々な移動学習機構を提案する。 この解釈は一連の厳密な実験によって裏付けられている。 さらに,本手法は,演算の合成と方程式の体系という,2つの非標準算術的タスクの学習に成功している。 さらに,本モデルでは,埋め込み転送において限られた数のトークンを用いて算術演算を学習可能であることも明らかにした。

We propose novel methodologies aimed at accelerating the grokking phenomenon, which refers to the rapid increment of test accuracy after a long period of overfitting as reported in~\cite{power2022grokking}. Focusing on the grokking phenomenon that arises in learning arithmetic binary operations via the transformer model, we begin with a discussion on data augmentation in the case of commutative binary operations. To further accelerate, we elucidate arithmetic operations through the lens of the Kolmogorov-Arnold (KA) representation theorem, revealing its correspondence to the transformer architecture: embedding, decoder block, and classifier. Observing the shared structure between KA representations associated with binary operations, we suggest various transfer learning mechanisms that expedite grokking. This interpretation is substantiated through a series of rigorous experiments. In addition, our approach is successful in learning two nonstandard arithmetic tasks: composition of operations and a system of equations. Furthermore, we reveal that the model is capable of learning arithmetic operations using a limited number of tokens under embedding transfer, which is supported by a set of experiments as well.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# RLSF:シンボリックフィードバックによる強化学習

RLSF: Reinforcement Learning via Symbolic Feedback ( http://arxiv.org/abs/2405.16661v1 )

ライセンス: Link先を確認
Piyush Jha, Prithwish Jana, Arnav Arora, Vijay Ganesh, (参考訳) 近年、大規模言語モデル(LLM)はAIの様々なサブフィールド、特に自然言語理解タスクに劇的な影響を与えている。 しかし、現代のLLMの論理的推論能力は、せいぜい断片的である(例えば、いくつかの問題ではうまく機能するが、他の場合には劇的に失敗する)という意見が広く一致している。 従来のLCMファインチューニングアプローチ(例えば、人間のフィードバックを使用するもの)は、この問題にある程度対処するが、音のないブラックボックス報酬モデル、好みデータ収集の難しさ、スパースススカラー報酬値など、多くの問題に悩まされている。 これらの課題に対処するため,LLMの推論能力の向上を目的とした,RLSF(Reinforcement Learning via Symbolic Feedback)と呼ばれる新たなトレーニング/ファインチューニングパラダイムを提案する。 RLSF設定では、訓練/微調整されているLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツール(例えば、ソルバ、代数システム)へのアクセスが可能である。 重要なことに、RLSFでは、これらの推論ツールはポリサイズ証明書(例えば証明)を通じてLLMにフィードバックを与え、いくつかの正確性仕様に関してLLM生成オブジェクトのエラーを特徴付けることができる。 RLSFベースのトレーニング/ファインチューニングによる証明書生成のシンボリックツールの活用により、LSMに対する音のきめ細かい(トケンレベル)報酬信号が実現され、上述した従来の報酬モデルの制限に対処できる。 広範に評価した結果、我々のRLSFによるLLMの微調整は、自然言語の擬似コードからプログラミング言語(C++)へのプログラム合成と、ゲーム・オブ・24の解決という、2つの異なるアプリケーションにおける従来のアプローチよりも優れていることがわかった。

In recent years, large language models (LLMs) have had a dramatic impact on various sub-fields of AI, most notably on natural language understanding tasks. However, there is widespread agreement that the logical reasoning capabilities of contemporary LLMs are, at best, fragmentary (i.e., may work well on some problem instances but fail dramatically on others). While traditional LLM fine-tuning approaches (e.g., those that use human feedback) do address this problem to some degree, they suffer from many issues, including unsound black-box reward models, difficulties in collecting preference data, and sparse scalar reward values. To address these challenges, we propose a new training/fine-tuning paradigm we refer to as Reinforcement Learning via Symbolic Feedback (RLSF), which is aimed at enhancing the reasoning capabilities of LLMs. In the RLSF setting, the LLM that is being trained/fine-tuned is considered as the RL agent, while the environment is allowed access to reasoning or domain knowledge tools (e.g., solvers, algebra systems). Crucially, in RLSF, these reasoning tools can provide feedback to the LLMs via poly-sized certificates (e.g., proofs), that characterize errors in the LLM-generated object with respect to some correctness specification. The ability of RLSF-based training/fine-tuning to leverage certificate-generating symbolic tools enables sound fine-grained (token-level) reward signals to LLMs, and thus addresses the limitations of traditional reward models mentioned above. Via extensive evaluations, we show that our RLSF-based fine-tuning of LLMs outperforms traditional approaches on two different applications, namely, program synthesis from natural language pseudo-code to programming language (C++) and solving the Game of 24.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 加法をもつ連結圏文法とランベク文法

Conjunctive categorial grammars and Lambek grammars with additives ( http://arxiv.org/abs/2405.16662v1 )

ライセンス: Link先を確認
Stepan L. Kuznetsov, Alexander Okhotin, (参考訳) 基本分類文法を結合操作で強化することにより,新しい分類文法群が提案される。 この方法で得られる形式主義は、連結文法と同じ表現力、すなわち文脈自由文法と結合して拡張されることが証明された。 また、連結な圏文法はランベック計算に自然に結合および共役演算と共役演算を組み込むことが示されている。 これはさらに、あるNP完全集合がランベックの計算で同値に定義できることを示唆している。 また、空文字列に関連するいくつかの微妙な問題に対処する方法を示す。 最後に,連結文法が生成する言語は,(接続なしでは)解離したランベック文法で記述できることを証明した。

A new family of categorial grammars is proposed, defined by enriching basic categorial grammars with a conjunction operation. It is proved that the formalism obtained in this way has the same expressive power as conjunctive grammars, that is, context-free grammars enhanced with conjunction. It is also shown that categorial grammars with conjunction can be naturally embedded into the Lambek calculus with conjunction and disjunction operations. This further implies that a certain NP-complete set can be defined in the Lambek calculus with conjunction. We also show how to handle some subtle issues connected with the empty string. Finally, we prove that a language generated by a conjunctive grammar can be described by a Lambek grammar with disjunction (but without conjunction).
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# ランダムグラフのプライベートエッジ密度推定:最適,効率,ロバスト

Private Edge Density Estimation for Random Graphs: Optimal, Efficient and Robust ( http://arxiv.org/abs/2405.16663v1 )

ライセンス: Link先を確認
Hongjie Chen, Jingqiu Ding, Yiding Hua, David Steurer, (参考訳) 我々は、Erd\H{o}s-R\'enyiランダムグラフのエッジ密度とそれらの一般化、不均一ランダムグラフを推定するための、最初の多項式時間、微分ノードプライベートおよびロバストアルゴリズムを与える。 さらに,アルゴリズムの誤差率を対数的因子まで最適とする情報理論的下界を証明した。 以前のアルゴリズムは指数的なランニングタイムまたは準最適エラーレートを発生させる。 提案アルゴリズムの主な要素は,(1)頑健なエッジ密度推定のための新しいサム・オブ・スクエアスアルゴリズム,(2)ホプキンス等による2乗指数機構に基づくプライバシーからロバストネスへの削減である。

We give the first polynomial-time, differentially node-private, and robust algorithm for estimating the edge density of Erd\H{o}s-R\'enyi random graphs and their generalization, inhomogeneous random graphs. We further prove information-theoretical lower bounds, showing that the error rate of our algorithm is optimal up to logarithmic factors. Previous algorithms incur either exponential running time or suboptimal error rates. Two key ingredients of our algorithm are (1) a new sum-of-squares algorithm for robust edge density estimation, and (2) the reduction from privacy to robustness based on sum-of-squares exponential mechanisms due to Hopkins et al. (STOC 2023).
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# クラス分布推定のためのフリードマン法に関するコメント

Comments on Friedman's Method for Class Distribution Estimation ( http://arxiv.org/abs/2405.16666v1 )

ライセンス: Link先を確認
Dirk Tasche, (参考訳) クラス分布推定(量化とも呼ばれる)の目的は、クラスラベルの観測を伴わないテストデータセットにおいて、事前クラス確率の値を決定することである。 それらの多くは、トレーニングとテストデータの分布が事前確率シフト(ラベルシフトとも呼ばれる)を通して関連しているという仮定に基づいている。 これらの方法のうち、フリードマンの手法は、最近二項量子化と多項量子化の両方に対して比較的よく機能することが判明した。 クラス分布推定のための線形方程式系を設計するための一般的な枠組みの文脈において、フリードマンの手法の特性と、Friedman(文献ではDeBias法と呼ばれる)によって言及された別のアプローチについて論じる。

The purpose of class distribution estimation (also known as quantification) is to determine the values of the prior class probabilities in a test dataset without class label observations. A variety of methods to achieve this have been proposed in the literature, most of them based on the assumption that the distributions of the training and test data are related through prior probability shift (also known as label shift). Among these methods, Friedman's method has recently been found to perform relatively well both for binary and multi-class quantification. We discuss the properties of Friedman's method and another approach mentioned by Friedman (called DeBias method in the literature) in the context of a general framework for designing linear equation systems for class distribution estimation.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# コンバージェンス保証者による効率の良いオフポリティ・アディショナル・イミテーション学習

Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees ( http://arxiv.org/abs/2405.16668v1 )

ライセンス: Link先を確認
Yilei Chen, Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis, (参考訳) 報酬関数更新時の現在のポリシーの性能を評価するのに十分なオンラインデータに依存しているため、AIL(Adversarial Imitation Learning)はサンプル非効率の課題に直面している。 本研究では, 外部AILアルゴリズムの収束特性とサンプル複雑性について検討する。 重要サンプリング補正がなくても、$o(\sqrt{K})$$直近のポリシーで生成されたサンプルを再利用することを示し、$K$はポリシー更新と報酬更新の反復数であり、この種のアルゴリズムの収束保証を損なうものではない。 さらに, 外部更新による分散シフト誤差は, より多くのデータを利用できるという利点に支配されていることが示唆された。 この結果は、オフポリティクスAILアルゴリズムのサンプル効率を理論的に支援する。 私たちの知る限りでは、これは政治外のAILアルゴリズムの理論的保証を提供する最初の作品です。

Adversarial Imitation Learning (AIL) faces challenges with sample inefficiency because of its reliance on sufficient on-policy data to evaluate the performance of the current policy during reward function updates. In this work, we study the convergence properties and sample complexity of off-policy AIL algorithms. We show that, even in the absence of importance sampling correction, reusing samples generated by the $o(\sqrt{K})$ most recent policies, where $K$ is the number of iterations of policy updates and reward updates, does not undermine the convergence guarantees of this class of algorithms. Furthermore, our results indicate that the distribution shift error induced by off-policy updates is dominated by the benefits of having more data available. This result provides theoretical support for the sample efficiency of off-policy AIL algorithms. To the best of our knowledge, this is the first work that provides theoretical guarantees for off-policy AIL algorithms.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# 低リソース言語とオンライン知識リポジトリ

Low-resourced Languages and Online Knowledge Repositories: A Need-Finding Study ( http://arxiv.org/abs/2405.16669v1 )

ライセンス: Link先を確認
Hellina Hailu Nigatu, John Canny, Sarah E. Chasins, (参考訳) ウィキペディアのようなオンライン知識リポジトリ(OKR)は、コミュニティに自分自身とその生活方法に関する情報を共有し保存する方法を提供する。 しかし、アフリカのほとんどのコミュニティを含む低リソースの言語を持つコミュニティでは、利用可能なコンテンツの品質と量はしばしば不十分である。 この適切な内容の欠如の1つの理由は、多くのOKRが西洋の知識保存と共有の方法を具現化しており、多くの低リソース言語コミュニティが新しい相互作用に適応する必要があるからである。 人気のOKRウィキペディアにおいて,低リソース言語コントリビュータが直面している課題を理解するため,(1)ウィキペディアフォーラム議論のテーマ分析,(2)初心者コントリビュータ14名による文脈調査を行った。 私たちは3つのエチオピア語(Afan Oromo、Amharic、Tigrinya)に焦点を当てました。 例えば、コントリビュータは、低リソース言語で記事をコロボ化するためのリソースを見つけるのに苦労し、翻訳システムやスペルチェックのような言語技術のサポートは、コントリビュータの時間を浪費するいくつかのエラーを引き起こします。 当社の研究は、低リソースの言語話者にオンライン知識リポジトリをアクセスできるようにする上で、デザイナを支援することを願っています。

Online Knowledge Repositories (OKRs) like Wikipedia offer communities a way to share and preserve information about themselves and their ways of living. However, for communities with low-resourced languages -- including most African communities -- the quality and volume of content available are often inadequate. One reason for this lack of adequate content could be that many OKRs embody Western ways of knowledge preservation and sharing, requiring many low-resourced language communities to adapt to new interactions. To understand the challenges faced by low-resourced language contributors on the popular OKR Wikipedia, we conducted (1) a thematic analysis of Wikipedia forum discussions and (2) a contextual inquiry study with 14 novice contributors. We focused on three Ethiopian languages: Afan Oromo, Amharic, and Tigrinya. Our analysis revealed several recurring themes; for example, contributors struggle to find resources to corroborate their articles in low-resourced languages, and language technology support, like translation systems and spellcheck, result in several errors that waste contributors' time. We hope our study will support designers in making online knowledge repositories accessible to low-resourced language speakers.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# テンソル製品を用いたエキスパートの混合

Mixture of Experts Using Tensor Products ( http://arxiv.org/abs/2405.16671v1 )

ライセンス: Link先を確認
Zhan Su, Fengran Mo, Prayag Tiwari, Benyou Wang, Jian-Yun Nie, Jakob Grue Simonsen, (参考訳) マルチタスク学習では、従来の手法では複数のタスクでモデルを同時にトレーニングする。 しかし、異なるタスクからのトレーニング信号は互いに干渉し、潜在的に \textit{ negative transfer} につながる可能性がある。 これを軽減するために,モジュール型言語モデルが肯定的伝達と体系的一般化を促進できるかどうかを検討する。 具体的には、パラメータ効率とニュアンス付きルーティング手法のバランスをとる新しいモジュラー言語モデル(\texttt{TensorPoly})を提案する。 textit{modules} に対して、テンソル積演算を用いて絡み合ったテンソルを用いて低ランク適応(\texttt{LoRA})を再パラメータ化し、結果として生じるアプローチを \texttt{TLoRA} と呼ぶ。 角テンソル内の各ランクを指示する \texttt{TensorPoly-I} と、角テンソルの各順序を対象とするよりきめ細かいルーティングアプローチを提供する \textt{TensorPoly-II} である。 マルチタスクT0ベンチマークによる実験結果は以下のとおりである。 1) マルチタスク学習における負の推論を緩和し,優れた結果をもたらすモジュール型言語モデルの可能性を強調した。 2) <texttt{TensorPoly-I} は適応におけるパラメータ効率の向上を実現し,マルチタスク変換学習におけるアプローチの可能性を示す。

In multi-task learning, the conventional approach involves training a model on multiple tasks simultaneously. However, the training signals from different tasks can interfere with one another, potentially leading to \textit{negative transfer}. To mitigate this, we investigate if modular language models can facilitate positive transfer and systematic generalization. Specifically, we propose a novel modular language model (\texttt{TensorPoly}), that balances parameter efficiency with nuanced routing methods. For \textit{modules}, we reparameterize Low-Rank Adaptation (\texttt{LoRA}) by employing an entangled tensor through the use of tensor product operations and name the resulting approach \texttt{TLoRA}. For \textit{routing function}, we tailor two innovative routing functions according to the granularity: \texttt{TensorPoly-I} which directs to each rank within the entangled tensor while \texttt{TensorPoly-II} offers a finer-grained routing approach targeting each order of the entangled tensor. The experimental results from the multi-task T0-benchmark demonstrate that: 1) all modular LMs surpass the corresponding dense approaches, highlighting the potential of modular language models to mitigate negative inference in multi-task learning and deliver superior outcomes. 2) \texttt{TensorPoly-I} achieves higher parameter efficiency in adaptation and outperforms other modular LMs, which shows the potential of our approach in multi-task transfer learning.
翻訳日:2024-05-28 19:58:15 公開日:2024-05-26
# ノード分類のための高次元グラフ畳み込み回帰モデルによる伝達学習

Transfer Learning Under High-Dimensional Graph Convolutional Regression Model for Node Classification ( http://arxiv.org/abs/2405.16672v1 )

ライセンス: Link先を確認
Jiachen Chen, Danyang Huang, Liyuan Wang, Kathryn L. Lunetta, Debarghya Mukherjee, Huimin Cheng, (参考訳) ノード分類は基本的なタスクであるが、多くの現実シナリオにおいてノード分類ラベルを取得することは困難でコストがかかる。 トランスファーラーニングは、ソースドメインからの知識を活用して、ターゲットドメインでの学習を強化することで、この問題に対処するための有望なソリューションとして登場した。 ノード分類のための既存の転送学習手法は主に、グラフ畳み込みネットワーク(GCN)と様々な転送学習技術の統合に焦点を当てている。 これらのアプローチは有望な結果を示しているが、理論的な保証の欠如、制限的な条件、ハイパーパラメータの選択に対する高い感度に悩まされることが多い。 これらの制約を克服するために、グラフ畳み込み多相ロジスティック回帰(GCR)モデルと、Trans-GCRと呼ばれるGCRモデルに基づく転送学習手法を提案する。 我々は,高次元環境下でのGCRモデルで得られた推定値について理論的に保証する。 さらに、Trans-GCRは経験的性能が優れ、計算コストが低く、既存の手法よりもハイパーパラメータが少ない。

Node classification is a fundamental task, but obtaining node classification labels can be challenging and expensive in many real-world scenarios. Transfer learning has emerged as a promising solution to address this challenge by leveraging knowledge from source domains to enhance learning in a target domain. Existing transfer learning methods for node classification primarily focus on integrating Graph Convolutional Networks (GCNs) with various transfer learning techniques. While these approaches have shown promising results, they often suffer from a lack of theoretical guarantees, restrictive conditions, and high sensitivity to hyperparameter choices. To overcome these limitations, we propose a Graph Convolutional Multinomial Logistic Regression (GCR) model and a transfer learning method based on the GCR model, called Trans-GCR. We provide theoretical guarantees of the estimate obtained under GCR model in high-dimensional settings. Moreover, Trans-GCR demonstrates superior empirical performance, has a low computational cost, and requires fewer hyperparameters than existing methods.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# 深層学習の限界:複雑度理論のレンズによるシーケンスモデリング

Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory ( http://arxiv.org/abs/2405.16674v1 )

ライセンス: Link先を確認
Nikola Zubić, Federico Soldá, Aurelio Sulser, Davide Scaramuzza, (参考訳) ディープラーニングモデルは様々なアプリケーションで大きな成功を収めてきたが、関数合成や構成タスクといった複雑な推論を必要とするタスクに悩まされ続けている。 進歩にもかかわらず、構造化状態空間モデル (Structured State Space Models, SSM) やトランスフォーマー (Transformer) のようなモデルは、固有のアーキテクチャやトレーニングの制限により、深い構成性タスクにおいてパフォーマンスが低い。 現在のモデルは真のマルチステップ推論ではなくショートカットに依存しており、タスクの複雑さが増大するにつれてパフォーマンスが低下する。 既存の研究はこれらの欠点を強調しているが、SSMの包括的な理論的および経験的分析は欠如している。 我々の貢献は、SSMの限界を説明するための複雑性理論に基づく理論的枠組みを提供することによって、このギャップに対処する。 さらに,これらの制限が機能構成とアルゴリズム的タスク性能を損なうことを示す広範な実証的証拠を示す。 実験の結果,Chain-of-Thought(CoT)が促進しても,タスクの複雑性が増大するにつれて,大幅なパフォーマンス低下がみられた。 モデルはしばしばショートカットを頼りにしており、多段階推論の誤りにつながる。 このことは、実用的な応用において、信頼性の高い多段階推論と構成的タスク解決を実現するために、現在のディープラーニングパラダイムを超えた革新的なソリューションの必要性を浮き彫りにしている。

Deep learning models have achieved significant success across various applications but continue to struggle with tasks requiring complex reasoning over sequences, such as function composition and compositional tasks. Despite advancements, models like Structured State Space Models (SSMs) and Transformers underperform in deep compositionality tasks due to inherent architectural and training limitations. Maintaining accuracy over multiple reasoning steps remains a primary challenge, as current models often rely on shortcuts rather than genuine multi-step reasoning, leading to performance degradation as task complexity increases. Existing research highlights these shortcomings but lacks comprehensive theoretical and empirical analysis for SSMs. Our contributions address this gap by providing a theoretical framework based on complexity theory to explain SSMs' limitations. Moreover, we present extensive empirical evidence demonstrating how these limitations impair function composition and algorithmic task performance. Our experiments reveal significant performance drops as task complexity increases, even with Chain-of-Thought (CoT) prompting. Models frequently resort to shortcuts, leading to errors in multi-step reasoning. This underscores the need for innovative solutions beyond current deep learning paradigms to achieve reliable multi-step reasoning and compositional task-solving in practical applications.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# 離散音声ユニットを用いたクロスモーダルASR誤り訂正

Crossmodal ASR Error Correction with Discrete Speech Units ( http://arxiv.org/abs/2405.16677v1 )

ライセンス: Link先を確認
Yuanchao Li, Pinzhen Chen, Peter Bell, Catherine Lai, (参考訳) ASRは、発話スタイルが、ASRシステムのトレーニングに使用されたものから分岐し、誤った書き起こしをもたらすシナリオで不満足なままである。 これを解決するには、ASR後の処理アプローチであるASRエラー補正(AEC)が必要である。 本研究は,低リソース・アウト・オブ・ドメイン(LROOD)問題である,低リソース・アウト・オブ・ドメイン(LROOD)問題に,低リソース・アウト・オブ・ドメイン(LROOD)問題として,低リソース・アウト・ド・ドメイン(LROOD)問題に対処するものである。 我々は、事前学習と微調整の戦略を探求し、LROODデータの適切なトレーニングスキームに光を当てて、ASRドメインの不一致現象を明らかにする。 さらに,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。 複数のコーパスと複数の評価指標から,LROODデータに対する提案したAEC手法の有効性と有効性,および大規模データに対する一般化性および優越性を示した。 最後に、音声感情認識の研究により、我々のモデルが下流アプリケーションに適したASR誤り文書を生成することを確認した。

ASR remains unsatisfactory in scenarios where the speaking style diverges from that used to train ASR systems, resulting in erroneous transcripts. To address this, ASR Error Correction (AEC), a post-ASR processing approach, is required. In this work, we tackle an understudied issue: the Low-Resource Out-of-Domain (LROOD) problem, by investigating crossmodal AEC on very limited downstream data with 1-best hypothesis transcription. We explore pre-training and fine-tuning strategies and uncover an ASR domain discrepancy phenomenon, shedding light on appropriate training schemes for LROOD data. Moreover, we propose the incorporation of discrete speech units to align with and enhance the word embeddings for improving AEC quality. Results from multiple corpora and several evaluation metrics demonstrate the feasibility and efficacy of our proposed AEC approach on LROOD data, as well as its generalizability and superiority on large-scale data. Finally, a study on speech emotion recognition confirms that our model produces ASR error-robust transcripts suitable for downstream applications.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# Triple Preference Optimization: 単一ステップ最適化におけるデータ少ないアライメントの達成

Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization ( http://arxiv.org/abs/2405.16681v1 )

ライセンス: Link先を確認
Amir Saeidi, Shivanshu Verma, Aswin RRV, Chitta Baral, (参考訳) 大きな言語モデル(LLM)は様々なタスクでうまく機能しますが、それらを人間のデモと整合させることは難しいです。 近年,DPO(Direct Preference Optimization)のような強化学習(Reinforcement Learning, RL)のない手法が登場し, 安定性とスケーラビリティが向上した。 しかし、RLフリーな手法は良好な性能を提供するが、堅牢なSupervised Fine-Tuned (SFT)モデルを開発するためにはかなりのデータが必要である。 本稿では,異なるSFTステップを必要とせず,より少ないデータを使用することなく,LLMを3つの選好に整合させる新しい選好学習手法であるトリプル選好最適化(TPO)を提案する。 実用実験と理論的解析を組み合わせることで,TPOを単一段階のアライメント戦略として有効性を示す。 具体的には,TPOをUltraFeedbackデータセットに直接使用したPhi-2 (2.7B) とMistral (7B) モデルを微調整し,SFT,DPO,KTO,IPO,CPO,ORPOなどの他の手法で整列したモデルと比較して,優れた結果を得た。 さらに、SFT成分を含まないTPOの性能は、MT-Benchスコアに顕著な改善をもたらし、それぞれSFTとDPOに対して+1.27と+0.63が増加した。 さらにTPOは平均精度が高く、Open LLM LeaderboardベンチマークではDPOとSFTを4.2%、SFTは4.97%上回った。 私たちのコードはhttps://github.com/sahsaeedi/triple-preference-timization で公開されています。

Large Language Models (LLMs) perform well across diverse tasks, but aligning them with human demonstrations is challenging. Recently, Reinforcement Learning (RL)-free methods like Direct Preference Optimization (DPO) have emerged, offering improved stability and scalability while retaining competitive performance relative to RL-based methods. However, while RL-free methods deliver satisfactory performance, they require significant data to develop a robust Supervised Fine-Tuned (SFT) model and an additional step to fine-tune this model on a preference dataset, which constrains their utility and scalability. In this paper, we introduce Triple Preference Optimization (TPO), a new preference learning method designed to align an LLM with three preferences without requiring a separate SFT step and using considerably less data. Through a combination of practical experiments and theoretical analysis, we show the efficacy of TPO as a single-step alignment strategy. Specifically, we fine-tuned the Phi-2 (2.7B) and Mistral (7B) models using TPO directly on the UltraFeedback dataset, achieving superior results compared to models aligned through other methods such as SFT, DPO, KTO, IPO, CPO, and ORPO. Moreover, the performance of TPO without the SFT component led to notable improvements in the MT-Bench score, with increases of +1.27 and +0.63 over SFT and DPO, respectively. Additionally, TPO showed higher average accuracy, surpassing DPO and SFT by 4.2% and 4.97% on the Open LLM Leaderboard benchmarks. Our code is publicly available at https://github.com/sahsaeedi/triple-preference-optimization .
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# フェデレーションモデルに関するシステムレビュー

A Systematic Review of Federated Generative Models ( http://arxiv.org/abs/2405.16682v1 )

ライセンス: Link先を確認
Ashkan Vedadi Gargary, Emiliano De Cristofaro, (参考訳) Federated Learning(FL)は、クライアントがデータ上でモデルをトレーニングし、ローカルデータの代わりにモデルを共有することができる分散システムのソリューションとして登場した。 Generative Modelsは、データセットの分布を学習し、元のデータに似た新しいデータサンプルを生成するように設計されている。 多くの先行研究がフェデレーション・ジェネレーティブ・モデルの提案を試みている。 フェデレート・ラーニングとジェネレーティブ・モデルを組み合わせることは攻撃の影響を受けやすく、最適なアーキテクチャを設計することは依然として困難である。 この調査は、2019年から2024年にかけて行われた総合的な研究をレビューすることで、FLとジェネレーティブモデルとの交差に対する関心の高まりをカバーしている。 FLおよび生成モデル手法とプライバシを考慮した100近い論文を体系的に比較した。 この分野を新参者にとってよりアクセスしやすいものにするために、我々は最先端の進歩を強調し、未解決の課題を特定し、この進化する分野における将来の研究の洞察を提供する。

Federated Learning (FL) has emerged as a solution for distributed systems that allow clients to train models on their data and only share models instead of local data. Generative Models are designed to learn the distribution of a dataset and generate new data samples that are similar to the original data. Many prior works have tried proposing Federated Generative Models. Using Federated Learning and Generative Models together can be susceptible to attacks, and designing the optimal architecture remains challenging. This survey covers the growing interest in the intersection of FL and Generative Models by comprehensively reviewing research conducted from 2019 to 2024. We systematically compare nearly 100 papers, focusing on their FL and Generative Model methods and privacy considerations. To make this field more accessible to newcomers, we highlight the state-of-the-art advancements and identify unresolved challenges, offering insights for future research in this evolving field.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# デジタル化に向けて:顔認識技術を用いた行方不明者発見のためのセキュアなアプローチ

Toward Digitalization: A Secure Approach to Find a Missing Person Using Facial Recognition Technology ( http://arxiv.org/abs/2405.16683v1 )

ライセンス: Link先を確認
Abid Faisal Ayon, S M Maksudul Alam, (参考訳) 顔認識(英: Facial Recognition)は、人間の顔の特徴を分析していることを認識できる機械学習技術に基づく技術であり、今日では様々な現実世界の問題を解決するために応用されている。 本稿では, 顔認証技術を用いて, 行方不明者の発見という現実的な課題を, 安全かつ効果的な方法で解決した。 この問題を解決するための研究はいくつかあるが、提案された研究は、そのセキュリティ、設計、実現可能性に関してユニークである。 プロセスへの侵入者を邪魔し、行方不明者の発見者と家族の両方に重きを置くことが、この研究の主要な特徴の2つである。 本論文の結果は, 行方不明者の発見に係わるシステム研究の成果を述べるものである。 論文の要約セクションで述べるように, 既存のシステムに対してシステムが提供する利点は, 比較によって実現可能である。 この仕事は、デジタルプラットフォームで行方不明者を見つけるのにふさわしいソリューションを提供することができる。

Facial Recognition is a technique, based on machine learning technology that can recognize a human being analyzing his facial profile, and is applied in solving various types of realworld problems nowadays. In this paper, a common real-world problem, finding a missing person has been solved in a secure and effective way with the help of facial recognition technology. Although there exist a few works on solving the problem, the proposed work is unique with respect to its security, design, and feasibility. Impeding intruders in participating in the processes and giving importance to both finders and family members of a missing person are two of the major features of this work. The proofs of the works of our system in finding a missing person have been described in the result section of the paper. The advantages that our system provides over the other existing systems can be realized from the comparisons, described in the result summary section of the paper. The work is capable of providing a worthy solution to find a missing person on the digital platform.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# gzipがデータ依存スケーリング法則を予測

gzip Predicts Data-dependent Scaling Laws ( http://arxiv.org/abs/2405.16684v1 )

ライセンス: Link先を確認
Rohan Pandey, (参考訳) 過去の研究は、パラメータカウントとトレーニングされたトークンの数として、ニューラルネットワークモデル(LM)のパフォーマンスを予測するスケーリング法則を確立し、固定された計算予算の最適な割り当てを可能にした。 これらのスケーリング法則は、事前の作業が示すように、データのトレーニングに非依存なのでしょうか? 我々は、PCFGの構文特性を調節し、様々な複雑さのトレーニングデータセットを生成し、それを見つける。 1)スケーリング法則はデータの複雑さの違いに敏感である 圧縮アルゴリズムであるgzipは、データの複雑さがスケーリング特性に与える影響を効果的に予測するアルゴリズムである。 本稿では,トレーニングデータのgzip圧縮性を考慮に入れたLMの新たなデータ依存スケーリング法を提案する。

Past work has established scaling laws that predict the performance of a neural language model (LM) as a function of its parameter count and the number of tokens it's trained on, enabling optimal allocation of a fixed compute budget. Are these scaling laws agnostic to training data as some prior work suggests? We generate training datasets of varying complexities by modulating the syntactic properties of a PCFG, finding that 1) scaling laws are sensitive to differences in data complexity and that 2) gzip, a compression algorithm, is an effective predictor of how data complexity impacts scaling properties. We propose a new data-dependent scaling law for LM's that accounts for the training data's gzip-compressibility; its compute-optimal frontier increases in dataset size preference (over parameter count preference) as training data becomes harder to compress.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# 物体移植のための計画ロボット配置

Planning Robot Placement for Object Grasping ( http://arxiv.org/abs/2405.16692v1 )

ライセンス: Link先を確認
Manish Saini, Melvin Paul Jacob, Minh Nguyen, Nico Hochgeschwender, (参考訳) 物体の摘み取りなどの操作に基づく活動を行う場合、移動ロボットは、実行を成功させる位置で基地を位置決めする必要がある。 この問題に対処するために、著名なアプローチは、通常、対象物に対してグリップポーズを提供するために、プランナーにコストのかかるグリップを頼り、その後分析して、各グリップポーズを達成するのに最適なロボット配置を特定する。 そこで本論文では,まず,環境との衝突を招かないロボット配置と,物体を拾い上げる場所を推定し,最適な配置候補を求めることを提案する。 提案手法では,ロボットの到達性,RGB-D画像および環境の占有グリッドマップを考慮し,適切なロボットのポーズを特定する。 提案アルゴリズムはサービスロボットワークフローに組み込まれており,対象物を選択して把握する。 我々は,ロボットを一定の航法目標に投入する既存のベースライン実装に対して,一連の把握実験でアプローチを評価した。 実験結果は,ロボットがベースライン実装において非常に困難な位置から対象物を把握できることを示す。

When performing manipulation-based activities such as picking objects, a mobile robot needs to position its base at a location that supports successful execution. To address this problem, prominent approaches typically rely on costly grasp planners to provide grasp poses for a target object, which are then are then analysed to identify the best robot placements for achieving each grasp pose. In this paper, we propose instead to first find robot placements that would not result in collision with the environment and from where picking up the object is feasible, then evaluate them to find the best placement candidate. Our approach takes into account the robot's reachability, as well as RGB-D images and occupancy grid maps of the environment for identifying suitable robot poses. The proposed algorithm is embedded in a service robotic workflow, in which a person points to select the target object for grasping. We evaluate our approach with a series of grasping experiments, against an existing baseline implementation that sends the robot to a fixed navigation goal. The experimental results show how the approach allows the robot to grasp the target object from locations that are very challenging to the baseline implementation.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# ペアワイズ比較法による意思決定操作の検出

Detection of decision-making manipulation in the pairwise comparisons method ( http://arxiv.org/abs/2405.16693v1 )

ライセンス: Link先を確認
Michał Strada, Sebastian Ernst, Jacek Szybowski, Konrad Kułakowski, (参考訳) ペア比較法を含むほとんどの意思決定モデルは、意思決定者が正直であると仮定する。 しかし、意思決定者がランキングを操作しようとする状況は想像に難くない。 本稿では,ペアワイズ比較法における3つの簡単な操作法を提案する。 次に、適切に構築されたニューラルネットワークを用いてこれらの手法を検出する。 実験の結果,生成したデータに対する提案した解に付随し,かなりの操作検出レベルを示した。

Most decision-making models, including the pairwise comparison method, assume the decision-makers honesty. However, it is easy to imagine a situation where a decision-maker tries to manipulate the ranking results. This paper presents three simple manipulation methods in the pairwise comparison method. We then try to detect these methods using appropriately constructed neural networks. Experimental results accompany the proposed solutions on the generated data, showing a considerable manipulation detection level.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# ディープニューラルネットワークのトレーニングには,いくつのサンプルが必要ですか?

How many samples are needed to train a deep neural network? ( http://arxiv.org/abs/2405.16696v1 )

ライセンス: Link先を確認
Pegah Golestaneh, Mahsa Taheri, Johannes Lederer, (参考訳) ニューラルネットワークは多くの分野で標準的なツールとなっているが、多くの重要な統計的な疑問が残っている。 本稿では,ReLUフィードフォワードニューラルネットワークのトレーニングに必要なデータ量について検討する。 我々の理論的および実証的な結果は、ReLUフィードフォワードニューラルネットワークの一般化誤差が、通常の「パラメトリックレート」1/n$ではなく、サンプルサイズ$n$で1/\sqrt{n}$でスケールすることを示唆している。 このように、我々の結果は、ニューラルネットワークには「多くの」トレーニングサンプルが必要であるという一般的な信念の根底にある。

Neural networks have become standard tools in many areas, yet many important statistical questions remain open. This paper studies the question of how much data are needed to train a ReLU feed-forward neural network. Our theoretical and empirical results suggest that the generalization error of ReLU feed-forward neural networks scales at the rate $1/\sqrt{n}$ in the sample size $n$ rather than the usual "parametric rate" $1/n$. Thus, broadly speaking, our results underpin the common belief that neural networks need "many" training samples.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# CNN Autoencoder Resizer:MIMO対応UAVネットワークにおける高効率LoS/NLoS検出器

CNN Autoencoder Resizer: A Power-Efficient LoS/NLoS Detector in MIMO-enabled UAV Networks ( http://arxiv.org/abs/2405.16697v1 )

ライセンス: Link先を確認
Azim Akhtarshenas, Navid Ayoobi, David Lopez-Perez, Ramin Toosi, Matin Amoozadeh, (参考訳) 無線ネットワーク(WN)の設計、性能、資源効率を最適化するには、様々なアプリケーションや環境にまたがって、Line of Sight (LoS) と Non-Line of Sight (NLoS) のシナリオを識別する必要がある。 無人航空機(UAV)は、その迅速な移動性、航空能力、ペイロード特性により、この点において大きな可能性を秘めている。 特にUAVは、地上基地局(TBS)の故障やダウンタイム時に、重要な地上基地局(NTBS)として機能する。 本稿では、余分な電力消費を必要とせずにLoS/NLoS検出の精度を向上させるフレームワークとして、CNNオートエンコーダ・リサイザ(CAR)を提案する。 提案手法は、一貫した電力消費レベルを維持しながら、LoS/NLoS信号を検出する平均精度を66%から86%に向上させる。 さらに、CARが提供する分解能は、信号の品質を高めるために、他の方法で前処理ツールとして使用できることを示している。

Optimizing the design, performance, and resource efficiency of wireless networks (WNs) necessitates the ability to discern Line of Sight (LoS) and Non-Line of Sight (NLoS) scenarios across diverse applications and environments. Unmanned Aerial Vehicles (UAVs) exhibit significant potential in this regard due to their rapid mobility, aerial capabilities, and payload characteristics. Particularly, UAVs can serve as vital non-terrestrial base stations (NTBS) in the event of terrestrial base station (TBS) failures or downtime. In this paper, we propose CNN autoencoder resizer (CAR) as a framework that improves the accuracy of LoS/NLoS detection without demanding extra power consumption. Our proposed method increases the mean accuracy of detecting LoS/NLoS signals from 66% to 86%, while maintaining consistent power consumption levels. In addition, the resolution provided by CAR shows that it can be employed as a preprocessing tool in other methods to enhance the quality of signals.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# 暗黙的マルチモーダルアライメント:凍結LDMのマルチモーダル入力への一般化について

Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs ( http://arxiv.org/abs/2405.16700v1 )

ライセンス: Link先を確認
Mustafa Shukor, Matthieu Cord, (参考訳) 大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。 大規模なマルチモーダルモデルのためのビルディングブロックですが、その成功に対する適切な理解はいまだにありません。 本研究では, 画像, ビデオ, 音声, テキスト入力に対して凍結LDMを公開し, 内部表現を解析し, その一般化をテキスト入力を超えて理解することを目的とした。 発見。 知覚トークン(1)は、LLM内のテキストトークンと容易に区別でき、表現が著しく異なり、テキストトークンへの完全翻訳は存在しない。 しかし、(2)知覚トークンとテキストトークンの両方が同様のLCM重みを活性化する。 異なるにもかかわらず、(3)知覚トークンとテキストトークンはLLM内で暗黙的にアライメントされているが、我々はこれを暗黙のマルチモーダルアライメント(IMA)と呼ぶ。 このことは、LLMのマルチモーダル入力への一般化は、主にアーキテクチャによるものであると信じている多くの証拠を提供する。 意味。 1)暗黙のアライメントスコアとタスクパフォーマンスとの間には正の相関関係がみられ,モデル評価と選択のためのプロキシ指標として機能する可能性が示唆された。 2)幻覚には負の相関がみられ,内的知覚とテキスト表現の相違が主な原因であることが判明した。 3) 知覚トークンはモデル全体を通してわずかに変化するため,計算をスキップするための異なるアプローチ(例えばFFN層)を提案し,推論コストを大幅に削減する。 (4) 層間埋め込みが徐々に変化し, テキストとマルチモーダルの重みが重なり合うため, 幅広いマルチモーダルタスクでうまく動作するサブネットワークを1つだけ保持することでLCMを圧縮する。 Paper code: https://github.com/mshukor/ima-lmms.com

Large Language Models (LLMs) have demonstrated impressive performance on multimodal tasks, without any multimodal finetuning. They are the building block for Large Multimodal Models, yet, we still lack a proper understanding of their success. In this work, we expose frozen LLMs to image, video, audio and text inputs and analyse their internal representation aiming to understand their generalization beyond textual inputs. Findings. Perceptual tokens (1) are easily distinguishable from textual ones inside LLMs, with significantly different representations, and complete translation to textual tokens does not exist. Yet, (2) both perceptual and textual tokens activate similar LLM weights. Despite being different, (3) perceptual and textual tokens are implicitly aligned inside LLMs, we call this the implicit multimodal alignment (IMA), and argue that this is linked to architectural design, helping LLMs to generalize. This provide more evidence to believe that the generalization of LLMs to multimodal inputs is mainly due to their architecture. Implications. (1) We find a positive correlation between the implicit alignment score and the task performance, suggesting that this could act as a proxy metric for model evaluation and selection. (2) A negative correlation exists regarding hallucinations, revealing that this problem is mainly due to misalignment between the internal perceptual and textual representations. (3) Perceptual tokens change slightly throughout the model, thus, we propose different approaches to skip computations (e.g. in FFN layers), and significantly reduce the inference cost. (4) Due to the slowly changing embeddings across layers, and the high overlap between textual and multimodal activated weights, we compress LLMs by keeping only 1 subnetwork that works well across a wide range of multimodal tasks. Paper code: https://github.com/mshukor/ima-lmms.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# ディテール・イントラモーダル・イントラモーダル・インタラクションによる音声・視覚的感情認識

Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2405.16701v1 )

ライセンス: Link先を確認
Tong Shi, Xuri Ge, Joemon M. Jose, Nicolas Pugeault, Paul Henderson, (参考訳) AVER(Audio-Visual Emotion Recognition)では,映像と音声のモーダルリティの複雑な時間的関係を捉えることが不可欠である。 しかし、既存の手法では、映像フレーム間の顔の状態変化のような局所的な細部への注意が欠如しており、特徴の識別性が低下し、認識精度が低下する可能性がある。 本稿では,AVERのためのDetail-Enhanced Inter-Modal Interaction Network (DE-III)を提案する。 我々は,顔の状態変化をよりよく捉えたテクスチャで映像表現を豊かにするために,光学フロー情報を導入する。 融合モジュールは、光学フロー推定を対応するビデオフレームと統合し、顔のテクスチャ変化の表現を強化する。 また,映像・音声表現の豊かさと識別性を向上させるため,モーダル内・モーダル間機能拡張モジュールを設計する。 より詳細な定量的評価により,提案手法は,具体的な感情認識と連続的な感情認識の両面において,3つのベンチマークデータセット上の既存手法よりも優れていることが示された。 さらなる研究を奨励し、複製性を確保するため、受け入れ次第、全コードをリリースします。

Capturing complex temporal relationships between video and audio modalities is vital for Audio-Visual Emotion Recognition (AVER). However, existing methods lack attention to local details, such as facial state changes between video frames, which can reduce the discriminability of features and thus lower recognition accuracy. In this paper, we propose a Detail-Enhanced Intra- and Inter-modal Interaction network(DE-III) for AVER, incorporating several novel aspects. We introduce optical flow information to enrich video representations with texture details that better capture facial state changes. A fusion module integrates the optical flow estimation with the corresponding video frames to enhance the representation of facial texture variations. We also design attentive intra- and inter-modal feature enhancement modules to further improve the richness and discriminability of video and audio representations. A detailed quantitative evaluation shows that our proposed model outperforms all existing methods on three benchmark datasets for both concrete and continuous emotion recognition. To encourage further research and ensure replicability, we will release our full code upon acceptance.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# テキスト・エンタテインメントによるオープンQA評価の精度とニュアンス

Accurate and Nuanced Open-QA Evaluation Through Textual Entailment ( http://arxiv.org/abs/2405.16702v1 )

ライセンス: Link先を確認
Peiran Yao, Denilson Barbosa, (参考訳) オープンドメイン質問応答(Open-QA)は、大規模言語モデル(LLM)を評価するための一般的なタスクである。 しかし、現在のOpen-QA評価は、質問のあいまいさと評価者の意味的理解の欠如について批判されている。 基礎モデルやLLMを駆使し、意味的等価性に関わる複雑な評価器は、大きなマージンで人間の判断から逸脱している。 本研究では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討し,学習の自由度を保ちながら,NaturalQuestionsとTriviaQAの双方に対する人的判断をより深く評価することを提案する。 提案するエンテーメントに基づく評価では,解答間の推論ギャップを定量化し,AUCが現在の方法よりも高い解答正解率の微妙なランク付けを可能にすることで,ボーナスや部分マークの割り当てが可能である。

Open-domain question answering (Open-QA) is a common task for evaluating large language models (LLMs). However, current Open-QA evaluations are criticized for the ambiguity in questions and the lack of semantic understanding in evaluators. Complex evaluators, powered by foundation models or LLMs and pertaining to semantic equivalence, still deviate from human judgments by a large margin. We propose to study the entailment relations of answers to identify more informative and more general system answers, offering a much closer evaluation to human judgment on both NaturalQuestions and TriviaQA while being learning-free. The entailment-based evaluation we propose allows the assignment of bonus or partial marks by quantifying the inference gap between answers, enabling a nuanced ranking of answer correctness that has higher AUC than current methods.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# 影を可視化する - フェデレートラーニングにおけるデータ汚染行動の解明

Visualizing the Shadows: Unveiling Data Poisoning Behaviors in Federated Learning ( http://arxiv.org/abs/2405.16707v1 )

ライセンス: Link先を確認
Xueqing Zhang, Junkai Zhang, Ka-Ho Chow, Juntao Chen, Ying Mao, Mohamed Rahouti, Xiang Li, Yuchen Liu, Wenqi Wei, (参考訳) 本稿では,フェデレート・ラーニング(FL)システムのデータ中毒攻撃に対する感受性について検討し,このような脅威を可視化・緩和するための新しいシステムを提案する。 ラベルフリップによるターゲットデータ中毒攻撃をシミュレートし、シミュレーションとデータ生成、データ収集とアップロード、ユーザフレンドリーなインタフェース、分析とインサイト、アドバイザリシステムを含む5成分システムを用いてモデルパフォーマンスへの影響を分析する。 3つのデモモジュール、ラベル操作、攻撃タイミング、悪意のある攻撃可用性、および2つの分析コンポーネント:ローカルモデルの更新の実用的および分析的振る舞いは、システムの完全性に対するリスクを強調し、FLシステムのレジリエンスに関する洞察を提供する。 デモはhttps://github.com/CathyXueqingZhang/DataPoisoningVis.comで公開されている。

This demo paper examines the susceptibility of Federated Learning (FL) systems to targeted data poisoning attacks, presenting a novel system for visualizing and mitigating such threats. We simulate targeted data poisoning attacks via label flipping and analyze the impact on model performance, employing a five-component system that includes Simulation and Data Generation, Data Collection and Upload, User-friendly Interface, Analysis and Insight, and Advisory System. Observations from three demo modules: label manipulation, attack timing, and malicious attack availability, and two analysis components: utility and analytical behavior of local model updates highlight the risks to system integrity and offer insight into the resilience of FL systems. The demo is available at https://github.com/CathyXueqingZhang/DataPoisoningVis.
翻訳日:2024-05-28 19:48:31 公開日:2024-05-26
# AI-DEC: ユーザ中心のAI説明のためのカードベースの設計方法

The AI-DEC: A Card-based Design Method for User-centered AI Explanations ( http://arxiv.org/abs/2405.16711v1 )

ライセンス: Link先を確認
Christine P Lee, Min Kyung Lee, Bilge Mutlu, (参考訳) 証拠の増加は、多くのデプロイされたAIシステムがエンドユーザのインタラクションや情報ニーズを十分にサポートしていないことを示唆している。 これらのシステムの設計におけるエンドユーザーの増加は、ユーザーのニーズと期待を明らかにすることができるが、AI説明設計においてエンドユーザーを関与させる効果的な方法は、未調査のままである。 このギャップに対処するため、我々はAI-DECと呼ばれる設計手法を開発し、AIシステム(コミュニケーション内容、モダリティ、周波数、方向)の統合に不可欠なAI説明の4つの次元を定義し、エンドユーザが自身のニーズを満たすAI説明を設計するための設計例を提供する。 我々は,この手法を,日々の業務にAIシステムを利用する医療・金融・マネジメント業界の労働者との共同設計セッションを通じて評価した。 AI-DECは、AIシステムの職場の役割や労働者の価値観によって異なる、さまざまなレベルのパフォーマンスと自律性のニーズを満たす説明を設計する上で、労働者を効果的に支援したことを示している。 実世界のシステムにおけるAI説明のユーザ中心設計におけるAI-DECの利用の意味について論じる。

Increasing evidence suggests that many deployed AI systems do not sufficiently support end-user interaction and information needs. Engaging end-users in the design of these systems can reveal user needs and expectations, yet effective ways of engaging end-users in the AI explanation design remain under-explored. To address this gap, we developed a design method, called AI-DEC, that defines four dimensions of AI explanations that are critical for the integration of AI systems -- communication content, modality, frequency, and direction -- and offers design examples for end-users to design AI explanations that meet their needs. We evaluated this method through co-design sessions with workers in healthcare, finance, and management industries who regularly use AI systems in their daily work. Findings indicate that the AI-DEC effectively supported workers in designing explanations that accommodated diverse levels of performance and autonomy needs, which varied depending on the AI system's workplace role and worker values. We discuss the implications of using the AI-DEC for the user-centered design of AI explanations in real-world systems.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# Zamba:コンパクト7B SSMハイブリッドモデル

Zamba: A Compact 7B SSM Hybrid Model ( http://arxiv.org/abs/2405.16712v1 )

ライセンス: Link先を確認
Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge, (参考訳) 本稿では,新たな7B SSM-transformerハイブリッドモデルであるZambaについて述べる。 Zambaは、公開されているデータセットから1Tトークンをトレーニングしており、このスケールで最高の非トランスフォーマーモデルである。 Zambaは、Mambaのバックボーンと単一の共有アテンションモジュールを組み合わせたユニークなアーキテクチャを開拓し、最小パラメータコストでアテンションのメリットを得る。 アーキテクチャのため、Zambaは同等のトランスフォーマーモデルよりも推論が大幅に高速で、長いシーケンスを生成するためにメモリを著しく少なくする。 第1フェーズは既存のWebデータセットに基づいており、第2フェーズは高品質なインストラクションと合成データセットでモデルを熱処理し、高速な学習速度の減衰を特徴とする。 フェーズ1とアニーリングフェーズの両方を通じて、Zambaの重みとすべてのチェックポイントをオープンソースにしています。

In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid model which achieves competitive performance against leading open-weight models at a comparable scale. Zamba is trained on 1T tokens from openly available datasets and is the best non-transformer model at this scale. Zamba pioneers a unique architecture combining a Mamba backbone with a single shared attention module, thus obtaining the benefits of attention at minimal parameter cost. Due to its architecture, Zamba is significantly faster at inference than comparable transformer models and requires substantially less memory for generation of long sequences. Zamba is pretrained in two phases: the first phase is based on existing web datasets, while the second one consists of annealing the model over high-quality instruct and synthetic datasets, and is characterized by a rapid learning rate decay. We open-source the weights and all checkpoints for Zamba, through both phase 1 and annealing phases.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# LLMの質問への回答による解釈可能な埋め込みの作り方

Crafting Interpretable Embeddings by Asking LLMs Questions ( http://arxiv.org/abs/2405.16714v1 )

ライセンス: Link先を確認
Vinamra Benara, Chandan Singh, John X. Morris, Richard Antonello, Ion Stoica, Alexander G. Huth, Jianfeng Gao, (参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。 しかし、神経科学のような科学領域への不透明さと増殖は、解釈可能性の必要性を増大させてきた。 本稿では,LLMプロンプトにより解釈可能な埋め込みが得られるかどうかを問う。 質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。 トレーニングQA-Embは、モデルの重みを学習するよりも、基礎となる質問のセットを選択することを減らす。 我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。 QA-Embは、確立された解釈可能なベースラインを著しく上回り、非常に少ない質問を必要とする。 これにより、セマンティック脳表現の理解を深め、評価できるフレキシブルな特徴空間を構築するための道が開ける。 さらに,QA-Embを効率的なモデルで効果的に近似することができ,単純なNLPタスクにおける広範な応用について検討する。

Large language models (LLMs) have rapidly improved text embeddings for a growing array of natural-language processing tasks. However, their opaqueness and proliferation into scientific domains such as neuroscience have created a growing need for interpretability. Here, we ask whether we can obtain interpretable embeddings through LLM prompting. We introduce question-answering embeddings (QA-Emb), embeddings where each feature represents an answer to a yes/no question asked to an LLM. Training QA-Emb reduces to selecting a set of underlying questions rather than learning model weights. We use QA-Emb to flexibly generate interpretable models for predicting fMRI voxel responses to language stimuli. QA-Emb significantly outperforms an established interpretable baseline, and does so while requiring very few questions. This paves the way towards building flexible feature spaces that can concretize and evaluate our understanding of semantic brain representations. We additionally find that QA-Emb can be effectively approximated with an efficient model, and we explore broader applications in simple NLP tasks.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# 深部強化学習によるアモルタイズされた能動因果誘導

Amortized Active Causal Induction with Deep Reinforcement Learning ( http://arxiv.org/abs/2405.16718v1 )

ライセンス: Link先を確認
Yashas Annadani, Panagiotis Tigas, Stefan Bauer, Adam Foster, (参考訳) 本稿では、適応的かつリアルタイムな介入を選択でき、可能性へのアクセスを必要としない介入設計方針であるCausal Amortized Active Structure Learning(CAASL)を提案する。 このポリシーは、変換器をベースとした償却ネットワークであり、設計環境シミュレータ上で強化学習を行い、収集されたデータから推定された因果グラフに真の因果グラフがどの程度近いかを測定する報奨関数を訓練する。 合成データと単細胞遺伝子発現シミュレータを用いて、我々のポリシーによって得られたデータは、代替戦略よりも基礎となる因果グラフをよりよく推定できることを実証的に実証した。 我々の設計方針は,試験時間設計環境における分布変化をうまく一般化しつつ,トレーニング環境の分布に対する不適切な介入設計をうまく達成する。 さらに,本方針は,トレーニング中よりも次元性が高い環境の設計や,トレーニングされていない介入タイプに対して,優れたゼロショット一般化を示すものである。

We present Causal Amortized Active Structure Learning (CAASL), an active intervention design policy that can select interventions that are adaptive, real-time and that does not require access to the likelihood. This policy, an amortized network based on the transformer, is trained with reinforcement learning on a simulator of the design environment, and a reward function that measures how close the true causal graph is to a causal graph posterior inferred from the gathered data. On synthetic data and a single-cell gene expression simulator, we demonstrate empirically that the data acquired through our policy results in a better estimate of the underlying causal graph than alternative strategies. Our design policy successfully achieves amortized intervention design on the distribution of the training environment while also generalizing well to distribution shifts in test-time design environments. Further, our policy also demonstrates excellent zero-shot generalization to design environments with dimensionality higher than that during training, and to intervention types that it has not been trained on.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# Alistair: 差分生産型広告測定システムのためのデバイス上での効率的な予算化

Alistair: Efficient On-device Budgeting for Differentially-Private Ad-Measurement Systems ( http://arxiv.org/abs/2405.16719v1 )

ライセンス: Link先を確認
Pierre Tholoniat, Kelly Kostopoulou, Peter McNeely, Prabhpreet Singh Sodhi, Anirudh Varanasi, Benjamin Case, Asaf Cidon, Roxana Geambasu, Mathias Lécuyer, (参考訳) 主要なブラウザからのサードパーティ製クッキーの削除や、新しいプライバシー保護広告APIの導入によって、調査コミュニティは、Webのプライバシーを質的に改善する業界を支援する機会を、タイムリーに持っている。 本稿では、既存のプライバシー保護広告計測APIを強化するため、W3Cコミュニティグループ内での取り組みについて論じる。 Google、Apple、Meta、Mozillaのデザインを分析し、より厳格で効率的な差分プライバシー(DP)予算コンポーネントでそれらを強化します。 当社のアプローチはAlistairと呼ばれ、明確に定義されたDP保証を強制し、広告主がより正確なプライベートな測定クエリを実行できるようにする。 DPの個々の形態でプライバシー保証をフレーミングすることで、従来のDP定義を使用するシステムよりもDP予算を効率的にすることができる。 AlistairをChromeに組み込んで、マイクロベンチマークや広告データセットで評価します。 すべてのワークロードにおいて、Alistairは、同等のDP保護の下でより多くの広告測定を可能にする点で、ベースラインを著しく上回る。

With the impending removal of third-party cookies from major browsers and the introduction of new privacy-preserving advertising APIs, the research community has a timely opportunity to assist industry in qualitatively improving the Web's privacy. This paper discusses our efforts, within a W3C community group, to enhance existing privacy-preserving advertising measurement APIs. We analyze designs from Google, Apple, Meta and Mozilla, and augment them with a more rigorous and efficient differential privacy (DP) budgeting component. Our approach, called Alistair, enforces well-defined DP guarantees and enables advertisers to conduct more private measurement queries accurately. By framing the privacy guarantee in terms of an individual form of DP, we can make DP budgeting more efficient than in current systems that use a traditional DP definition. We incorporate Alistair into Chrome and evaluate it on microbenchmarks and advertising datasets. Across all workloads, Alistair significantly outperforms baselines in enabling more advertising measurements under comparable DP protection.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# 大規模知識洗浄

Large Scale Knowledge Washing ( http://arxiv.org/abs/2405.16720v1 )

ライセンス: Link先を確認
Yu Wang, Ruihan Wu, Zexue He, Xiusi Chen, Julian McAuley, (参考訳) 大規模な言語モデルは、世界知識を記憶する上で印象的な能力を示しており、これは、個人の情報の記憶、有毒または敏感な知識、著作権のあるコンテンツの記憶に関する懸念につながっている。 本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の「学習」に焦点を当てた。 従来のアンラーニング手法は通常、逆損失を定義し、バックプロパゲーションによってモデルを更新するが、これはモデルの流れや推論能力に影響を与える可能性がある。 既存の作業では、ダウンストリームタスクの認識を必要とする機能を失うことを防ぐために、ダウンストリームタスクから追加のデータが導入されている。 未学習のトレードオフをコントロールし、既存の能力を維持することも難しい。 この目的のために,モデル編集手法にインスピレーションを得て,知識と推論が無関係であるという仮説に基づいて,デコーダのみの大規模言語モデルにおけるMLP層を更新するLAW(Large Scale Washing)を提案する。 我々は、特定のMLP層の重みを更新するために、未学習の知識で新しい目的を導出する。 実験の結果,推論能力を維持しつつ,目標知識を忘れることにおけるLAWの有効性が示された。 コードはhttps://github.com/wangyu-ustc/LargeScaleWashing.comでオープンソース化される。

Large language models show impressive abilities in memorizing world knowledge, which leads to concerns regarding memorization of private information, toxic or sensitive knowledge, and copyrighted content. We introduce the problem of Large Scale Knowledge Washing, focusing on "unlearning" extensive amounts of factual knowledge. Previous unlearning methods usually define the reverse loss and update the model via backpropagation, which may affect the model's fluency and reasoning ability or even destroy the model due to extensive training with the reverse loss. Existing works introduce additional data from downstream tasks to prevent the model from losing capabilities, which requires downstream task awareness. Controlling the tradeoff of unlearning and maintaining existing capabilities is also challenging. To this end, we propose LAW (Large Scale Washing) to update the MLP layers in decoder-only large language models to perform knowledge washing, as inspired by model editing methods and based on the hypothesis that knowledge and reasoning are disentanglable. We derive a new objective with the knowledge to be unlearned to update the weights of certain MLP layers. Experimental results demonstrate the effectiveness of LAW in forgetting target knowledge while maintaining reasoning ability. The code will be open-sourced at https://github.com/wangyu-ustc/LargeScaleWashing.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# エッジ依存性を超えたエッジ確率グラフモデル:概念、分析、アルゴリズム

Exploring Edge Probability Graph Models Beyond Edge Independency: Concepts, Analyses, and Algorithms ( http://arxiv.org/abs/2405.16726v1 )

ライセンス: Link先を確認
Fanchen Bu, Ruochen Yang, Paul Bogdan, Kijung Shin, (参考訳) 好ましくない乱数グラフモデル(RGM) (i)グラフ統計を計算・制御できるようにトラクタブルで、 (II)ハイクラスタリング(ハイサブグラフ密度)のような現実的な構造を生成する。 RGM (例: Erdos-Renyi and stochastic Kronecker) の一般的なカテゴリは、エッジ確率を出力し、グラフを生成するためのエッジ確率(すなわち、サンプル)を実現する必要がある。 通常、それぞれのエッジ(存在)は独立に決定される。 しかし、エッジ独立性では、RGMは入力グラフを「複製」しない限り、理論的には高いサブグラフ密度を生成できない。 本研究では,高いトラクタビリティを確保しつつ,より現実的な構造を創出できるエッジ独立以外の実現について検討する。 具体的には、結合によって生成されたグラフにおける部分グラフ(例えば三角形)密度に対して、結合と閉形式トラクタビリティ結果の導出というエッジ依存的な実現スキームを提案する。 本稿では,バインディングとパラメータフィッティングを用いたグラフ生成アルゴリズムを提案する。 我々は、結合が高いトラクタビリティを示し、高いクラスタリングを持つリアルグラフを生成することを実証的に検証し、エッジ依存性を仮定する既存のRGMを大幅に改善する。

Desirable random graph models (RGMs) should (i) be tractable so that we can compute and control graph statistics, and (ii) generate realistic structures such as high clustering (i.e., high subgraph densities). A popular category of RGMs (e.g., Erdos-Renyi and stochastic Kronecker) outputs edge probabilities, and we need to realize (i.e., sample from) the edge probabilities to generate graphs. Typically, each edge (in)existence is assumed to be determined independently. However, with edge independency, RGMs theoretically cannot produce high subgraph densities unless they "replicate" input graphs. In this work, we explore realization beyond edge independence that can produce more realistic structures while ensuring high tractability. Specifically, we propose edge-dependent realization schemes called binding and derive closed-form tractability results on subgraph (e.g., triangle) densities in graphs generated with binding. We propose algorithms for graph generation with binding and parameter fitting of binding. We empirically validate that binding exhibits high tractability and generates realistic graphs with high clustering, significantly improving upon existing RGMs assuming edge independency.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# 変圧器アーキテクチャにおける関係情報と感覚情報の分離と統合

Disentangling and Integrating Relational and Sensory Information in Transformer Architectures ( http://arxiv.org/abs/2405.16727v1 )

ライセンス: Link先を確認
Awni Altabaa, John Lafferty, (参考訳) Transformerアーキテクチャは、反復的な情報検索(アテンション)と、それに続く局所処理(ポジションワイズMLP)からなるニューラルメッセージパッシングの形式でシーケンスを処理する。 この一般的な計算パラダイムでは、個々のオブジェクトに関する"感覚"情報と、オブジェクト間の関係を記述する"関係"情報という2つのタイプが必須である。 標準の注意は前者を自然にエンコードするが、後者を明示的にエンコードしない。 本稿では,2つの異なるタイプのアテンションヘッドと,それぞれ異なるタイプのルーティング情報でマルチヘッドアテンションを付加するトランスフォーマーの拡張を提案する。 第1のタイプは、オブジェクトレベルの特徴をキャプチャするトランスフォーマーの標準的なアテンションメカニズムであり、第2のタイプは、リレーショナル情報を明示的にキャプチャするための新しいアテンションメカニズムである。 2つのタイプのアテンションヘッドはそれぞれ異なる帰納バイアスを持ち、結果としてアーキテクチャの効率性と汎用性が向上する。 このアプローチの約束は、様々なタスクで実証的に示されます。

The Transformer architecture processes sequences by implementing a form of neural message-passing that consists of iterative information retrieval (attention), followed by local processing (position-wise MLP). Two types of information are essential under this general computational paradigm: "sensory" information about individual objects, and "relational" information describing the relationships between objects. Standard attention naturally encodes the former, but does not explicitly encode the latter. In this paper, we present an extension of Transformers where multi-head attention is augmented with two distinct types of attention heads, each routing information of a different type. The first type is the standard attention mechanism of Transformers, which captures object-level features, while the second type is a novel attention mechanism we propose to explicitly capture relational information. The two types of attention heads each possess different inductive biases, giving the resulting architecture greater efficiency and versatility. The promise of this approach is demonstrated empirically across a range of tasks.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26
# マルチタスク型マルチモーダルモデルに向けて:ビデオ生成の視点から

Towards Multi-Task Multi-Modal Models: A Video Generative Perspective ( http://arxiv.org/abs/2405.16728v1 )

ライセンス: Link先を確認
Lijun Yu, (参考訳) 言語基盤モデルの進歩は、人工知能の最近の急増を後押ししている。 対照的に、非テクスト的モダリティ(特にビデオ)の生成学習は言語モデリングに大きく遅れている。 この論文は、さまざまな条件下でビデオやその他のモダリティを生成できるマルチタスクモデルを構築し、理解と圧縮のアプリケーションを構築するために、我々の努力を年代記している。 視覚データの高次元性を考えると、簡潔で正確な潜在表現を追求する。 ビデオネイティブな時空間トークン化器は高い忠実性を保っている。 我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。 さらに、我々のスケーラブルな視覚トークン表現は、生成、圧縮、理解タスクで有益であることを示す。 この成果は、視覚合成における拡散モデルを超える言語モデルの最初の例であり、ビデオトークン化器は業界標準コーデックより優れている。 これらの多モード潜在空間内では、マルチタスク生成モデルの設計について検討する。 マスク付きマルチタスクトランスは、ビデオ生成の品質、効率、柔軟性に優れています。 我々は、テキストのみに訓練された凍結した言語モデルにより、視覚的コンテンツを生成することができる。 最後に、スクラッチから学習したスケーラブルな多モードトランスフォーマーを構築し、様々な条件で高忠実度動作を含むビデオを生成する。 コース全体を通して、複数のタスクの統合、高忠実な潜在表現の作成、複数のモダリティの生成の有効性を示してきた。 この研究は、テキスト以外のデータを生成し、様々なメディア形式でリアルタイムでインタラクティブな体験を可能にするための将来の探索の可能性を示す。

Advancements in language foundation models have primarily fueled the recent surge in artificial intelligence. In contrast, generative learning of non-textual modalities, especially videos, significantly trails behind language modeling. This thesis chronicles our endeavor to build multi-task models for generating videos and other modalities under diverse conditions, as well as for understanding and compression applications. Given the high dimensionality of visual data, we pursue concise and accurate latent representations. Our video-native spatial-temporal tokenizers preserve high fidelity. We unveil a novel approach to mapping bidirectionally between visual observation and interpretable lexical terms. Furthermore, our scalable visual token representation proves beneficial across generation, compression, and understanding tasks. This achievement marks the first instances of language models surpassing diffusion models in visual synthesis and a video tokenizer outperforming industry-standard codecs. Within these multi-modal latent spaces, we study the design of multi-task generative models. Our masked multi-task transformer excels at the quality, efficiency, and flexibility of video generation. We enable a frozen language model, trained solely on text, to generate visual content. Finally, we build a scalable generative multi-modal transformer trained from scratch, enabling the generation of videos containing high-fidelity motion with the corresponding audio given diverse conditions. Throughout the course, we have shown the effectiveness of integrating multiple tasks, crafting high-fidelity latent representation, and generating multiple modalities. This work suggests intriguing potential for future exploration in generating non-textual data and enabling real-time, interactive experiences across various media forms.
翻訳日:2024-05-28 19:35:41 公開日:2024-05-26