このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240815となっている論文です。

PDF登録状況(公開日: 20240815)

TitleAuthorsAbstract論文公表日・翻訳日
# 自動車軌道データを用いた高速道路交通事故の高度リアルタイム検出

Advance Real-time Detection of Traffic Incidents in Highways using Vehicle Trajectory Data ( http://arxiv.org/abs/2408.16773v1 )

ライセンス: Link先を確認
Sudipta Roy, Samiul Hasan, (参考訳) かなりの数の交通事故は、道路上の初期の事故のために発生した二次的な事故である。 したがって,交通事故の早期発見は安全の観点からの道路利用者にとって重要であり,二次事故のリスクを低減する可能性がある。 現在GPSデバイスが広く利用可能になっていることで、車両の軌跡を追跡し記録する機会が生まれる。 本研究の目的は、車軌道データを用いて、機械学習アルゴリズムを用いて高速道路の交通事故をリアルタイムに検出することである。 この調査では、ルイジアナ州で最もクラッシュの激しい高速道路であるI-10で、不均一に連続した車両軌跡データと交通事故データを3日間使用した。 車両軌道は、空間的均一性を維持し、機械学習アルゴリズムの履歴トラフィックデータを生成するために、仮想検出器位置に基づく軌道に変換される。 途中の交通事故と一致するトリップを分離し、類似した空間特性を持つ他のトリップと組み合わせてモデリング用のデータベースを構築する。 ロジスティック回帰(Logistic Regression)、ランダムフォレスト(Random Forest)、エクストリームグラディエントブースト(Extreme Gradient Boost)、人工ニューラルネットワーク(Artificial Neural Network)モデルなどの複数の機械学習アルゴリズムを使用して、下流の道路区間でインシデントに直面する可能性のある軌道を検出する。 その結果,ランダムフォレストモデルでは,適切なリコール値と識別能力を持つインシデントを予測する上で,最高の性能を達成できることが示唆された。

A significant number of traffic crashes are secondary crashes that occur because of an earlier incident on the road. Thus, early detection of traffic incidents is crucial for road users from safety perspectives with a potential to reduce the risk of secondary crashes. The wide availability of GPS devices now-a-days gives an opportunity of tracking and recording vehicle trajectories. The objective of this study is to use vehicle trajectory data for advance real-time detection of traffic incidents on highways using machine learning-based algorithms. The study uses three days of unevenly sequenced vehicle trajectory data and traffic incident data on I-10, one of the most crash-prone highways in Louisiana. Vehicle trajectories are converted to trajectories based on virtual detector locations to maintain spatial uniformity as well as to generate historical traffic data for machine learning algorithms. Trips matched with traffic incidents on the way are separated and along with other trips with similar spatial attributes are used to build a database for modeling. Multiple machine learning algorithms such as Logistic Regression, Random Forest, Extreme Gradient Boost, and Artificial Neural Network models are used to detect a trajectory that is likely to face an incident in the downstream road section. Results suggest that the Random Forest model achieves the best performance for predicting an incident with reasonable recall value and discrimination capability.
翻訳日:2024-09-08 15:56:29 公開日:2024-08-15
# RL学習ロボットの表情制御のためのオンライン行動修正

Online Behavior Modification for Expressive User Control of RL-Trained Robots ( http://arxiv.org/abs/2408.16776v1 )

ライセンス: Link先を確認
Isaac Sheidlower, Mavis Murdock, Emma Bethel, Reuben M. Aronson, Elaine Schaertl Short, (参考訳) 強化学習(Reinforcement Learning, RL)は、ロボットがタスクを学習するための効果的な方法である。 しかし、典型的なRLでは、ロボットが配備された後、エンドユーザーはロボットがどのようにタスクを行うかをほとんど制御できない。 そこで本研究では,ロボットが自律的にタスクを完了すると,ユーザがロボットの行動特性をリアルタイムで制御するパラダイムである,オンライン行動修正(オンライン行動修正)のアイデアを紹介する。 人-ロボットインタラクションにおけるこのユーザ中心の定式化の価値を示すために,行動多様性に基づくアルゴリズム,ACORD(Adjustable Control of RL Dynamics)を提案する。 研究(n=23)では、ロボットが自律的に形をトレースするので、ユーザは絵のスタイルを調整します。 ACORD と RL と共有自律性 (Shared Autonomy, SA) を比較し,ACORD は,SA に匹敵するユーザ優先の制御と表現のレベルを持つが,自律的な実行と RL の堅牢性の可能性を示す。

Reinforcement Learning (RL) is an effective method for robots to learn tasks. However, in typical RL, end-users have little to no control over how the robot does the task after the robot has been deployed. To address this, we introduce the idea of online behavior modification, a paradigm in which users have control over behavior features of a robot in real time as it autonomously completes a task using an RL-trained policy. To show the value of this user-centered formulation for human-robot interaction, we present a behavior diversity based algorithm, Adjustable Control Of RL Dynamics (ACORD), and demonstrate its applicability to online behavior modification in simulation and a user study. In the study (n=23) users adjust the style of paintings as a robot traces a shape autonomously. We compare ACORD to RL and Shared Autonomy (SA), and show ACORD affords user-preferred levels of control and expression, comparable to SA, but with the potential for autonomous execution and robustness of RL.
翻訳日:2024-09-08 15:56:29 公開日:2024-08-15
# ソフトウェアシティビジュアライゼーションによるソフトウェアアーキテクチャ変革の協調設計と計画

Collaborative Design and Planning of Software Architecture Changes via Software City Visualization ( http://arxiv.org/abs/2408.16777v1 )

ライセンス: Link先を確認
Alexander Krause-Glau, Malte Hansen, Wilhelm Hasselbring, (参考訳) ディベロッパは通常、ソフトウェアアーキテクチャの変更を共同で議論し計画するためにダイアグラムとソースコードを使用します。 このポスターでは、開発者がソフトウェア都市ヴィジュアライゼーションを使ってソフトウェアアーキテクチャの変更を設計、計画できる新しいアプローチについて、現在進行中の作業を紹介します。

Developers usually use diagrams and source code to jointly discuss and plan software architecture changes. With this poster, we present our on-going work on a novel approach that enables developers to collaboratively use software city visualization to design and plan software architecture changes.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# LLMを用いた論理理論の帰納的学習:複雑度階数解析

Inductive Learning of Logical Theories with LLMs: A Complexity-graded Analysis ( http://arxiv.org/abs/2408.16779v1 )

ライセンス: Link先を確認
João Pedro Gandarela, Danilo S. Carvalho, André Freitas, (参考訳) 本研究は,論理理論の帰納に関する形式推論エンジンからのフィードバックにより,Large Language Models (LLM) の機能と限界を分析する,新しい体系的手法を提案する。 この分析は、LLM性能に関する特定の推論課題の定量化を可能にする、複雑性グレードのw.r.t.ルール依存構造である。 LLMを形式的手法と統合することは自然言語処理分野における有望なフロンティアであり、モデル推論制御と説明可能性を改善するための重要な道である。 特に、複雑な事実や規則の集合に関する帰納的学習は、明示的な記号的根拠が欠如しているため、現在の自己回帰モデルに固有の課題を生じさせる。 これらは形式的なシステムで補完できるが、帰納的学習に関する LLM によって提供される特性はよく理解されておらず、定量化されていない。 実験の結果,最大LLMはSOTAインダクティブ論理プログラミング(ILP)システムベースラインと競合する結果が得られるが,LLMの理論複雑性よりも長い述語関係連鎖の追跡が難しいことが示唆された。

This work presents a novel systematic methodology to analyse the capabilities and limitations of Large Language Models (LLMs) with feedback from a formal inference engine, on logic theory induction. The analysis is complexity-graded w.r.t. rule dependency structure, allowing quantification of specific inference challenges on LLM performance. Integrating LLMs with formal methods is a promising frontier in the Natural Language Processing field, as an important avenue for improving model inference control and explainability. In particular, inductive learning over complex sets of facts and rules, poses unique challenges for current autoregressive models, as they lack explicit symbolic grounding. While they can be complemented by formal systems, the properties delivered by LLMs regarding inductive learning, are not well understood and quantified. Empirical results indicate that the largest LLMs can achieve competitive results against a SOTA Inductive Logic Programming (ILP) system baseline, but also that tracking long predicate relationship chains is a more difficult obstacle than theory complexity for the LLMs.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# $EvoAl^{2048}$

$EvoAl^{2048}$ ( http://arxiv.org/abs/2408.16780v1 )

ライセンス: Link先を確認
Bernhard J. Berger, Christina Plump, Rolf Drechsler, (参考訳) AIソリューションが安全クリティカルな製品に入ると、AI製品によって生成されるソリューションの説明可能性と解釈可能性もますます重要になる。 長期的には、このような説明がAIベースのシステムの決定をユーザーが受け入れる鍵となる。 ゲーム2048を解くための解釈可能かつ説明可能なポリシーを探索するためにモデル駆動型最適化を適用することを報告する。 本稿では,オープンソースソフトウェア EvoAl を用いた GECCO'24 Interpretable Control Competition のソリューションについて述べる。 我々は、新しいアイデアに容易に適応できる解釈可能なポリシーを作成するためのアプローチを開発することを目指していた。

As AI solutions enter safety-critical products, the explainability and interpretability of solutions generated by AI products become increasingly important. In the long term, such explanations are the key to gaining users' acceptance of AI-based systems' decisions. We report on applying a model-driven-based optimisation to search for an interpretable and explainable policy that solves the game 2048. This paper describes a solution to the GECCO'24 Interpretable Control Competition using the open-source software EvoAl. We aimed to develop an approach for creating interpretable policies that are easy to adapt to new ideas.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# 災害対応のためのソーシャルメディアデータ活用における信頼性向上とバイアス問題の最小化

Enhancing Trustworthiness and Minimising Bias Issues in Leveraging Social Media Data for Disaster Management Response ( http://arxiv.org/abs/2409.00004v1 )

ライセンス: Link先を確認
Samia Abid, Bhupesh Kumar Mishra, Dhavalkumar Thakker, Nishikant Mishra, (参考訳) 災害イベントはしばしば急速に展開し、迅速かつ効果的な対応を必要とする。 災害シナリオにおける行動計画、リソース割り当て、ヘルプ要求の解決は、災害関連情報が不確実であることが多いため、時間がかかり複雑である。 リアルタイムデータを活用することは、データの不確実性に大きく対処し、災害対応努力を強化することができる。 リアルタイムデータの不確実性に対処するため、災害前後にソーシャルメディアが広く利用されているため、ソーシャルメディアはリアルタイムデータの代替の有効な情報源として現れた。 しかし、これらのデータに信頼性とバイアスに関する課題も生み出します。 災害管理にソーシャルメディアデータを十分に活用するためには、特定の災害タイプや地域状況によって生じるバイアスを軽減することが重要である。 さらに、ソーシャルメディアデータに誤報があることは、データソースの信頼性への懸念を高め、実行可能な洞察を阻害し、リソース利用を不適切なものにする可能性がある。 これらの課題を克服するために,ソーシャルメディアデータにおける信頼性の確保とバイアスへの対処方法を検討することを目的とした。 本研究では, 信頼度を高め, バイアスを最小限に抑え, リアルタイムなソーシャルメディア投稿を利用した効率的でスケーラブルな災害管理システムを構築し, 災害関連キーワードを同定し, 災害の深刻度を評価することを目的とする。 これにより、リアルタイムソーシャルデータの統合は災害管理システムのスピードと精度を向上させることができる。

Disaster events often unfold rapidly, necessitating a swift and effective response. Developing action plans, resource allocation, and resolution of help requests in disaster scenarios is time-consuming and complex since disaster-relevant information is often uncertain. Leveraging real-time data can significantly deal with data uncertainty and enhance disaster response efforts. To deal with real-time data uncertainty, social media appeared as an alternative effective source of real-time data as there has been extensive use of social media during and after the disasters. However, it also brings forth challenges regarding trustworthiness and bias in these data. To fully leverage social media data for disaster management, it becomes crucial to mitigate biases that may arise due to specific disaster types or regional contexts. Additionally, the presence of misinformation within social media data raises concerns about the reliability of data sources, potentially impeding actionable insights and leading to improper resource utilization. To overcome these challenges, our research aimed to investigate how to ensure trustworthiness and address biases in social media data. We aim to investigate and identify the factors that can be used to enhance trustworthiness and minimize bias to make an efficient and scalable disaster management system utilizing real-time social media posts, identify disaster-related keywords, and assess the severity of the disaster. By doing so, the integration of real-time social data can improve the speed and accuracy of disaster management systems
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# Csi-LLM:LLM事前学習を考慮した新しいダウンリンクチャネル予測法

Csi-LLM: A Novel Downlink Channel Prediction Method Aligned with LLM Pre-Training ( http://arxiv.org/abs/2409.00005v1 )

ライセンス: Link先を確認
Shilong Fan, Zhenyu Liu, Xinyu Gu, Haozhen Li, (参考訳) ダウンリンクチャネル時間予測は、MIMO(Multiple-Input multiple-output)システムにおいて重要な技術である。 しかし、固定ステップの履歴シーケンスに依存する既存の手法は、チャネル予測の精度、実用性、スケーラビリティを著しく制限している。 近年の進歩により、大規模言語モデル(LLM)は複雑な配列に対して強いパターン認識と推論能力を示すことが示されている。 この課題は、これらの機能を完全に活用するために、無線通信データを自然言語処理で使用されるモダリティと効果的に整合させることである。 本研究では,可変ステップ履歴列をモデル化するLLMを用いたダウンリンクチャネル予測技術であるCsi-LLMを紹介する。 そこで我々は,Csi-LLMの設計と訓練を自然言語処理と整合させ,チャネル状態情報(CSI)の次のステップを予測するためのLLMの次トーケン生成機能を活用する。 Csi-LLMは、様々なシナリオで安定した性能向上を実現し、連続的な多段階予測において有意なポテンシャルを示す。

Downlink channel temporal prediction is a critical technology in massive multiple-input multiple-output (MIMO) systems. However, existing methods that rely on fixed-step historical sequences significantly limit the accuracy, practicality, and scalability of channel prediction. Recent advances have shown that large language models (LLMs) exhibit strong pattern recognition and reasoning abilities over complex sequences. The challenge lies in effectively aligning wireless communication data with the modalities used in natural language processing to fully harness these capabilities. In this work, we introduce Csi-LLM, a novel LLM-powered downlink channel prediction technique that models variable-step historical sequences. To ensure effective cross-modality application, we align the design and training of Csi-LLM with the processing of natural language tasks, leveraging the LLM's next-token generation capability for predicting the next step in channel state information (CSI). Simulation results demonstrate the effectiveness of this alignment strategy, with Csi-LLM consistently delivering stable performance improvements across various scenarios and showing significant potential in continuous multi-step prediction.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# 深部ニューラルネットワークによる航空宇宙における手動ブラケット設置の視覚的検証

Applying Deep Neural Networks to automate visual verification of manual bracket installations in aerospace ( http://arxiv.org/abs/2409.00006v1 )

ライセンス: Link先を確認
John Oyekan, Liam Quantrill, Christopher Turner, Ashutosh Tiwari, (参考訳) 本研究では,Siamese Neural Networkアーキテクチャに基づくディープラーニングに基づく自動視覚検査・検証アルゴリズムについて検討する。 また、入力された画像のペアが、シームズニューラルネットワークの性能にどのように影響するかについても考察する。 シームズニューラルネットワークは畳み込みニューラルネットワークと共に探索された。 これらのモデルアーキテクチャの調査に加えて,モデル性能の向上を目的としたトランスファーラーニングやアンサンブル手法など,新たな手法が検討されている。 我々は,複数の参照画像に対して単一のモデル投票を行うシームズニューラルネットワークに特有な新しい投票方式を開発した。 これは、同じデータサンプルで投票する複数のモデルの典型的なアンサンブルアプローチとは異なる。 その結果、トレーニングデータが不足している場合に、自動視覚検査および検証タスクに、Siamese Neural Networkを使用する大きな可能性が示された。 新たな類似性投票を含む追加の手法も、モデルの性能を著しく改善すると考えられる。 我々は、我々のアプローチを検証するために、公開されているOmniglotデータセットを適用します。 我々の知る限り、Deep Neural Networksを介して航空宇宙セクターに設置されたブラケットの自動検証において、この種の詳細な研究が行われたのはこれが初めてである。

In this work, we explore a deep learning based automated visual inspection and verification algorithm, based on the Siamese Neural Network architecture. Consideration is also given to how the input pairs of images can affect the performance of the Siamese Neural Network. The Siamese Neural Network was explored alongside Convolutional Neural Networks. In addition to investigating these model architectures, additional methods are explored including transfer learning and ensemble methods, with the aim of improving model performance. We develop a novel voting scheme specific to the Siamese Neural Network which sees a single model vote on multiple reference images. This differs from the typical ensemble approach of multiple models voting on the same data sample. The results obtained show great potential for the use of the Siamese Neural Network for automated visual inspection and verification tasks when there is a scarcity of training data available. The additional methods applied, including the novel similarity voting, are also seen to significantly improve the performance of the model. We apply the publicly available omniglot dataset to validate our approach. According to our knowledge, this is the first time a detailed study of this sort has been carried out in the automatic verification of installed brackets in the aerospace sector via Deep Neural Networks.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# 非平衡低分解能スマートメータデータからの負荷分散のためのフェデレーションシーケンス・ツー・シーケンス学習

Federated Sequence-to-Sequence Learning for Load Disaggregation from Unbalanced Low-Resolution Smart Meter Data ( http://arxiv.org/abs/2409.00007v1 )

ライセンス: Link先を確認
Xiangrui Li, (参考訳) 非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)の重要性は、NILMがエネルギーの認識を高め、エネルギープログラム設計に有用な洞察を提供するため、ますます認識されている。 既存のNILMメソッドの多くは、高サンプリングの複雑な信号データを取得して、高消費機器にフォーカスする特殊な装置に依存しており、特にスマートメーターが家庭に低解像度の能動電力を供給している場合に、その適用性を妨げている。 本稿では, 降水量が少ない場合(時間)に, 高消費と低消費の両方を含む合計12種類の機器の負荷分散を実現するために, 気象データを用いた新しい手法を提案する。 さらに、データ共有なしに負荷分散をフルフィルするために、シーケンス・ツー・シーケンス・モデルに基づくフェデレートラーニング(FL)モデルを開発する。 FLフレームワークであるL2GDは,統計的不均一性を効果的に処理し,過度に適合する問題を回避できることを示した。 気象データを組み込むことで,NILMの性能を大幅に向上させることができる。

The importance of Non-Intrusive Load Monitoring (NILM) has been increasingly recognized, given that NILM can enhance energy awareness and provide valuable insights for energy program design. Many existing NILM methods often rely on specialized devices to retrieve high-sampling complex signal data and focus on the high consumption appliances, hindering their applicability in real-world applications, especially when smart meters only provide low-resolution active power readings for households. In this paper, we propose a new approach using easily accessible weather data to achieve load disaggregation for a total of 12 appliances, encompassing both high and low consumption, in scenarios with very low sampling rates (hourly). Moreover, We develop a federated learning (FL) model that builds upon a sequence-to-sequence model to fulfil load disaggregation without data sharing. Our experiments demonstrate that the FL framework - L2GD can effectively handle statistical heterogeneity and avoid overfitting problems. By incorporating weather data, our approach significantly improves the performance of NILM.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# 証拠に基づく誤情報検出のためのWeb検索エージェント

Web Retrieval Agents for Evidence-Based Misinformation Detection ( http://arxiv.org/abs/2409.00009v1 )

ライセンス: Link先を確認
Jacob-Junqi Tian, Hao Yu, Yury Orlovskiy, Tyler Vergho, Mauricio Rivera, Mayank Goel, Zachary Yang, Jean-Francois Godbout, Reihaneh Rabbany, Kellin Pelrine, (参考訳) 本稿では,誤情報検出のためのエージェントベース自動事実チェック手法を提案する。 検索にインターネットにアクセスできない強力なLLMエージェントとオンライン検索エージェントを組み合わせることで,各ツールを独立して使用する場合よりも優れた結果が得られることを示す。 提案手法は,複数のモデルにまたがって堅牢であり,代替品よりも優れ,誤情報検出のマクロF1を検索不要のLLMと比較して最大20%向上する。 また,検索ツールや知識ベースなどのシステム構築における判断,必要なエビデンスの種類,結果への影響,およびプロセス全体の他の部分について,システムの利用源とそのバイアスに関する広範な分析を行う。 高い性能と深い理解を組み合わせることで、将来検索可能な誤情報軽減システムの構築ブロックを提供したいと思っています。

This paper develops an agent-based automated fact-checking approach for detecting misinformation. We demonstrate that combining a powerful LLM agent, which does not have access to the internet for searches, with an online web search agent yields better results than when each tool is used independently. Our approach is robust across multiple models, outperforming alternatives and increasing the macro F1 of misinformation detection by as much as 20 percent compared to LLMs without search. We also conduct extensive analyses on the sources our system leverages and their biases, decisions in the construction of the system like the search tool and the knowledge base, the type of evidence needed and its impact on the results, and other parts of the overall process. By combining strong performance with in-depth understanding, we hope to provide building blocks for future search-enabled misinformation mitigation systems.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# テキストデータストリームマイニングの進化

Evolving Text Data Stream Mining ( http://arxiv.org/abs/2409.00010v1 )

ライセンス: Link先を確認
Jay Kumar, (参考訳) テキストストリームは、時間とともに生成されるテキストドキュメントの順序付きシーケンスである。 このような大量のテキストデータは、毎日オンラインソーシャルプラットフォームによって生成される。 このようなテキストストリームが有用な情報を抽出するアルゴリズムを設計することは、無限長やデータ空間、進化といったストリームのユニークな特性のために難しい課題である。 これにより、限られた時間とメモリの制約の下で、このようなストリーミングデータから有用な情報を学ぶことが注目されている。 過去10年間、多くのテキストストリームマイニングアルゴリズムが提案されてきたが、潜在的な問題がまだ残っている。 第一に、高次元テキストデータは、モデルがサブスペースで動くか、グローバルな特徴空間を減らすまで、学習性能を著しく低下させる。 第2の課題は、文書のセマンティックテキスト表現を抽出し、時間とともに進化するトピックをキャプチャすることである。 さらに、ラベルの不足という問題は存在するが、既存の手法ではラベル付きデータの完全利用が可能である。 これらの問題に対処するため、本論文では、テキストストリーム上でのクラスタリングとマルチラベル学習のための新しい学習モデルを提案する。

A text stream is an ordered sequence of text documents generated over time. A massive amount of such text data is generated by online social platforms every day. Designing an algorithm for such text streams to extract useful information is a challenging task due to unique properties of the stream such as infinite length, data sparsity, and evolution. Thereby, learning useful information from such streaming data under the constraint of limited time and memory has gained increasing attention. During the past decade, although many text stream mining algorithms have proposed, there still exists some potential issues. First, high-dimensional text data heavily degrades the learning performance until the model either works on subspace or reduces the global feature space. The second issue is to extract semantic text representation of documents and capture evolving topics over time. Moreover, the problem of label scarcity exists, whereas existing approaches work on the full availability of labeled data. To deal with these issues, in this thesis, new learning models are proposed for clustering and multi-label learning on text streams.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# AVIN-Chat:感情状態調整機能を備えたオーディオ・ビジュアル対話型チャットボットシステム

AVIN-Chat: An Audio-Visual Interactive Chatbot System with Emotional State Tuning ( http://arxiv.org/abs/2409.00012v1 )

ライセンス: Link先を確認
Chanhyuk Park, Jungbin Cho, Junwan Kim, Seongmin Lee, Jungsu Kim, Sanghoon Lee, (参考訳) 本研究は,3Dアバターと対面会話をリアルタイムで行える音声対話型チャットボット(AVIN-Chat)システムを提案する。 テキストのみまたは音声のみのコミュニケーションを提供する従来のチャットボットサービスと比較して、提案されたAVIN-Chatは、より優れた体験品質を提供するオーディオ視覚コミュニケーションを提供することができる。 さらに、提案したAVIN-Chatは、ユーザの感情状態に応じて感情的に話し、表現する。 これにより、チャットボットシステムとの強い結びつきを確立し、ユーザの没入感を高めることができる。 ユーザの主観的テストを通じて,提案システムは従来のチャットボットシステムよりも高い没入感をユーザに提供することを実証した。 デモビデオはhttps://www.youtube.com/watch? v=Z74uIV9k7_k。

This work presents an audio-visual interactive chatbot (AVIN-Chat) system that allows users to have face-to-face conversations with 3D avatars in real-time. Compared to the previous chatbot services, which provide text-only or speech-only communications, the proposed AVIN-Chat can offer audio-visual communications providing users with a superior experience quality. In addition, the proposed AVIN-Chat emotionally speaks and expresses according to the user's emotional state. Thus, it enables users to establish a strong bond with the chatbot system, increasing the user's immersion. Through user subjective tests, it is demonstrated that the proposed system provides users with a higher sense of immersion than previous chatbot systems. The demonstration video is available at https://www.youtube.com/watch?v=Z74uIV9k7_k.
翻訳日:2024-09-08 15:50:41 公開日:2024-08-15
# 粗粒度アライメントによる音声画像検索の高速化

Coarse-to-fine Alignment Makes Better Speech-image Retrieval ( http://arxiv.org/abs/2408.13119v1 )

ライセンス: Link先を確認
Lifeng Zhou, Yuke Li, (参考訳) 本稿では,音声画像検索のための新しいフレームワークを提案する。 我々は,SIC学習タスクを用いて,音声と画像の表現を粗いレベルに整列させ,SIM学習タスクを微粒なクロスモーダルアライメントをさらに洗練させる。 SICとSIM学習タスクは統一的な方法で共同で訓練される。 学習過程を最適化するために,SIC学習中に高品質で多様な否定表現を効率的にサンプリングする埋め込みキューを利用する。 さらに、SICタスクで計算された対照的な類似性に基づいて、ハードネガティブを効果的にマイニングすることにより、SIMタスクの学習を強化する。 ノイズの多い指導下での学習をさらに最適化するために,運動量蒸留をトレーニングプロセスに取り入れる。 実験結果から,我々のフレームワークは,R@1における最先端手法を2つのベンチマークデータセット上で4%以上上回る性能を示した。 さらに、ゼロショット実験で見られるように、我々のフレームワークは優れた一般化能力を示す。

In this paper, we propose a novel framework for speech-image retrieval. We utilize speech-image contrastive (SIC) learning tasks to align speech and image representations at a coarse level and speech-image matching (SIM) learning tasks to further refine the fine-grained cross-modal alignment. SIC and SIM learning tasks are jointly trained in a unified manner. To optimize the learning process, we utilize an embedding queue that facilitates efficient sampling of high-quality and diverse negative representations during SIC learning. Additionally, it enhances the learning of SIM tasks by effectively mining hard negatives based on contrastive similarities calculated in SIC tasks. To further optimize learning under noisy supervision, we incorporate momentum distillation into the training process. Experimental results show that our framework outperforms the state-of-the-art method by more than 4% in R@1 on two benchmark datasets for the speech-image retrieval tasks. Moreover, as observed in zero-shot experiments, our framework demonstrates excellent generalization capabilities.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-15
# クロスモーダルなDenoising:音声画像検索のための新しい訓練パラダイム

Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval ( http://arxiv.org/abs/2408.13705v1 )

ライセンス: Link先を確認
Lifeng Zhou, Yuke Li, Rui Deng, Yuting Yang, Haoqi Zhu, (参考訳) 音声画像検索の成功は、音声と画像の効果的なアライメントを確立することに依存する。 既存の手法はしばしば、各モダリティのグローバルな特徴の単純なコサイン類似性を通じてモダリティ間の相互作用をモデル化するが、モダリティ内の細かな詳細を捉えるには不十分である。 この問題に対処するために,クロスモーダル・デノナイジング(CMD)という,より詳細なクロスモーダルアライメントを実現するための効果的なフレームワークと,新たな学習タスクを導入する。 具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。 特に、CMDはモデルトレーニング中にのみ動作し、追加の推論時間を追加することなく推論中に削除できる。 実験の結果,Flickr8kでは平均R@1で,音声画像検索では平均R@1で平均R@1で2.0%,音声画像検索では平均R@1で平均R@1で0。 これらの実験結果は,本フレームワークの有効性と有効性について検証した。

The success of speech-image retrieval relies on establishing an effective alignment between speech and image. Existing methods often model cross-modal interaction through simple cosine similarity of the global feature of each modality, which fall short in capturing fine-grained details within modalities. To address this issue, we introduce an effective framework and a novel learning task named cross-modal denoising (CMD) to enhance cross-modal interaction to achieve finer-level cross-modal alignment. Specifically, CMD is a denoising task designed to reconstruct semantic features from noisy features within one modality by interacting features from another modality. Notably, CMD operates exclusively during model training and can be removed during inference without adding extra inference time. The experimental results demonstrate that our framework outperforms the state-of-the-art method by 2.0% in mean R@1 on the Flickr8k dataset and by 1.7% in mean R@1 on the SpokenCOCO dataset for the speech-image retrieval tasks, respectively. These experimental results validate the efficiency and effectiveness of our framework.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-15
# PyMarian: Pythonの高速ニューラルネットワーク翻訳と評価

PyMarian: Fast Neural Machine Translation and Evaluation in Python ( http://arxiv.org/abs/2408.11853v1 )

ライセンス: Link先を確認
Thamme Gowda, Roman Grundkiewicz, Elijah Rippeth, Matt Post, Marcin Junczys-Dowmunt, (参考訳) 最近のディープラーニング言語はPythonで、利用可能なライブラリや技術的サポートなどによって測定されるため、打ち勝つのは難しい。 同時に、C++のような低レベルのプログラミング言語で書かれたソフトウェアは、速度の利点を保っている。 C++ベースのシーケンス間モデルのためのトレーニングおよび推論ツールキットであるMarian NMTにPythonインタフェースを記述し、機械翻訳に焦点を当てた。 このインターフェースにより、Marianでトレーニングされたモデルが、Pythonで利用可能なリッチで幅広いツールに接続できるようになる。 インターフェースのハイライトは、Pythonから最先端のCOMETメトリクスを計算できるが、Marianの推論エンジンを使用しており、最大7.8$\times$のスピードアップ係数を持つ。 また、Jupyterノートブック、ビルド済みモデルとの接続、パッケージを備えたWebアプリインターフェースなど、他の多くの統合についても簡単に注目しています。 PyMarianは、$\texttt{pip install pymarian}$を介してPyPIで利用可能である。

The deep learning language of choice these days is Python; measured by factors such as available libraries and technical support, it is hard to beat. At the same time, software written in lower-level programming languages like C++ retain advantages in speed. We describe a Python interface to Marian NMT, a C++-based training and inference toolkit for sequence-to-sequence models, focusing on machine translation. This interface enables models trained with Marian to be connected to the rich, wide range of tools available in Python. A highlight of the interface is the ability to compute state-of-the-art COMET metrics from Python but using Marian's inference engine, with a speedup factor of up to 7.8$\times$ the existing implementations. We also briefly spotlight a number of other integrations, including Jupyter notebooks, connection with prebuilt models, and a web app interface provided with the package. PyMarian is available in PyPI via $\texttt{pip install pymarian}$.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-15
# 生データの普及時期:医療機械学習アプリケーションにおける大規模言語モデル埋め込みは数値データ表現に有効か?

When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? ( http://arxiv.org/abs/2408.11854v1 )

ライセンス: Link先を確認
Yanjun Gao, Skatje Myers, Shan Chen, Dmitriy Dligach, Timothy A Miller, Danielle Bitterman, Matthew Churpek, Majid Afshar, (参考訳) LLM(Large Language Models)の導入は、データ表現と分析の進歩をもたらし、医学的な質問や回答に大きく進歩した。 これらの進歩にもかかわらず、表型データ、特に臨床的文脈において重要な数値データをLCMパラダイムに組み込むことは、十分に検討されていない。 本研究では,電子健康記録(EHR)データを用いた臨床診断および予後診断におけるLLMの最後の隠れ状態からのベクトル表現の有効性について検討した。 我々は,これらの埋め込みの性能を,eXtreme Gradient Boostingのような表型データ学習に優れる従来の機械学習(ML)アルゴリズムに特徴入力として使用する際の生の数値EHRデータと比較する。 我々は, 異常な生理的データを表すため, ゼロショット環境での命令調整LDMに着目し, 特徴抽出器としての有用性を評価し, 診断, 滞在期間, 死亡率を予測するML分類器を強化した。 さらに,ゼロショットおよび少数ショットのLDM埋め込み技術を用いて,その影響を包括的に測定する手法について検討した。 医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競合する結果を示し、将来の医学応用研究への道のりを示唆している。

The introduction of Large Language Models (LLMs) has advanced data representation and analysis, bringing significant progress in their use for medical questions and answering. Despite these advancements, integrating tabular data, especially numerical data pivotal in clinical contexts, into LLM paradigms has not been thoroughly explored. In this study, we examine the effectiveness of vector representations from last hidden states of LLMs for medical diagnostics and prognostics using electronic health record (EHR) data. We compare the performance of these embeddings with that of raw numerical EHR data when used as feature inputs to traditional machine learning (ML) algorithms that excel at tabular data learning, such as eXtreme Gradient Boosting. We focus on instruction-tuned LLMs in a zero-shot setting to represent abnormal physiological data and evaluating their utilities as feature extractors to enhance ML classifiers for predicting diagnoses, length of stay, and mortality. Furthermore, we examine prompt engineering techniques on zero-shot and few-shot LLM embeddings to measure their impact comprehensively. Although findings suggest the raw data features still prevails in medical ML tasks, zero-shot LLM embeddings demonstrate competitive results, suggesting a promising avenue for future research in medical applications.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-15
# FactorLLM:大規模言語モデルのためのエキスパートの混合による知識の分解

FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models ( http://arxiv.org/abs/2408.11855v1 )

ライセンス: Link先を確認
Zhongyu Zhao, Menghang Dong, Rongyu Zhang, Wenzhao Zheng, Yunpeng Zhang, Huanrui Yang, Dalong Du, Kurt Keutzer, Shanghang Zhang, (参考訳) 近年,Large Language Models (LLMs) におけるフィードフォワードネットワーク (FFNs) が,多様な言語的・事実的知識の蓄積において重要な役割を担っていることが実証されている。 従来の手法では、モノリシックなアーキテクチャと冗長なアーキテクチャから生じる知識の混乱によってしばしば問題に直面する。 本稿では, LLMにおけるFFN計算のパラダイムを探求し, 同じレベルの性能を維持しつつ, 十分に訓練された高密度FFNを余分なサブネットワークに分解する新しい手法であるFacterLLMを紹介する。 さらに,Mixture-of-Experts (MoE) からルータを組み込み,専門家の動的活性化と知識適応を容易にし,最小限のトレーニングデータと微調整ステップを用いて計算プロセスの高速化と性能向上を図る。 FactorLLMは、効率的な知識の分解を可能にし、人間の脳のインタラクティブな機能的セグメンテーションをエミュレートして、指定されたタスクに適した専門家の選択的グループを活性化する。 提案したFacterLLMは,最大85%のモデル性能を確保しつつ,30%以上の推論速度向上を実現している。 コード:https://github.com/zhenwuweihe/FactorLLM。

Recent research has demonstrated that Feed-Forward Networks (FFNs) in Large Language Models (LLMs) play a pivotal role in storing diverse linguistic and factual knowledge. Conventional methods frequently face challenges due to knowledge confusion stemming from their monolithic and redundant architectures, which calls for more efficient solutions with minimal computational overhead, particularly for LLMs. In this paper, we explore the FFN computation paradigm in LLMs and introduce FactorLLM, a novel approach that decomposes well-trained dense FFNs into sparse sub-networks without requiring any further modifications, while maintaining the same level of performance. Furthermore, we embed a router from the Mixture-of-Experts (MoE), combined with our devised Prior-Approximate (PA) loss term that facilitates the dynamic activation of experts and knowledge adaptation, thereby accelerating computational processes and enhancing performance using minimal training data and fine-tuning steps. FactorLLM thus enables efficient knowledge factorization and activates select groups of experts specifically tailored to designated tasks, emulating the interactive functional segmentation of the human brain. Extensive experiments across various benchmarks demonstrate the effectiveness of our proposed FactorLLM which achieves comparable performance to the source model securing up to 85% model performance while obtaining over a 30% increase in inference speed. Code: https://github.com/zhenwuweihe/FactorLLM.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-15
# 大規模言語モデルを用いた動的適応最適化による効果的な感性分析

Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models ( http://arxiv.org/abs/2408.11856v1 )

ライセンス: Link先を確認
Hongcheng Ding, Xuanze Zhao, Shamsul Nahar Abdullah, Deshinta Arrova Dewi, Zixiao Jiang, (参考訳) 知覚分析は、ビジネスインテリジェンスや財務予測など、様々な領域において重要な役割を担っている。 大規模言語モデル(LLM)は、マルチタスク学習を利用して特定のタスクを同時に処理することで、感情分析の一般的なパラダイムとなっている。 しかし、感情分析のための微調整 LLM は、多種多様なタスク複雑度を管理する上で固有の課題のために、しばしば性能が低下する。 さらに、マルチタスク学習における定重アプローチは、データ特性の変化に適応し、モデルの有効性をさらに複雑にする。 これらの課題に対処するために,動的適応最適化(DAO)モジュールを用いた新しいマルチタスク学習フレームワークを提案する。 このモジュールは、既存のモデルにシームレスに統合できるプラグイン・アンド・プレイコンポーネントとして設計されており、マルチタスク学習に効果的で柔軟なソリューションを提供する。 DAOモジュールのキーコンポーネントは動的適応損失であり、トレーニング中の相対的重要性とデータ特性に基づいて、異なるタスクに割り当てられた重みを動的に調整する。 標準およびカスタマイズされた財務文書データセットの感性分析により,提案手法が優れた性能を発揮することを示す。 具体的には、前作に比べて平均二乗誤差(MSE)と精度(ACC)をそれぞれ15.58%、1.24%改善する。

Sentiment analysis plays a crucial role in various domains, such as business intelligence and financial forecasting. Large language models (LLMs) have become a popular paradigm for sentiment analysis, leveraging multi-task learning to address specific tasks concurrently. However, LLMs with fine-tuning for sentiment analysis often underperforms due to the inherent challenges in managing diverse task complexities. Moreover, constant-weight approaches in multi-task learning struggle to adapt to variations in data characteristics, further complicating model effectiveness. To address these issues, we propose a novel multi-task learning framework with a dynamic adaptive optimization (DAO) module. This module is designed as a plug-and-play component that can be seamlessly integrated into existing models, providing an effective and flexible solution for multi-task learning. The key component of the DAO module is dynamic adaptive loss, which dynamically adjusts the weights assigned to different tasks based on their relative importance and data characteristics during training. Sentiment analyses on a standard and customized financial text dataset demonstrate that the proposed framework achieves superior performance. Specifically, this work improves the Mean Squared Error (MSE) and Accuracy (ACC) by 15.58% and 1.24% respectively, compared with previous work.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-15
# Hermes 3テクニカルレポート

Hermes 3 Technical Report ( http://arxiv.org/abs/2408.11857v1 )

ライセンス: Link先を確認
Ryan Teknium, Jeffrey Quesnelle, Chen Guang, (参考訳) インストラクション(または「チャット」)チューニングモデルは、ほとんどの人が大きな言語モデルと対話する主要な方法となっている。 ベース」モデルや「境界」モデルとは対照的に、命令型モデルは命令型ステートメントに応答するように最適化される。 我々は、中立に整合した汎用的インストラクションとツール使用モデルであるHermes 3を提示する。 最大のバージョンであるHermes 3 405Bは、いくつかの公開ベンチマークにおいて、オープンウェイトモデルの間で最先端のパフォーマンスを達成する。

Instruct (or "chat") tuned models have become the primary way in which most people interact with large language models. As opposed to "base" or "foundation" models, instruct-tuned models are optimized to respond to imperative statements. We present Hermes 3, a neutrally-aligned generalist instruct and tool use model with strong reasoning and creative abilities. Its largest version, Hermes 3 405B, achieves state of the art performance among open weight models on several public benchmarks.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-15
# Kolmogorov Arnold Networks in Fraud Detection: Bridging the Gap between Theory and Practice

Kolmogorov Arnold Networks in Fraud Detection: Bridging the Gap Between Theory and Practice ( http://arxiv.org/abs/2408.10263v1 )

ライセンス: Link先を確認
Yang Lu, Felix Zhan, (参考訳) コルモゴロフ・アーノルド・ネットワーク(KAN)は推論において非常に効率的であり、一度訓練された複雑なパターンを扱えるため、生産環境に好適であり、金融や電子商取引業界における迅速なサービス体験を確保することができる。 しかし、一般的には詐欺検出問題には適さないことが判明した。 主成分分析(PCA)を適用した後、スプライン補間を用いてデータを効率的に分離し、データ次元を2つに減らすことができれば、ほとんどの機械学習アルゴリズムより優れている。 さもなければ、他の機械学習アルゴリズムと比較すると、kanはこの問題を効果的に解決しない可能性がある。 また、網羅的な網羅探索に1ヶ月を要するグリッド探索ハイパーパラメータチューニングと比較して、kan の適切なハイパーパラメータを選択してトレーニング時間を著しく短縮するヒューリスティックなアプローチを提案する。 具体的には、幅パラメータは一般的にピラミッド構造に従い、効率的なスプライン混合を可能にし、kは15で固定され、格子数は5で固定される。 この合理化されたアプローチは、必要となる評価の数を最小限に抑え、堅牢なパフォーマンス指標を達成しつつ、ハイパーパラメータチューニングプロセスを著しく高速化する。

Kolmogorov Arnold Networks (KAN) are highly efficient in inference and can handle complex patterns once trained, making them desirable for production environments and ensuring a fast service experience in the finance and electronic shopping industries. However, we found that KAN, in general, is not suitable for fraud detection problems. We also discovered a quick method to determine whether a problem is solvable by KAN: if the data can be effectively separated using spline interpolation with varying intervals after applying Principal Component Analysis (PCA) to reduce the data dimensions to two, KAN can outperform most machine learning algorithms. Otherwise, it indicates KAN may not solve the problem effectively compared to other machine learning algorithms. We also propose a heuristic approach for selecting the appropriate hyperparameters for KAN to significantly accelerate training time compared to grid search hyperparameter tuning, which usually takes a month for a comprehensive grid search. Specifically, the width parameter should generally follow a pyramid structure, allowing efficient spline mixing, and k should be fixed at 15, with the grid number fixed at 5. This streamlined approach minimizes the number of evaluations required, significantly speeding up the hyperparameter tuning process while still achieving robust performance metrics.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-15
# OPDR:マルチモーダル科学データのセマンティック埋め込みのための順序保存次元削減

OPDR: Order-Preserving Dimension Reduction for Semantic Embedding of Multimodal Scientific Data ( http://arxiv.org/abs/2408.10264v1 )

ライセンス: Link先を確認
Chengyu Gong, Gefei Shen, Luanzheng Guo, Nathan Tallent, Dongfang Zhao, (参考訳) マルチモーダルな科学データ管理における最も一般的な操作の1つは、新しいアイテムが提供された後、データベースから最もよく似たアイテム(または、$k$-nearest neighbors, KNN)を探すことである。 マルチモーダル機械学習モデルの最近の進歩は、もともとのマルチモーダルデータからマッピングされたいわゆる‘textit{embedding vectors’のインデックスを提供するが、結果として得られる埋め込みベクトルの次元は通常数百から1000のオーダーであり、これは時間に敏感な科学的応用には極端に高い。 本研究は,次数保存次元減少(OPDR, Order-Preserving Dimension Reduction)という低次元空間において,最上位のk$近傍の集合が変化しないような出力埋め込みベクトルの次元性を低減することを提案する。 このようなOPDR法を開発するためには,主パラメータ間の主パラメータ間の内在的関係を次元還元マップで解析することにより,対象(下方)次元と他の変数との相関関係を明らかにする定量的関数を構築する必要がある。 この仮説を実証するために、まず特定のベクトルに対するKNN類似性を定量化するための形式的測度関数を定義し、次にその測度を大域距離空間の集合的精度に拡張し、最終的にターゲット(より低い)次元と他の変数の間の閉形式関数を導出する。 閉関数を一般的な次元還元法、様々な距離測度、埋め込みモデルに組み込む。

One of the most common operations in multimodal scientific data management is searching for the $k$ most similar items (or, $k$-nearest neighbors, KNN) from the database after being provided a new item. Although recent advances of multimodal machine learning models offer a \textit{semantic} index, the so-called \textit{embedding vectors} mapped from the original multimodal data, the dimension of the resulting embedding vectors are usually on the order of hundreds or a thousand, which are impractically high for time-sensitive scientific applications. This work proposes to reduce the dimensionality of the output embedding vectors such that the set of top-$k$ nearest neighbors do not change in the lower-dimensional space, namely Order-Preserving Dimension Reduction (OPDR). In order to develop such an OPDR method, our central hypothesis is that by analyzing the intrinsic relationship among key parameters during the dimension-reduction map, a quantitative function may be constructed to reveal the correlation between the target (lower) dimensionality and other variables. To demonstrate the hypothesis, this paper first defines a formal measure function to quantify the KNN similarity for a specific vector, then extends the measure into an aggregate accuracy of the global metric spaces, and finally derives a closed-form function between the target (lower) dimensionality and other variables. We incorporate the closed-function into popular dimension-reduction methods, various distance metrics, and embedding models.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-15
# ディープニューラルネットワークに対するトロイの木馬攻撃と防御に関する調査

A Survey of Trojan Attacks and Defenses to Deep Neural Networks ( http://arxiv.org/abs/2408.08920v1 )

ライセンス: Link先を確認
Lingxin Jin, Xianyu Wen, Wei Jiang, Jinyu Zhan, (参考訳) ディープニューラルネットワーク(DNN)は、自律運転や顔認識システムなど、安全クリティカルな人工知能システムに広範囲に応用されている。 しかし、最近の研究では、敵から悪意ある注射を受けたニューラルネットワークトロイの木馬(NNトロイの木馬)への感受性が明らかにされている。 この脆弱性は、DNNの複雑な構造と不透明さによって発生し、モデル内に多数の冗長ニューロンが埋め込まれる。 敵はこれらの脆弱性を利用してDNN内の悪意のあるトロイの木馬を隠蔽し、誤ったアウトプットを引き起こし、DNNベースのアプリケーションの有効性を脅かす。 本稿では,DNNに対するトロイの木馬攻撃の包括的調査と対策方法について述べる。 当初、従来のトロイの木馬からNNトロイの木馬までの概念の進化を辿り、NNトロイの木馬を生み出す可能性と実用性を強調した。 続いて、様々な攻撃・防衛戦略を包含する特筆すべき研究の概要を概説し、それらのアプローチの比較分析を容易にする。 これらの議論を通じて,これらの手法の洗練を目的とした建設的洞察を提供する。 この主題の重力と即時性を認識し、制御された理想的なデータセットとは対照的に、現実のシナリオにそのような攻撃を展開できる可能性も評価する。 現実世界の潜在的な影響は、この問題に効果的に対処する緊急性を強調している。

Deep Neural Networks (DNNs) have found extensive applications in safety-critical artificial intelligence systems, such as autonomous driving and facial recognition systems. However, recent research has revealed their susceptibility to Neural Network Trojans (NN Trojans) maliciously injected by adversaries. This vulnerability arises due to the intricate architecture and opacity of DNNs, resulting in numerous redundant neurons embedded within the models. Adversaries exploit these vulnerabilities to conceal malicious Trojans within DNNs, thereby causing erroneous outputs and posing substantial threats to the efficacy of DNN-based applications. This article presents a comprehensive survey of Trojan attacks against DNNs and the countermeasure methods employed to mitigate them. Initially, we trace the evolution of the concept from traditional Trojans to NN Trojans, highlighting the feasibility and practicality of generating NN Trojans. Subsequently, we provide an overview of notable works encompassing various attack and defense strategies, facilitating a comparative analysis of their approaches. Through these discussions, we offer constructive insights aimed at refining these techniques. In recognition of the gravity and immediacy of this subject matter, we also assess the feasibility of deploying such attacks in real-world scenarios as opposed to controlled ideal datasets. The potential real-world implications underscore the urgency of addressing this issue effectively.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-15
# Graph Retrieval-Augmented Generation: サーベイ

Graph Retrieval-Augmented Generation: A Survey ( http://arxiv.org/abs/2408.08921v1 )

ライセンス: Link先を確認
Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang, (参考訳) 近年,RAG (Retrieval-Augmented Generation) は大規模言語モデル (LLM) の課題に再学習を必要とせずに対処することに成功した。 外部知識ベースを参照することにより、RAGはLLM出力を洗練し、 ``hallucination'' やドメイン固有の知識の欠如、時代遅れの情報といった問題を効果的に緩和する。 しかしながら、データベース内の異なるエンティティ間の関係の複雑な構造は、RAGシステムにとっての課題である。 応答として、GraphRAGはエンティティ全体の構造情報を活用して、より正確で包括的な検索を可能にし、関係知識をキャプチャし、より正確でコンテキスト対応の応答を容易にする。 GraphRAGの新規性と可能性を考えると、現在の技術の体系的なレビューが不可欠である。 本稿では,GraphRAGの方法論について概観する。 Graph-Based Indexing、Graph-Guided Retrieval、Graph-Enhanced Generationを含むGraphRAGワークフローを形式化する。 次に、各ステージでコア技術とトレーニング方法を概説する。 さらに、下流タスク、アプリケーションドメイン、評価手法、およびGraphRAGの産業利用事例について検討する。 最後に,今後の研究の方向性を探究し,さらなる問いを喚起し,この分野の進展を推し進める。

Recently, Retrieval-Augmented Generation (RAG) has achieved remarkable success in addressing the challenges of Large Language Models (LLMs) without necessitating retraining. By referencing an external knowledge base, RAG refines LLM outputs, effectively mitigating issues such as ``hallucination'', lack of domain-specific knowledge, and outdated information. However, the complex structure of relationships among different entities in databases presents challenges for RAG systems. In response, GraphRAG leverages structural information across entities to enable more precise and comprehensive retrieval, capturing relational knowledge and facilitating more accurate, context-aware responses. Given the novelty and potential of GraphRAG, a systematic review of current technologies is imperative. This paper provides the first comprehensive overview of GraphRAG methodologies. We formalize the GraphRAG workflow, encompassing Graph-Based Indexing, Graph-Guided Retrieval, and Graph-Enhanced Generation. We then outline the core technologies and training methods at each stage. Additionally, we examine downstream tasks, application domains, evaluation methodologies, and industrial use cases of GraphRAG. Finally, we explore future research directions to inspire further inquiries and advance progress in the field.
翻訳日:2024-08-20 23:26:15 公開日:2024-08-15
# 大規模言語モデルのためのステアリングホイール、Prefix Guidance

Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks ( http://arxiv.org/abs/2408.08924v1 )

ライセンス: Link先を確認
Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Weiming Zhang, (参考訳) 近年,大規模言語モデル (LLM) の急速な開発が,様々なタスクにおいて顕著なパフォーマンスを達成している。 しかし、研究はLLMがジェイルブレイク攻撃に弱いことを示唆しており、敵は巧妙に作り上げたプロンプトを通じて有害なコンテンツの生成を誘導することができる。 この脆弱性は、LLMのセキュアな使用とプロモーションに重大な課題をもたらす。 既存の防御方法は異なる視点から保護を提供するが、しばしば不十分な効果やモデルの能力に重大な影響を及ぼす。 本稿では,モデル出力の最初の数個のトークンを直接設定することで,有害なプロンプトの識別をモデルに誘導する,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワーク,すなわちPrefix Guidance(PG)を提案する。 このアプローチは、モデル固有のセキュリティ機能と、ジェイルブレイク攻撃から防御するための外部分類器を組み合わせる。 3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。 ベースラインと比較して、私たちのアプローチは概して平均よりも効果的です。 さらに、Just-Evalベンチマークの結果は、PGがモデルの性能を維持するのに優れていることをさらに裏付けている。

In recent years, the rapid development of large language models (LLMs) has achieved remarkable performance across various tasks. However, research indicates that LLMs are vulnerable to jailbreak attacks, where adversaries can induce the generation of harmful content through meticulously crafted prompts. This vulnerability poses significant challenges to the secure use and promotion of LLMs. Existing defense methods offer protection from different perspectives but often suffer from insufficient effectiveness or a significant impact on the model's capabilities. In this paper, we propose a plug-and-play and easy-to-deploy jailbreak defense framework, namely Prefix Guidance (PG), which guides the model to identify harmful prompts by directly setting the first few tokens of the model's output. This approach combines the model's inherent security capabilities with an external classifier to defend against jailbreak attacks. We demonstrate the effectiveness of PG across three models and five attack methods. Compared to baselines, our approach is generally more effective on average. Additionally, results on the Just-Eval benchmark further confirm PG's superiority to preserve the model's performance.
翻訳日:2024-08-20 23:26:14 公開日:2024-08-15
# Retail-GPT:Retrieval Augmented Generation(RAG)を利用したEコマースチャットアシスタントの構築

Retail-GPT: leveraging Retrieval Augmented Generation (RAG) for building E-commerce Chat Assistants ( http://arxiv.org/abs/2408.08925v1 )

ライセンス: Link先を確認
Bruno Amaral Teixeira de Freitas, Roberto de Alencar Lotufo, (参考訳) Retail-GPTは、小売eコマースにおけるユーザエンゲージメントを高めるためにデザインされたオープンソースのRAGベースのチャットボットで、製品レコメンデーションを通じてユーザを誘導し、カート操作を支援する。 このシステムはクロスプラットフォームであり、さまざまなEコマースドメインに適応可能であり、特定のチャットアプリケーションや商業活動に依存しない。 Retail-GPTは人間のような会話をし、ユーザーの要求を解釈し、製品の可用性を確認し、カートのオペレーションを管理し、仮想販売代理店として機能し、さまざまな小売店でそのようなアシスタントの生存可能性をテストする。

This work presents Retail-GPT, an open-source RAG-based chatbot designed to enhance user engagement in retail e-commerce by guiding users through product recommendations and assisting with cart operations. The system is cross-platform and adaptable to various e-commerce domains, avoiding reliance on specific chat applications or commercial activities. Retail-GPT engages in human-like conversations, interprets user demands, checks product availability, and manages cart operations, aiming to serve as a virtual sales agent and test the viability of such assistants across different retail businesses.
翻訳日:2024-08-20 23:26:14 公開日:2024-08-15
# Cybench: サイバーセキュリティ能力の評価と言語モデルのリスク

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models ( http://arxiv.org/abs/2408.08926v1 )

ライセンス: Link先を確認
Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang, (参考訳) 脆弱性を自律的に識別し、エクスプロイトを実行するサイバーセキュリティのための言語モデル(LM)エージェントは、現実世界に影響を及ぼす可能性がある。 政策立案者、モデル提供者、AIおよびサイバーセキュリティコミュニティの他の研究者は、サイバーリスクを軽減し、侵入テストの機会を調べるためにそのようなエージェントの能力を定量化することに興味を持っている。 そこで,サイバーセキュリティタスクの特定と,それらのタスクに対するエージェント評価のためのフレームワークであるCybenchを紹介する。 4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。 各タスクは独自の記述、スターターファイルを含み、エージェントがbashコマンドを実行して出力を観察できる環境で初期化される。 多くのタスクは既存のLMエージェントの能力を超えるため、タスクを中間的なステップに分解してより段階的な評価を行うサブタスクを導入し、40タスクのうち17タスクにサブタスクを追加します。 GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。 ガイダンスなしでは、人間チームが解くのに最大11分もかからない最も簡単なタスクしか解決できないことがわかりました。 最後に、サブタスクは、サブタスクガイダンスのない場合よりも、サブタスクガイダンスを持つタスクで3.2\%の成功率を達成するモデルである。 すべてのコードとデータはhttps://cybench.github.ioで公開されている。

Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io
翻訳日:2024-08-20 23:26:14 公開日:2024-08-15
# VerilogCoder:グラフベースプランニングとAST(Abstract Syntax Tree)ベースの波形追跡ツールを備えた自律的Verilog符号化エージェント

VerilogCoder: Autonomous Verilog Coding Agents with Graph-based Planning and Abstract Syntax Tree (AST)-based Waveform Tracing Tool ( http://arxiv.org/abs/2408.08927v1 )

ライセンス: Link先を確認
Chia-Tung Ho, Haoxing Ren, Brucek Khailany, (参考訳) 現代の集積回路(IC)の複雑さが増大しているため、ハードウェア設計の自動化は、エンジニアリングプロセスからかなりの数のヒューマンエラーを防止し、結果としてエラーが少なくなる。 Verilogは、デジタルシステムを設計・モデル化するための一般的なハードウェア記述言語である。 本研究では,Verilogコード生成のためのマルチ人工知能(AI)エージェントのシステムであるVerilogCoderを提案し,協調的なVerilogツール(構文チェッカー,シミュレータ,波形トレーサなど)を用いて,Verilogコードを自律的に記述し,構文と関数的エラーを修正する。 まず,新しいタスク・アンド・サーキット関係グラフ検索手法を用いて,モジュール記述に基づく全体計画を構築するタスクプランナを提案する。 機能的エラーをデバッグし,修正するために,自律的なVerilog補完フローに統合された,新しい,効率的な抽象構文木(AST)ベースの波形追跡ツールを開発した。 提案手法は、VerilogEval-Human v2ベンチマークにおいて、最先端の手法を33.9%上回る94.2%の構文的、機能的に正当なVerilogコードを生成することに成功した。

Due to the growing complexity of modern Integrated Circuits (ICs), automating hardware design can prevent a significant amount of human error from the engineering process and result in less errors. Verilog is a popular hardware description language for designing and modeling digital systems; thus, Verilog generation is one of the emerging areas of research to facilitate the design process. In this work, we propose VerilogCoder, a system of multiple Artificial Intelligence (AI) agents for Verilog code generation, to autonomously write Verilog code and fix syntax and functional errors using collaborative Verilog tools (i.e., syntax checker, simulator, and waveform tracer). Firstly, we propose a task planner that utilizes a novel Task and Circuit Relation Graph retrieval method to construct a holistic plan based on module descriptions. To debug and fix functional errors, we develop a novel and efficient abstract syntax tree (AST)-based waveform tracing tool, which is integrated within the autonomous Verilog completion flow. The proposed methodology successfully generates 94.2% syntactically and functionally correct Verilog code, surpassing the state-of-the-art methods by 33.9% on the VerilogEval-Human v2 benchmark.
翻訳日:2024-08-20 23:26:14 公開日:2024-08-15
# 生体画像分割のための変分推論を用いた不確かさ定量化

Uncertainty Quantification using Variational Inference for Biomedical Image Segmentation ( http://arxiv.org/abs/2008.07588v3 )

ライセンス: Link先を確認
Abhinav Sagar, (参考訳) 畳み込みニューラルネットワークによって動機付けられたディープラーニングは、画像分類、画像セグメンテーション、画像合成など、さまざまな医療画像問題で成功している。 しかし、検証と解釈可能性のためには、モデルによってなされた予測だけでなく、その予測を行う際にどれほど自信があるかも必要です。 これは、人々がそれを受け入れるための安全クリティカルなアプリケーションにおいて重要です。 本研究では,脳腫瘍画像のセグメント化のための変分推論技術に基づくエンコーダデコーダアーキテクチャを用いた。 Dice similarity Coefficient (DSC) と Intersection Over Union (IOU) を指標として, 公開されているBRATSデータセットの評価を行った。 本モデルでは,脳腫瘍の分節化を図り,腹腔内不確実性とてんかん不確実性の両方を原理的ベイズ的手法で考慮する。

Deep learning motivated by convolutional neural networks has been highly successful in a range of medical imaging problems like image classification, image segmentation, image synthesis etc. However for validation and interpretability, not only do we need the predictions made by the model but also how confident it is while making those predictions. This is important in safety critical applications for the people to accept it. In this work, we used an encoder decoder architecture based on variational inference techniques for segmenting brain tumour images. We evaluate our work on the publicly available BRATS dataset using Dice Similarity Coefficient (DSC) and Intersection Over Union (IOU) as the evaluation metrics. Our model is able to segment brain tumours while taking into account both aleatoric uncertainty and epistemic uncertainty in a principled bayesian manner.
翻訳日:2024-08-19 21:24:14 公開日:2024-08-15
# カバレッジメッセージングのジェネレーティブモデルを活用する - "Dead-Drop"デプロイメントの課題とトレードオフ

Leveraging Generative Models for Covert Messaging: Challenges and Tradeoffs for "Dead-Drop" Deployments ( http://arxiv.org/abs/2110.07009v4 )

ライセンス: Link先を確認
Luke A. Bauer, James K. Howes IV, Sam A. Markelon, Vincent Bindschaedler, Thomas Shrimpton, (参考訳) 人為的コンテンツの芸術生成モデルの現状は、ステガノグラフィー通信におけるその利用を探求する最近の多くの論文の焦点となっている。 特に、自然言語テキストの生成モデル。 これらの処理は(非可逆的に)メッセージ転送ビットをモデルからサンプルのシーケンスにエンコードし、最終的には妥当な自然言語のカバーテキストを生成する。 この狭いステガノグラフに注目することで、それまでの作業は、その周りで実際にメッセージングパイプラインを構築しようとするときに発生する、重要なアルゴリズム上の課題やパフォーマンスとセキュリティのトレードオフをほとんど無視していました。 このようなパイプラインの自然な適用、すなわち、大規模でパブリックなインターネットプラットフォーム(ソーシャルメディアサイトなど)上での"デッドドロップ"な隠蔽メッセージングを考えることで、これらの課題を具体化します。 課題を解明し、それらを克服するためのアプローチを説明し、慎重に調整しなければならない重要なパフォーマンスとセキュリティのトレードオフのプロセスに目を向けます。 このモデルベースのフォーマット変換暗号化パイプラインにシステムを実装し、その性能と(ヒューリスティックな)セキュリティを実証分析する。

State of the art generative models of human-produced content are the focus of many recent papers that explore their use for steganographic communication. In particular, generative models of natural language text. Loosely, these works (invertibly) encode message-carrying bits into a sequence of samples from the model, ultimately yielding a plausible natural language covertext. By focusing on this narrow steganographic piece, prior work has largely ignored the significant algorithmic challenges, and performance-security tradeoffs, that arise when one actually tries to build a messaging pipeline around it. We make these challenges concrete, by considering the natural application of such a pipeline: namely, "dead-drop" covert messaging over large, public internet platforms (e.g. social media sites). We explicate the challenges and describe approaches to overcome them, surfacing in the process important performance and security tradeoffs that must be carefully tuned. We implement a system around this model-based format-transforming encryption pipeline, and give an empirical analysis of its performance and (heuristic) security.
翻訳日:2024-08-19 21:24:14 公開日:2024-08-15
# マルチストリームセンサデータにおける異常評価のための深部畳み込みオートエンコーダ

Deep Convolutional Autoencoder for Assessment of Anomalies in Multi-stream Sensor Data ( http://arxiv.org/abs/2202.07592v2 )

ライセンス: Link先を確認
Anthony Geglio, Eisa Hedayati, Mark Tascillo, Dyche Anderson, Jonathan Barker, Timothy C. Havens, (参考訳) 本研究は,完全畳み込み型オートエンコーダを用いた車両における非教師なし故障の自動検出の実用的,新しい手法について検討する。 その結果,ハイブリッド電動車用パワートレインセンサの多変量時系列データから,パワートレイン故障に対応する異常を検出するアルゴリズムが得られた。 データはFord Motor Companyのエンジニアによって、複数の駆動サイクルのバリエーションに関する多数のセンサーから収集された。 本研究は, トレーニング済みオートエンコーダの異常検出能力の証明と, 自動エンコーダの異常検出に対する他の教師なし手法に対する適合性について検討する。 パワートレインセンサデータ上でオートエンコーダを試験した結果、オートエンコーダが適用したデータ再構成アプローチは、多変量系列の異常シーケンスを特定するための堅牢な手法であることがわかった。 これらの結果は、ハイブリッド電気自動車のパワートレインの不規則性は、組込み電子通信システムにおけるセンサ信号を介して伝達され、したがって、訓練されたアルゴリズムで機械的に識別可能であることを裏付ける。 追加の教師なし手法が試験され、オートエンコーダは、異常検出や他の新しい深層学習技術よりも優れた故障検出性能を示す。

This work investigates a practical and novel method for automated unsupervised fault detection in vehicles using a fully convolutional autoencoder. The results demonstrate the algorithm we developed can detect anomalies which correspond to powertrain faults by learning patterns in the multivariate time-series data of hybrid-electric vehicle powertrain sensors. Data was collected by engineers at Ford Motor Company from numerous sensors over several drive cycle variations. This study provides evidence of the anomaly detecting capability of our trained autoencoder and investigates the suitability of our autoencoder relative to other unsupervised methods for automatic fault detection in this data set. Preliminary results of testing the autoencoder on the powertrain sensor data indicate the data reconstruction approach availed by the autoencoder is a robust technique for identifying the abnormal sequences in the multivariate series. These results support that irregularities in hybrid-electric vehicles' powertrains are conveyed via sensor signals in the embedded electronic communication system, and therefore can be identified mechanistically with a trained algorithm. Additional unsupervised methods are tested and show the autoencoder performs better at fault detection than outlier detectors and other novel deep learning techniques.
翻訳日:2024-08-19 21:24:14 公開日:2024-08-15
# 都市・街路シミュレーションのための都市研究のためのグローバルビルディング高(UT-GLOBUS)の開発と第1報

GLObal Building heights for Urban Studies (UT-GLOBUS) for city- and street- scale urban simulations: Development and first applications ( http://arxiv.org/abs/2205.12224v2 )

ライセンス: Link先を確認
Harsh G. Kamath, Manmeet Singh, Neetiraj Malviya, Alberto Martilli, Liu He, Daniel Aliaga, Cenlin He, Fei Chen, Lori A. Magruder, Zong-Liang Yang, Dev Niyogi, (参考訳) 都市高と都市キャノピーパラメーター(UCP)を提供するデータセットであるUT-GLOBUS(University of Texas - Global Building heights for Urban Studies)を紹介した。 UT-GLOBUSは、オープンソースの宇宙開発高度計(ICESat-2とGEDI)と、粗い解像度の都市キャノピー標高データを機械学習モデルと組み合わせて、ビルレベルの情報を推定する。 6つのアメリカの都市からのLiDARデータによる検証では、UT-GLOBUS由来のビルの高さは9.1mの根平均二乗誤差(RMSE)であった。 ハンブルクとシドニーのデータを含む1-km^2グリッドセル内の平均建築高さの検証により、RMSEは7.8メートルになった。 都市気象調査・予報(WRF-Urban)モデルにおけるUPPの試験は, テキサス州ヒューストンの既存の局地気候帯アプローチと比較して, 都市内気温の55%に顕著な改善(RMSEの55%)をもたらした。 さらに,WRF-Urbanを用いた温熱緩和戦略のシミュレーションとエネルギー消費構築のためのデータセットの有用性を実証した。 UT-GLOBUS(UT-GLOBUS)とLiDAR(LiDAR)由来のビルの高さを取り入れたSOLWEIG(Solar and LongWave Environmental Irradiance Geometry)モデルを用いたストリートスケール平均放射温度シミュレーションにより、このデータセットがボルチモアの人体熱快適性をモデル化する効果が確認された(日時RMSE = 2.85C)。 このように、UT-GLOBUSは、社会経済・生物気象学の重大なリスクを伴う都市危険のモデル化に利用することができ、より小規模な都市気候シミュレーションを可能にし、建築情報不足による過去の制限を克服することができる。

We introduce University of Texas - Global Building heights for Urban Studies (UT-GLOBUS), a dataset providing building heights and urban canopy parameters (UCPs) for more than 1200 cities or locales worldwide. UT-GLOBUS combines open-source spaceborne altimetry (ICESat-2 and GEDI) and coarse-resolution urban canopy elevation data with a machine-learning model to estimate building-level information. Validation using LiDAR data from six US cities showed UT-GLOBUS-derived building heights had a root mean squared error (RMSE) of 9.1 meters. Validation of mean building heights within 1-km^2 grid cells, including data from Hamburg and Sydney, resulted in an RMSE of 7.8 meters. Testing the UCPs in the urban Weather Research and Forecasting (WRF-Urban) model resulted in a significant improvement (55% in RMSE) in intra-urban air temperature representation compared to the existing table-based local climate zone approach in Houston, TX. Additionally, we demonstrated the dataset's utility for simulating heat mitigation strategies and building energy consumption using WRF-Urban, with test cases in Chicago, IL, and Austin, TX. Street-scale mean radiant temperature simulations using the Solar and LongWave Environmental Irradiance Geometry (SOLWEIG) model, incorporating UT-GLOBUS and LiDAR-derived building heights, confirmed the dataset's effectiveness in modeling human thermal comfort in Baltimore, MD (daytime RMSE = 2.85 C). Thus, UT-GLOBUS can be used for modeling urban hazards with significant socioeconomic and biometeorological risks, enabling finer scale urban climate simulations and overcoming previous limitations due to the lack of building information.
翻訳日:2024-08-19 21:24:14 公開日:2024-08-15
# 可観測物のノー・マスキング定理

No-masking theorem for observables ( http://arxiv.org/abs/2209.12261v2 )

ライセンス: Link先を確認
Swapnil Bhowmick, Abhay Srivastav, Arun Kumar Pati, (参考訳) 量子情報のno-masking定理は、任意の入力状態が、完全な情報が相関に格納されているが、個々のサブシステムに入力状態に関する情報が存在しないような、より大きな二部結合状態に符号化することは不可能であることを証明している。 可観測物に関する情報がジョイントシステムで利用できるように、可観測物を隠すことは可能ですが、個々のサブシステムは可観測物のインプリントについて何も明らかにしませんか? これは、マスクの概念を観測可能なものに一般化する。 任意の次元において任意の可観測性を隠蔽できる普遍ユニタリは存在しないことを示す。 量子ビットシステムでは、与えられた観測値のマスキング操作がSWAP操作に局所的に一元的に接続されていることを示す。 このことは、対称性演算の下での保存則を超える可観測物の情報内容の保存則を示唆している。 さらに、無条件のノービットコミットメント結果が可観測性に対するノーマスキング定理から従うことを証明している。 我々の結果は、状態ではなく観測可能な状態で情報をエンコードする量子情報や量子通信に重要な応用をもたらすことができる。

The no-masking theorem for quantum information proves that it is impossible to encode an arbitrary input state into a larger bipartite entangled state such that the full information is stored in the correlation but the individual subsystems have no information about the input state. Here, we ask the question: Is it possible to mask an observable such that the information about the observable is available in the joint system, but individual subsystems reveal nothing about the imprints of the observable? This generalizes the notion of masking to observables. We show that a universal unitary that can mask an arbitrary observable in any dimension does not exist. For a qubit system, we show that the masking operation for a given observable is locally unitarily connected to the SWAP operation. This suggests a conservation law for information content of observables that goes beyond the conservation laws under symmetry operations. Furthermore, we prove that the unconditional no-bit commitment result follows from the no-masking theorem for observables. Our results can have important applications in quantum information and quantum communication where we encode information not in states but in observables.
翻訳日:2024-08-19 21:16:11 公開日:2024-08-15
# 半パラメトリック二値応答モデルの分散推定と推定

Distributed Estimation and Inference for Semi-parametric Binary Response Models ( http://arxiv.org/abs/2210.08393v4 )

ライセンス: Link先を確認
Xi Chen, Wenbo Jing, Weidong Liu, Yichen Zhang, (参考訳) 現代の技術の発展により、前例のない大きさのデータ収集が可能となり、多くの統計的推定と推測問題に新たな課題がもたらされた。 本稿では,分散コンピューティング環境下での半パラメトリック二値選択モデルの最大スコア推定について検討する。 直感的な分割・対数推定器は計算コストが高く、目的関数の非滑らかな性質のため、機械数に対する非正規制約によって制限される。 本研究では,(1)制約緩和の目的を円滑化させた1ショット分割・コンカレント推定器,(2)反復的平滑化による制約を完全に除去する多ラウンド推定器を提案する。 複数の繰り返しに対する最適化誤差の超直線的改善を実現するために、連続的に縮小する帯域幅を持つカーネルスムースなカーネルの選択を適応的に選択する。 繰り返し毎の統計精度の向上が導出され、最適統計誤差率までの2次収束が確立される。 さらに、データセットの不均一性を扱うための2つの一般化と、興味のパラメータがスパースである高次元問題を提供する。

The development of modern technology has enabled data collection of unprecedented size, which poses new challenges to many statistical estimation and inference problems. This paper studies the maximum score estimator of a semi-parametric binary choice model under a distributed computing environment without pre-specifying the noise distribution. An intuitive divide-and-conquer estimator is computationally expensive and restricted by a non-regular constraint on the number of machines, due to the highly non-smooth nature of the objective function. We propose (1) a one-shot divide-and-conquer estimator after smoothing the objective to relax the constraint, and (2) a multi-round estimator to completely remove the constraint via iterative smoothing. We specify an adaptive choice of kernel smoother with a sequentially shrinking bandwidth to achieve the superlinear improvement of the optimization error over the multiple iterations. The improved statistical accuracy per iteration is derived, and a quadratic convergence up to the optimal statistical error rate is established. We further provide two generalizations to handle the heterogeneity of datasets and high-dimensional problems where the parameter of interest is sparse.
翻訳日:2024-08-19 21:16:11 公開日:2024-08-15
# 文脈的盗賊に対する任意の有意な政治外推定

Anytime-valid off-policy inference for contextual bandits ( http://arxiv.org/abs/2210.10768v3 )

ライセンス: Link先を確認
Ian Waudby-Smith, Lili Wu, Aaditya Ramdas, Nikos Karampatziakis, Paul Mineiro, (参考訳) コンテキストバンディットアルゴリズムは、医療やテクノロジー業界で活発に実験するためのユビキタスなツールである。 それらは、時間とともにポリシーを適応的に学習して観測されたコンテキストを、確率的な報酬を最大化するために$X_t$からアクションA_t$にマッピングするオンライン学習アルゴリズムを含んでいる。 例えば、データ収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を見積もるのは、しばしば興味があります -- ‘オフ・ポリティィ・アセスメント’(OPE)と呼ばれる問題です。 現代のマルティンゲール手法を用いて, 過去の研究で不要な条件を緩和し, 理論的にも経験的にも著しく改善するOPE推論の包括的枠組みを提案する。 重要なことは、我々の手法は、元の実験がまだ実行中(つまり、必ずしもポストホックではない)、ロギングポリシー自体が変更されている場合(学習のため)、文脈分布が高度に依存した時系列である場合(例えば、時間が経過してドリフトしている場合など)、使用することができる。 より具体的には、OPEの様々な機能に対する信頼シーケンスを導出する。 これには、時間的に異なるオフポリティ平均報酬値に対する2つの頑健な値だけでなく、オフポリティ平均報酬分布の累積分布関数全体の信頼バンドも含まれる。 あらゆる方法 (a)任意の停止時間で有効である (b)非パラメトリックな仮定のみを行う。 (c)一様有界となるために重みを必要とせず、もしそうであるなら、これらの有界性を知る必要はなく、 (d)推定者の経験的分散に適応する。 要約すると、我々の手法は、適応的に収集された文脈帯域データを用いて、任意の時価のオフポリティ推論を可能にする。

Contextual bandit algorithms are ubiquitous tools for active sequential experimentation in healthcare and the tech industry. They involve online learning algorithms that adaptively learn policies over time to map observed contexts $X_t$ to actions $A_t$ in an attempt to maximize stochastic rewards $R_t$. This adaptivity raises interesting but hard statistical inference questions, especially counterfactual ones: for example, it is often of interest to estimate the properties of a hypothetical policy that is different from the logging policy that was used to collect the data -- a problem known as ``off-policy evaluation'' (OPE). Using modern martingale techniques, we present a comprehensive framework for OPE inference that relax unnecessary conditions made in some past works, significantly improving on them both theoretically and empirically. Importantly, our methods can be employed while the original experiment is still running (that is, not necessarily post-hoc), when the logging policy may be itself changing (due to learning), and even if the context distributions are a highly dependent time-series (such as if they are drifting over time). More concretely, we derive confidence sequences for various functionals of interest in OPE. These include doubly robust ones for time-varying off-policy mean reward values, but also confidence bands for the entire cumulative distribution function of the off-policy reward distribution. All of our methods (a) are valid at arbitrary stopping times (b) only make nonparametric assumptions, (c) do not require importance weights to be uniformly bounded and if they are, we do not need to know these bounds, and (d) adapt to the empirical variance of our estimators. In summary, our methods enable anytime-valid off-policy inference using adaptively collected contextual bandit data.
翻訳日:2024-08-19 21:16:11 公開日:2024-08-15
# MRI画像を用いた脳腫瘍切片の弱教師付き生成と評価のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Weakly Supervised Generation and Evaluation of Brain Tumor Segmentations on MR Images ( http://arxiv.org/abs/2211.05269v4 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Matthias W. Wagner, Liana Nobre, Uri Tabori, Cynthia Hawkins, Birgit B. Ertl-Wagner, Farzad Khalvati, (参考訳) 異常を識別するための関心領域(ROI)の分離は、医用画像における主要な問題である。 この問題に機械学習を使うには、一般的には手動で注釈付けされた地平線分割が必要であり、放射線学者から広範囲の時間と資源を要求する。 本研究は, 2次元磁気共鳴画像において, 基底真理アノテーションを使わずに, 2次元画像レベルのラベルを効果的に分割する手法を提案する。 我々は,がん画像を健康な変異体に変換するGAN (generative adversarial network) を訓練し,前者は局所化種子とともに使用し,弱教師付きセグメンテーションを改良した。 非セグメンテーションの変種は、弱制御された方法でセグメンテーションを評価するためにも使用できるため、最も効果的なセグメンテーションを識別し、下流臨床分類タスクに適用することができる。 The Multimodal Brain tumor Segmentation (BraTS) 2020 data, we proposed method realizes segmentation that achieve test Dice coefficients of 83.91%。 これらのセグメンテーションを病理分類に使用すると、93.32%のテストAUCは、真のセグメンテーションを使用する際に達成された95.80%のテストAUCに匹敵する。

Segmentation of regions of interest (ROIs) for identifying abnormalities is a leading problem in medical imaging. Using machine learning for this problem generally requires manually annotated ground-truth segmentations, demanding extensive time and resources from radiologists. This work presents a weakly supervised approach that utilizes binary image-level labels, which are much simpler to acquire, to effectively segment anomalies in 2D magnetic resonance images without ground truth annotations. We train a generative adversarial network (GAN) that converts cancerous images to healthy variants, which are used along with localization seeds as priors to generate improved weakly supervised segmentations. The non-cancerous variants can also be used to evaluate the segmentations in a weakly supervised fashion, which allows for the most effective segmentations to be identified and then applied to downstream clinical classification tasks. On the Multimodal Brain Tumor Segmentation (BraTS) 2020 dataset, our proposed method generates and identifies segmentations that achieve test Dice coefficients of 83.91%. Using these segmentations for pathology classification results with a test AUC of 93.32% which is comparable to the test AUC of 95.80% achieved when using true segmentations.
翻訳日:2024-08-19 21:16:11 公開日:2024-08-15
# 大型ブラックホールの7つの科への分類

Classification of "large" black holes into seven families ( http://arxiv.org/abs/2212.12644v2 )

ライセンス: Link先を確認
Dafa Li, Maggie Cheng, Xiongrong Li, Shuwang Li, (参考訳) ブラックホールと量子ビットの対応は、「弦ブラックホール理論と量子情報理論の1つについて、もう1つのアプローチを活用することで、さらなる洞察を得るのに有用である」ことが証明されている。 弦性ブラックホールの異なるクラスは、純粋状態のよく知られた確率的局所演算と古典的通信(SLOCC)絡み合いクラスと関連付けられるが、弦理論は3つの量子ビットのSLOCC分類よりもより詳細な分類を必要とする。 本稿では,局所的ユニタリ演算(LU)の下での3つの量子ビットの絡み合い系を導出し,ブラックホールを7つの非等価族に分類するために,ブラックホール・クビット対応を用いる。 特に、4つの非消滅電荷を持つ2つのブラックホール(q_{0}$, $p^{1}$, $p^{2}$, $p^{3}$)が、その差が電荷の符号にのみ存在する場合、LU同値であることを示す。 したがって、ブラックホールの分類は電荷の符号とは独立であり、電荷の絶対値の比にのみ関係している。 この観測は、非BPSブラックホールの分類とBPSブラックホールの分類のどちらかを考える必要があるが、両方ではないため、分類タスクを単純化する。 さらに、LU分類により、このブラックホール-量子対応の物理基底が観察され、ブラックホールエントロピーとフォン・ノイマンエンタングルメントエントロピーの関係が明らかになる。 したがって、LU分類はSLOCC分類よりも単純な物理的接続を提供する。 LU分類に基づいて、7つの族それぞれに対するフォン・ノイマンエンタングルメントエントロピーの性質をさらに研究し、最大のフォン・ノイマンエンタングルメントエントロピーを持つブラックホールを見つける。

The black-hole--qubit correspondence has been proven to be ``useful for obtaining additional insight into one of the string black hole theory and quantum information theory by exploiting approaches of the other"[Phys. Rev. D 82, 026003 (2010)]. Though different classes of stringy black holes can be related to the well-known stochastic local operations and classical communication (SLOCC) entanglement classes of pure states, the string theory requires a more detailed classification than the SLOCC classification of three qubits. In this paper, we derive the entanglement family of three qubits under local unitary operations (LU), and use the black-hole--qubit correspondence to classify \textquotedblleft large\textquotedblright\ black holes into seven inequivalent families. In particular, we show that two black holes with 4 non-vanishing charges ($q_{0}$, $p^{1}$, $p^{2}$, and $p^{3}$) are LU equivalent if their difference is only in the signs of charges. Thus, the classification of black holes is independent of the signs of charges and is only related to the ratio of the absolute values of charges. This observation simplifies the classification task, as one would only need to consider either the classification of non-BPS black holes or the classification of BPS black holes, but not both. Moreover, through the LU classification, the physical basis for this black-hole--qubit correspondence can be observed, and a relation between the black-hole entropy and the von Neumann entanglement entropy is revealed. Therefore, the LU classification offers a more straightforward physical connection than the SLOCC classification. Based on the LU classification, we further study the properties of von Neumann entanglement entropy for each of the seven families, and find the black holes with the maximal von Neumann entanglement entropy.
翻訳日:2024-08-19 21:16:11 公開日:2024-08-15
# マルチ・エケロン・セッティングにおけるサプライチェーンの成果に対するコントリビュータの特定--分散的アプローチ

Identifying contributors to supply chain outcomes in a multi-echelon setting: a decentralised approach ( http://arxiv.org/abs/2307.12157v2 )

ライセンス: Link先を確認
Stefan Schoepf, Jack Foster, Alexandra Brintrup, (参考訳) 組織はしばしば、製品の品質や納品期間といったメトリクスの変化の原因を特定するのに苦労します。 この課題は、部分的に観測可能なマルチエキロンサプライチェーンにおける企業境界外にある原因が原因である場合、ますます困難になる。 従来のサプライチェーン管理では、より良い洞察を得るためにデータ共有を提唱してきたが、実際にはデータプライバシの懸念から実現していない。 本稿では,多段階生産プロセスにおける関心の指標に対する推定貢献の分散化コンピューティングにおける説明可能な人工知能の利用を提案する。 このアプローチは、サプライチェーンアクターにデータ共有を説得する必要性を緩和する。 実際の多段階製造プロセスから収集したデータを用いて,本手法の有効性を実証的に検証した。 その結果,Shapleyの付加的な説明を用いた集中型手法と比較して,品質変化の原因を検出する手法の有効性が示された。

Organisations often struggle to identify the causes of change in metrics such as product quality and delivery duration. This task becomes increasingly challenging when the cause lies outside of company borders in multi-echelon supply chains that are only partially observable. Although traditional supply chain management has advocated for data sharing to gain better insights, this does not take place in practice due to data privacy concerns. We propose the use of explainable artificial intelligence for decentralised computing of estimated contributions to a metric of interest in a multi-stage production process. This approach mitigates the need to convince supply chain actors to share data, as all computations occur in a decentralised manner. Our method is empirically validated using data collected from a real multi-stage manufacturing process. The results demonstrate the effectiveness of our approach in detecting the source of quality variations compared to a centralised approach using Shapley additive explanations.
翻訳日:2024-08-19 21:05:52 公開日:2024-08-15
# 反強磁性トポロジカル絶縁体を用いた効率的な量子トランスダクション

Efficient Quantum Transduction Using Anti-Ferromagnetic Topological Insulators ( http://arxiv.org/abs/2308.09048v3 )

ライセンス: Link先を確認
Haowei Xu, Changhao Li, Guoqing Wang, Hao Tang, Paola Cappellaro, Ju Li, (参考訳) 異なる量子システム間の量子情報の変換は、量子通信や量子コンピューティングを含む様々なアプリケーションにおいて重要なステップである。 しかし、様々な周波数の光子を仲介し、高性能トランスデューサを設計することは、多面的かつ時には矛盾する要求のため、非常に非自明である。 本稿ではまず量子トランスデューサ設計の一般的な原理について論じ,特に有効なトランスデューサとして固体反強磁性トポロジカル絶縁体を提案する。 第一に、反強磁性秩序は、磁気相互作用によって引き起こされる近くの量子システムに対する有害な影響を最小限に抑えることができる。 第2に、トポロジカル絶縁体はバンド反転を示し、光応答を大幅に向上させる。 この性質は、ロバストなスピン軌道結合と高スピン密度と組み合わされ、磁気トポロジカル絶縁体における強い非線形相互作用をもたらす。 MnBi2Te4を例として、磁気トポロジカル材料に基づく量子トランスダクションの潜在的実験的実現について論じる。 特に, 量子トランスダクション効率が90%を超える場合, 最低限の実験条件で実現可能である一方で, トランスダクション帯域幅は GHz の範囲に到達可能であることを示す。 磁気トポロジカル絶縁体における強い非線形フォトニック相互作用は、量子スクイーズのような量子トランスダクション以外の様々な応用を見出すことができる。

Transduction of quantum information between distinct quantum systems is an essential step in various applications, including quantum communications and quantum computing. However, mediating photons of vastly different frequencies and designing high-performance transducers are highly nontrivial, due to multifaceted and sometimes conflicting requirements. In this work, we first discuss some general principles for quantum transducer design, and then propose solid-state anti-ferromagnetic topological insulators to serve as particularly effective transducers. First, the anti-ferromagnetic order can minimize detrimental influences on nearby quantum systems caused by magnetic interactions. Second, topological insulators exhibit band-inversion, which can greatly enhance their optical responses. This property, coupled with robust spin-orbit coupling and high spin density, results in strong nonlinear interaction in magnetic topological insulators, thereby substantially improving transduction efficiency. Using MnBi2Te4 as an example, we discuss the potential experimental realization of quantum transduction based on magnetic topological materials. Particularly, we showcase that quantum transduction efficiency exceeding 90% can be achieved with modest experimental requirements, while the transduction bandwidth can reach the GHz range. The strong nonlinear photonic interactions in magnetic topological insulators can find diverse applications besides quantum transduction, such as quantum squeezing.
翻訳日:2024-08-19 21:05:52 公開日:2024-08-15
# MMP++:パラメトリック曲線モデルを用いたモーションマニフォールドプリミティブ

MMP++: Motion Manifold Primitives with Parametric Curve Models ( http://arxiv.org/abs/2310.17072v4 )

ライセンス: Link先を確認
Yonghyeon Lee, (参考訳) MMP(Motion Manifold Primitives)は、基本的なモーションスキルを符号化するための多様体ベースのアプローチであり、様々な軌道を生成できるため、システムは目に見えない制約に適応できる。 しかしながら,現在のMMPモデルには,時間的・経点的変調などの運動プリミティブの重要な機能がない。 この欠点は、主にMMPが離散時間軌道に依存していることに起因している。 これらの制限を克服するために,MMPフレームワークにパラメトリック曲線表現を組み込むことで,MMPと従来の手法の長所を統合する新しいモデルであるMotion Manifold Primitives++ (MMP++)を導入する。 さらに,MMP++における重要な課題として,潜在空間における幾何学的歪みによる性能劣化がある。 これを解決するため、Isometric Motion Manifold Primitives++ (IMMP++) が提案され、潜在空間が多様体の幾何を正確に保存することを保証する。 また,2-DoF平面運動,7-DoFロボットアーム動作,SE(3)軌道計画などの実験結果から,MMP++とIMMP++が既存のトラジェクティブ生成タスクよりも優れており,いくつかのケースにおいて大幅に改善されていることが示された。 さらに, 動的環境への効率的なオンライン適応を可能にするため, 潜時座標と透視点の変調が可能となる。

Motion Manifold Primitives (MMP), a manifold-based approach for encoding basic motion skills, can produce diverse trajectories, enabling the system to adapt to unseen constraints. Nonetheless, we argue that current MMP models lack crucial functionalities of movement primitives, such as temporal and via-points modulation, found in traditional approaches. This shortfall primarily stems from MMP's reliance on discrete-time trajectories. To overcome these limitations, we introduce Motion Manifold Primitives++ (MMP++), a new model that integrates the strengths of both MMP and traditional methods by incorporating parametric curve representations into the MMP framework. Furthermore, we identify a significant challenge with MMP++: performance degradation due to geometric distortions in the latent space, meaning that similar motions are not closely positioned. To address this, Isometric Motion Manifold Primitives++ (IMMP++) is proposed to ensure the latent space accurately preserves the manifold's geometry. Our experimental results across various applications, including 2-DoF planar motions, 7-DoF robot arm motions, and SE(3) trajectory planning, show that MMP++ and IMMP++ outperform existing methods in trajectory generation tasks, achieving substantial improvements in some cases. Moreover, they enable the modulation of latent coordinates and via-points, thereby allowing efficient online adaptation to dynamic environments.
翻訳日:2024-08-19 21:05:52 公開日:2024-08-15
# トロイの木馬アクティベーションアタック:安全アライメントのためのアクティベーションステアリングを用いた大規模言語モデルの再編成

Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment ( http://arxiv.org/abs/2311.09433v3 )

ライセンス: Link先を確認
Haoran Wang, Kai Shu, (参考訳) AIの安全性を確保するため、命令調整型大規模言語モデル(LLM)は、人間の意図に応じてモデルを動作させるためのアライメントを確保するために特別に訓練されている。 これらのモデルは様々な安全ベンチマークで評価可能な結果を示しているが、それらの安全性アライメントの脆弱性は広く研究されていない。 LLMがもたらす潜在的な害を考えると、これは特に厄介である。 LLMの既存の攻撃方法は、しばしば有毒な訓練データや悪意のあるプロンプトの注入に依存している。 これらのアプローチは、攻撃のステルス性と一般化性を損なうため、検出しにくい。 さらに、これらのモデルは実装にかなりの計算資源を必要とすることが多く、現実のアプリケーションでは実用的ではない。 本研究では,LLMの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA^2) と呼ばれる異なる攻撃シナリオについて検討する。 これらの悪質なステアリングベクターは、アクティベーションを操作することで、攻撃者が望んだ行動に向けてモデルを操るために推論時にトリガーすることができる。 実験の結果, TA^2 は高い有効性を示し, 攻撃効率にはほとんど, あるいは全くのオーバーヘッドを伴わないことがわかった。 また、このようなアクティベーションアタックに対する潜在的な対策についても論じる。

To ensure AI safety, instruction-tuned Large Language Models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have demonstrated commendable results on various safety benchmarks, the vulnerability of their safety alignment has not been extensively studied. This is particularly troubling given the potential harm that LLMs can inflict. Existing attack methods on LLMs often rely on poisoned training data or the injection of malicious prompts. These approaches compromise the stealthiness and generalizability of the attacks, making them susceptible to detection. Additionally, these models often demand substantial computational resources for implementation, making them less practical for real-world applications. In this work, we study a different attack scenario, called Trojan Activation Attack (TA^2), which injects trojan steering vectors into the activation layers of LLMs. These malicious steering vectors can be triggered at inference time to steer the models toward attacker-desired behaviors by manipulating their activations. Our experiment results on four primary alignment tasks show that TA^2 is highly effective and adds little or no overhead to attack efficiency. Additionally, we discuss potential countermeasures against such activation attacks.
翻訳日:2024-08-19 20:55:33 公開日:2024-08-15
# AdamMCMC:Metropolis Adjusted LangevinとMomentumベースの最適化を組み合わせる

AdamMCMC: Combining Metropolis Adjusted Langevin with Momentum-based Optimization ( http://arxiv.org/abs/2312.14027v2 )

ライセンス: Link先を確認
Sebastian Bieringer, Gregor Kasieczka, Maximilian F. Steffen, Mathias Trabs, (参考訳) 科学と工学におけるディープニューラルネットワーク手法の適用を考える場合、不確実性推定は重要な問題である。 本研究では, モンテカルロ法を用いて, 温熱後部分布から採取したエピステミック不確かさを定量化するアルゴリズムを提案する。 確立されたメトロポリス調整ランゲヴィンアルゴリズム(MALA)とアダムを用いたモーメントに基づく最適化を組み合わせることで、後部から効率的に引き出すことができる。 構築された鎖は、ギブス後方を不変分布として認め、全変動距離においてこのギブス後方に収束することを示す。 さらに, 得られたアルゴリズムの効率と, 高エネルギー粒子物理学からの最先端の分類器に提案した変化の利点を示す。

Uncertainty estimation is a key issue when considering the application of deep neural network methods in science and engineering. In this work, we introduce a novel algorithm that quantifies epistemic uncertainty via Monte Carlo sampling from a tempered posterior distribution. It combines the well established Metropolis Adjusted Langevin Algorithm (MALA) with momentum-based optimization using Adam and leverages a prolate proposal distribution, to efficiently draw from the posterior. We prove that the constructed chain admits the Gibbs posterior as an invariant distribution and converges to this Gibbs posterior in total variation distance. Furthermore, we demonstrate the efficiency of the resulting algorithm and the merit of the proposed changes on a state-of-the-art classifier from high-energy particle physics.
翻訳日:2024-08-19 20:55:32 公開日:2024-08-15
# 業務用建物の需要応答に対する効率的なデータ駆動型MPC

Efficient Data-Driven MPC for Demand Response of Commercial Buildings ( http://arxiv.org/abs/2401.15742v3 )

ライセンス: Link先を確認
Marie-Christine Paré, Vasken Dermardiros, Antoine Lesage-Landry, (参考訳) モデル予測制御(MPC)は、熱的快適性を維持しつつ、建物のエネルギー効率を著しく向上させることが示されている。 システムモデリングを容易にするために、ニューラルネットワークに基づくデータ駆動アプローチが提案されている。 しかし、そのようなアプローチは一般に非凸であり、計算的に難解な最適化問題をもたらす。 本研究では,小型商業ビルのエネルギー管理手法を設計する。 そして、我々のアプローチを利用して、リアルタイムな需要入札戦略を定式化します。 本稿では,データ駆動・混合整数凸 MPC を提案し,演算制約を考慮し,計算時間5分に制限された微分自由度最適化を用いて解く。 屋上ユニットの暖房,換気,空調を個別に制御し,ほとんどの商業ビルの運転を正確にモデル化する。 提案手法では,入力凸リカレントニューラルネットワークを用いて熱力学をモデル化する。 当社のアプローチは,需要入札,利用時間,ピークリベートプログラムなど,いくつかの需要応答(DR)設定に適用する。 制御器の性能は最先端の建物シミュレーションで評価される。 提案手法は、他のデータ駆動型アプローチやセットポイントコントローラと比較して、DR参加によるエネルギー消費とコストを低減しつつ、熱的快適性を向上する。

Model predictive control (MPC) has been shown to significantly improve the energy efficiency of buildings while maintaining thermal comfort. Data-driven approaches based on neural networks have been proposed to facilitate system modelling. However, such approaches are generally nonconvex and result in computationally intractable optimization problems. In this work, we design a readily implementable energy management method for small commercial buildings. We then leverage our approach to formulate a real-time demand bidding strategy. We propose a data-driven and mixed-integer convex MPC which is solved via derivative-free optimization given a limited computational time of 5 minutes to respect operational constraints. We consider rooftop unit heating, ventilation, and air conditioning systems with discrete controls to accurately model the operation of most commercial buildings. Our approach uses an input convex recurrent neural network to model the thermal dynamics. We apply our approach in several demand response (DR) settings, including a demand bidding, a time-of-use, and a critical peak rebate program. Controller performance is evaluated on a state-of-the-art building simulation. The proposed approach improves thermal comfort while reducing energy consumption and cost through DR participation, when compared to other data-driven approaches or a set-point controller.
翻訳日:2024-08-19 20:45:34 公開日:2024-08-15
# テキスト・画像モデルにおけるハーム増幅

Harm Amplification in Text-to-Image Models ( http://arxiv.org/abs/2402.01787v3 )

ライセンス: Link先を確認
Susan Hao, Renee Shelby, Yuchi Liu, Hansa Srinivasan, Mukul Bhutani, Burcu Karagol Ayan, Ryan Poplin, Shivani Poddar, Sarah Laszlo, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として登場したが、ユーザーが安全なプロンプトを入力したとしても、有害な画像出力を生成する可能性について安全上の懸念がある。 T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、相手のプロンプトよりも潜在的に大きなリスクを生じさせ、ユーザーが意図せずに害に晒される。 本論文は,調和増幅と呼ばれるこの現象の定義を形式化し,この問題に対処する。 さらに、ユーザ入力の文脈におけるモデル出力の害を考慮したハーネスアンプリフィケーションを定量化する手法の枠組みを開発することにより、この分野に貢献する。 次に、これらの異なる手法を適用して実世界の展開シナリオをシミュレートする方法を実証的に検討する。 我々の研究は、T2Iシステムの安全性問題に包括的に対処し、生成AIモデルの責任ある展開に貢献する研究者ツールを提供することを目的としている。

Text-to-image (T2I) models have emerged as a significant advancement in generative AI; however, there exist safety concerns regarding their potential to produce harmful image outputs even when users input seemingly safe prompts. This phenomenon, where T2I models generate harmful representations that were not explicit in the input prompt, poses a potentially greater risk than adversarial prompts, leaving users unintentionally exposed to harms. Our paper addresses this issue by formalizing a definition for this phenomenon which we term harm amplification. We further contribute to the field by developing a framework of methodologies to quantify harm amplification in which we consider the harm of the model output in the context of user input. We then empirically examine how to apply these different methodologies to simulate real-world deployment scenarios including a quantification of disparate impacts across genders resulting from harm amplification. Together, our work aims to offer researchers tools to comprehensively address safety challenges in T2I systems and contribute to the responsible deployment of generative AI models.
翻訳日:2024-08-19 20:45:34 公開日:2024-08-15
# 準結晶超低温フェルミオンの双極子相互作用に対する安定性

Stability of quasicrystalline ultracold fermions to dipolar interactions ( http://arxiv.org/abs/2403.04830v2 )

ライセンス: Link先を確認
Paolo Molignini, (参考訳) 準周期ポテンシャルは、一次元における局所化と非局在化の間の補間に使うことができる。 光プラットフォーム工学の双極子相互作用の台頭とともに、鍵となる疑問は、これらの長距離相互作用の下で準結晶相の安定性である。 本研究では,準周期光学格子における反動型超低温双極子フェルミオンの研究を行い,相互作用する準結晶の挙動を特徴づける。 準結晶秩序と局在特性を探索するために用いられる典型的な実験プロトコルのフルタイム進化をシミュレートする。 実験により測定可能な力学オブザーバブルと相関関数を抽出し,非相互作用条件(局所化,中間,拡張)で観測される3つの位相を特徴付ける。 次に、このような相の安定性を、反発性双極子相互作用として研究する。 双極子相互作用は中間相を安定化させることで相図の形状を完全に変化させることができる。 さらに、強く相互作用する状態においては、密度振動によって特徴づけられる共鳴のような挙動が現れる。 顕著なことに、強い双極子反発は、一次格子が十分に深くても準周期性がない場合でも粒子を局在させることができる。 我々の研究は、準周期ポテンシャルにおける双極子相互作用が、局所化および拡張量子状態の複雑でチューナブルな共存をもたらすことを示した。

Quasiperiodic potentials can be used to interpolate between localization and delocalization in one dimension. With the rise of optical platforms engineering dipolar interactions, a key question is the stability of quasicrystalline phases under these long-range interactions. In this work, we study repulsive ultracold dipolar fermions in a quasiperiodic optical lattice to characterize the behavior of interacting quasicrystals. We simulate the full time evolution of the typical experimental protocols used to probe quasicrystalline order and localization properties. We extract experimentally measurable dynamical observables and correlation functions to characterize the three phases observed in the noninteracting setting: localized, intermediate, and extended. We then study the stability of such phases to repulsive dipolar interactions. We find that dipolar interactions can completely alter the shape of the phase diagram by stabilizing the intermediate phase, mostly at the expense of the extended phase. Moreover, in the strongly interacting regime, a resonance-like behavior characterized by density oscillations appears. Remarkably, strong dipolar repulsions can also localize particles even in the absence of quasiperiodicity if the primary lattice is sufficiently deep. Our work shows that dipolar interactions in a quasiperiodic potential can give rise to a complex, tuneable coexistence of localized and extended quantum states.
翻訳日:2024-08-19 20:34:59 公開日:2024-08-15
# 連続学習におけるハイパーパラメータ: 現実チェック

Hyperparameters in Continual Learning: A Reality Check ( http://arxiv.org/abs/2403.09066v2 )

ライセンス: Link先を確認
Sungmin Cha, Kyunghyun Cho, (参考訳) 本稿では,継続学習(CL)研究における従来の評価プロトコルが,機械学習評価の基本原理から逸脱していることを論じる。 CLアルゴリズムの主な目的は、可塑性(新しいタスクから新しい知識を学ぶ)と安定性(以前のタスクからの知識を保持する)のトレードオフをバランスさせることである。 これを評価するために、ベンチマークデータセットを用いてCLシナリオを構築し、各タスクのトレーニングデータに基づいてニューラルネットワークモデルを継続的にトレーニングし、検証データに基づいてCLアルゴリズムの最良のハイパーパラメータを選択し、最終的な評価は、これらのハイパーパラメータでトレーニングされたモデルを同じシナリオからテストデータで評価することを含む。 この評価プロトコルは主に、CLアルゴリズムが特定のシナリオ内で、目に見えないデータに対してどれだけうまく機能するかを評価することを目的としている。 しかし、CLアルゴリズムを正確に評価するためには、各アルゴリズムのCLキャパシティの一般化性を評価することに焦点を当てるべきである。 この評価目標を達成するため、我々は改訂された評価プロトコルを提案する。 我々のプロトコルは、ハイパーパラメータチューニングと評価の2つのフェーズから構成される。 どちらのフェーズも同じシナリオ構成(例えばタスク数)を共有しているが、各フェーズのシナリオは異なるデータセットから生成される。 ハイパーパラメータチューニングフェーズでは、最高のハイパーパラメータが識別され、評価フェーズでCLアルゴリズムを使用してモデルをトレーニングするために使用される。 最後に、このフェーズの結果を最終評価として報告する。 提案手法は,事前学習モデルと非学習モデルの両方を用いて,クラスインクリメンタル学習アルゴリズムに適用する。 約5000の試行を含む広範囲な実験を通して、ほとんどの最先端のアルゴリズムが報告された性能を示すことができず、一般化可能性の欠如が明らかとなった。

In this paper, we argue that the conventional evaluation protocol in continual learning (CL) research deviates from the fundamental principle in machine learning evaluation. The primary objective of CL algorithm is to balance the trade-off between plasticity (learning new knowledge from new tasks) and stability (retaining knowledge from previous tasks). To evaluate it, a CL scenario is constructed by using a benchmark dataset, where a neural network model is continually trained on the training data of each task, and the best hyperparameters for a CL algorithm are selected based on validation data.The final evaluation involves assessing the model trained with these hyperparameters on the test data from the same scenario. This evaluation protocol primarily aims to assess how well a CL algorithm performs on unseen data within that specific scenario. However, to accurately evaluate the CL algorithm, the focus should be on assessing generalizability of each algorithm's CL capacity to handle unseen scenarios. To achieve this evaluation goal, we propose a revised evaluation protocol. Our protocol consists of two phases: hyperparameter tuning and evaluation. Both phases share the same scenario configuration (e.g., the number of tasks) but the scenarios for each phase are generated from different datasets. During the hyperparameter tuning phase, the best hyperparameters are identified, which are then used to train the model using the CL algorithm in the evaluation phase. Finally, the result from this phase is reported as the final evaluation. We apply the proposed evaluation protocol to class-incremental learning algorithms, both with and without a pretrained model. Through extensive experiments involving approximately 5000 trials, we demonstrate that most state-of-the-art algorithms fail to exhibit the reported performance, revealing a lack of generalizability.
翻訳日:2024-08-19 20:24:02 公開日:2024-08-15
# Touch-GS:3Dガウシアン・スプレイティングを監督するビジュアル触覚

Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting ( http://arxiv.org/abs/2403.09875v3 )

ライセンス: Link先を確認
Aiden Swann, Matthew Strong, Won Kyung Do, Gadiel Sznaier Camps, Mac Schwager, Monroe Kennedy III, (参考訳) 本研究では,光学式触覚センサを用いた3次元ガウス撮影(3DGS)シーンの監視手法を提案する。 光触覚センサはロボティクスにおいて操作やオブジェクト表現に広く利用されているが、光学触覚センサのデータは直接3DGSシーンを監督するには適していない。 我々の表現は、ガウス的プロセス・インプリシット・サーフェスを利用してオブジェクトを暗黙的に表現し、多くのタッチを統一された表現と不確実性を組み合わせた。 このモデルを2段階のプロセスで整列した単眼深度推定ネットワークにマージし、奥行きカメラと粗い整列を行い、タッチデータに合わせて微調整する。 各トレーニング画像に対して,本手法は対応する融合深度と不確実性マップを生成する。 この追加情報を利用することで、3DGSシーンモデルのトレーニングのための新たな損失関数である分散重み付き深度教師付き損失を提案する。 我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを利用して、不透明で透明な物体だけでなく、数ビューのシーン合成において、触覚と視覚の組み合わせが視覚や触覚よりも定量的に質的に良い結果をもたらすことを示す。 プロジェクトページはhttp://armlabstanford.github.io/touch-gsでご覧ください。

In this work, we propose a novel method to supervise 3D Gaussian Splatting (3DGS) scenes using optical tactile sensors. Optical tactile sensors have become widespread in their use in robotics for manipulation and object representation; however, raw optical tactile sensor data is unsuitable to directly supervise a 3DGS scene. Our representation leverages a Gaussian Process Implicit Surface to implicitly represent the object, combining many touches into a unified representation with uncertainty. We merge this model with a monocular depth estimation network, which is aligned in a two stage process, coarsely aligning with a depth camera and then finely adjusting to match our touch data. For every training image, our method produces a corresponding fused depth and uncertainty map. Utilizing this additional information, we propose a new loss function, variance weighted depth supervised loss, for training the 3DGS scene model. We leverage the DenseTact optical tactile sensor and RealSense RGB-D camera to show that combining touch and vision in this manner leads to quantitatively and qualitatively better results than vision or touch alone in a few-view scene syntheses on opaque as well as on reflective and transparent objects. Please see our project page at http://armlabstanford.github.io/touch-gs
翻訳日:2024-08-19 20:24:02 公開日:2024-08-15
# ディープ・マルチ・コングリジョン・アンサンブルによる分布外検出

Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble ( http://arxiv.org/abs/2403.16260v2 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Zirui Xu, Nathan Inkawhich, Xiang Chen, (参考訳) 近年の研究では、OOD検出におけるモデルの有効性を決定する上で、OOD(Out-of-Distribution)特徴表現の尺度が重要な役割を担っていることが述べられている。 その結果、モデルアンサンブルの採用は、予想されるモデルの多様性を生かして、この特徴表現を拡大するための顕著な戦略として現れてきた。 しかし,新たな定性的,定量的なモデルアンサンブル評価手法,特にロス盆地・バリア可視化と自己結合指数の導入は,既存のアンサンブル手法に重大な欠点を生じさせる。 これらの手法にはアフィン変換可能な重みが組み込まれており、可変性に限界があり、特徴表現における所望の多様性を達成できないことが判明した。 この制限に対処するため、従来のモデルアンサンブルの寸法を拡大し、異なるウェイト初期化、データホールドアウトなどの様々な要因を異なる監視タスクに組み込む。 この革新的なアプローチは、MC(Multi-Comprehension) Ensembleと呼ばれ、多様なトレーニングタスクを活用して、データとラベルの異なる理解を生成し、特徴表現場を拡張する。 実験の結果,OOD検出におけるMC Ensemble法は,本手法と同等の大きさのスタンドアロンモデルの両方と比較して優れた性能を示した。 これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。

Recent research underscores the pivotal role of the Out-of-Distribution (OOD) feature representation field scale in determining the efficacy of models in OOD detection. Consequently, the adoption of model ensembles has emerged as a prominent strategy to augment this feature representation field, capitalizing on anticipated model diversity. However, our introduction of novel qualitative and quantitative model ensemble evaluation methods, specifically Loss Basin/Barrier Visualization and the Self-Coupling Index, reveals a critical drawback in existing ensemble methods. We find that these methods incorporate weights that are affine-transformable, exhibiting limited variability and thus failing to achieve the desired diversity in feature representation. To address this limitation, we elevate the dimensions of traditional model ensembles, incorporating various factors such as different weight initializations, data holdout, etc., into distinct supervision tasks. This innovative approach, termed Multi-Comprehension (MC) Ensemble, leverages diverse training tasks to generate distinct comprehensions of the data and labels, thereby extending the feature representation field. Our experimental results demonstrate the superior performance of the MC Ensemble strategy in OOD detection compared to both the naive Deep Ensemble method and a standalone model of comparable size. This underscores the effectiveness of our proposed approach in enhancing the model's capability to detect instances outside its training distribution.
翻訳日:2024-08-19 20:24:02 公開日:2024-08-15
# CMDA-OT: 最適輸送による協調的マルチソースドメイン適応

CMDA-OT: Collaborative Multi-source Domain Adaptation Through Optimal Transport ( http://arxiv.org/abs/2404.06599v2 )

ライセンス: Link先を確認
Omar Ghannou, Younès Bennani, (参考訳) マルチソースドメイン適応(MDA)は、複数のラベル付きソースドメインのデータに基づいてトレーニングされたモデルを適用し、ソースデータへのアクセスを前提として、ラベルなしのターゲットドメインデータに対して効果的に実行する。 モデル適応とデータプライバシの課題に対処するために,2つの重要なフェーズからなる新しいフレームワークであるCMDA-OT(Collaborative MDA Through Optimal Transport)を導入する。 第1フェーズでは、各ソースドメインは最適なトランスポートメソッドを使用して、ターゲットドメインに独立して適合する。 第2フェーズでは、集中的な協調学習アーキテクチャが採用され、NソースからのNモデルをデータにアクセスせずに集約することで、プライバシを保護する。 このプロセスの間、サーバはターゲットの検証サブセットとして知られるターゲットドメインからの擬似ラベル付きサンプルの小さなセットを利用して、適応を洗練し、ガイドする。 この二重フェーズアプローチは、ターゲットドメインのモデルパフォーマンスを改善するだけでなく、ドメイン適応に固有の重要なプライバシー問題にも対処する。

Multi-source Domain Adaptation (MDA) seeks to adapt models trained on data from multiple labeled source domains to perform effectively on an unlabeled target domain data, assuming access to sources data. To address the challenges of model adaptation and data privacy, we introduce Collaborative MDA Through Optimal Transport (CMDA-OT), a novel framework consisting of two key phases. In the first phase, each source domain is independently adapted to the target domain using optimal transport methods. In the second phase, a centralized collaborative learning architecture is employed, which aggregates the N models from the N sources without accessing their data, thereby safeguarding privacy. During this process, the server leverages a small set of pseudo-labeled samples from the target domain, known as the target validation subset, to refine and guide the adaptation. This dual-phase approach not only improves model performance on the target domain but also addresses vital privacy challenges inherent in domain adaptation.
翻訳日:2024-08-19 20:12:39 公開日:2024-08-15
# 希釈1次元$XX$模型におけるスピンヘリスのダイナミクス

Dynamics of spin helices in the diluted one-dimensional $XX$ model ( http://arxiv.org/abs/2404.17558v2 )

ライセンス: Link先を確認
Darren Pereira, Erich J. Mueller, (参考訳) 最近のコールド原子実験と関連する理論の相違により、我々は1次元の$XX$モデルのスピンヘリックスの量子力学に対するインモービルホールの効果を探求した。 我々は、相互作用しないフェルミオンの系にマッピングして正確なスピンダイナミクスを計算し、ホールの分布を平均化する。 小孔密度では、ヘリカルスピンパターンは指数関数的に崩壊し、ピッチ依存は実験に一致する。 大きな穴密度では、持続的な振動が見つかる。 解析的アプローチは任意の異方性を持つ$XXZ$モデルには一般化しないが、これらの設定で実験をモデル化するために用いられる行列積状態技術を検証する。

Motivated by discrepancies between recent cold atom experiments and the associated theory, we explore the effect of immobile holes on the quantum dynamics of $x$-$z$ spin helices in the one-dimensional $XX$ model. We calculate the exact spin dynamics by mapping onto a system of non-interacting fermions, averaging over the distribution of holes. At small hole densities we find that the helical spin pattern decays exponentially, with a pitch dependence that agrees with the experiments. At large hole densities we instead find persistent oscillations. While our analytic approach does not generalize to the $XXZ$ model with arbitrary anisotropies, we validate a matrix product state technique which might be used to model the experiments in those settings.
翻訳日:2024-08-19 20:12:39 公開日:2024-08-15
# GRAMMAR:閉領域検索拡張言語モデルの評価のための基礎的およびモジュール的手法

GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model ( http://arxiv.org/abs/2404.19232v6 )

ライセンス: Link先を確認
Xinzhe Li, Ming Liu, Shang Gao, (参考訳) Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。 しかし、これらのシステムの評価は、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、重大な課題を呈している。 さらに、問題のあるモジュールを診断し、知識不足や堅牢性の問題などによって引き起こされる障害の種類を特定するための分析手法が欠如している。 これらの課題に対処するため,GRAMMAR (GRounded and Modular Methodology for Assessment of RAG) を導入する。 評価実験の結果, 従来の基準フリー評価手法は, 誤り世代を不正確に評価し, 楽観主義に傾向があることが判明した。 対照的に、GRAMMARは脆弱性のあるモジュールを識別するための信頼性の高いアプローチを提供し、テキスト形式の脆弱性に対する仮説テストをサポートする。 .% このフレームワークに付随するオープンソースツールがリリースされ、結果を簡単に再現し、クローズドドメイン設定で信頼性とモジュラーの評価を可能にします。 このフレームワークに付随するオープンソースツールがGitHubリポジトリの \url{https://github.com/xinzhel/grammar} で利用可能です。

Retrieval-Augmented Generation (RAG) systems are widely used across various industries for querying closed-domain and in-house knowledge bases. However, evaluating these systems presents significant challenges due to the private nature of closed-domain data and a scarcity of queries with verifiable ground truths. Moreover, there is a lack of analytical methods to diagnose problematic modules and identify types of failure, such as those caused by knowledge deficits or issues with robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising a grounded data generation process and an evaluation protocol that effectively pinpoints defective modules. Our validation experiments reveal that % traditional reference-free evaluation methods often inaccurately assess false generations, tending toward optimism. In contrast, GRAMMAR provides a reliable approach for identifying vulnerable modules and supports hypothesis testing for textual form vulnerabilities. % An open-source tool accompanying this framework will be released to easily reproduce our results and enable reliable and modular evaluation in closed-domain settings. An open-source tool accompanying this framework is available in our GitHub repository \url{https://github.com/xinzhel/grammar}, allowing for easy reproduction of our results and enabling reliable and modular evaluation in closed-domain settings.
翻訳日:2024-08-19 20:12:39 公開日:2024-08-15
# 分子設計のための深部生成モデルにおけるエピステミックモデル不確かさを捉えるための活性部分空間の活用

Leveraging Active Subspaces to Capture Epistemic Model Uncertainty in Deep Generative Models for Molecular Design ( http://arxiv.org/abs/2405.00202v2 )

ライセンス: Link先を確認
A N M Nafiz Abeer, Sanket Jantre, Nathan M Urban, Byung-Jun Yoon, (参考訳) 深層生成モデルは、材料および薬物設計における逆設計プロセスの加速を図っている。 典型的な分子設計フレームワークにおけるそれらの特性予測と異なり、生成分子設計モデルでは、ベイズ推定における多くのパラメータによる計算上の問題により、不確実性定量化(UQ)への取り組みが減っている。 本研究では、生成分子設計の一般的なモデルであるジャンクションツリー変分オートエンコーダ(JT-VAE)に着目し、低次元の活性部分空間を利用してモデルパラメータの不確かさを捉えることでこの問題に対処する。 具体的には,非常に高次元のパラメータ空間におけるエピステミックモデルの不確かさを推定するために,活性部分空間パラメータの後方分布を近似する。 提案したUQスキームはモデルアーキテクチャの変更を必要としないため、事前訓練されたモデルにも容易に適用できる。 本実験は,ASをベースとしたUQの有効性と,その分子最適化に対する潜在的影響を,疫学的な不確実性の下でモデル多様性を探索することによって実証した。

Deep generative models have been accelerating the inverse design process in material and drug design. Unlike their counterpart property predictors in typical molecular design frameworks, generative molecular design models have seen fewer efforts on uncertainty quantification (UQ) due to computational challenges in Bayesian inference posed by their large number of parameters. In this work, we focus on the junction-tree variational autoencoder (JT-VAE), a popular model for generative molecular design, and address this issue by leveraging the low dimensional active subspace to capture the uncertainty in the model parameters. Specifically, we approximate the posterior distribution over the active subspace parameters to estimate the epistemic model uncertainty in an extremely high dimensional parameter space. The proposed UQ scheme does not require alteration of the model architecture, making it readily applicable to any pre-trained model. Our experiments demonstrate the efficacy of the AS-based UQ and its potential impact on molecular optimization by exploring the model diversity under epistemic uncertainty.
翻訳日:2024-08-19 20:12:39 公開日:2024-08-15
# SATO: 安定したテキスト間移動フレームワーク

SATO: Stable Text-to-Motion Framework ( http://arxiv.org/abs/2405.01461v3 )

ライセンス: Link先を確認
Wenshuo Chen, Hongru Xiao, Erhang Zhang, Lijie Hu, Lei Wang, Mengyuan Liu, Chen Chen, (参考訳) Text to Motionモデルは堅牢か? テキスト・トゥ・モーション・モデルの最近の進歩は、主に特定の行動のより正確な予測に由来する。 しかし、テキストモダリティは通常、事前訓練されたコントラスト言語-画像事前訓練(CLIP)モデルにのみ依存する。 その結果、意味的に類似したテキスト入力や同一のテキスト入力が提示された場合、その予測が不整合な出力を示すことが多かった。 本稿では,この不安定性の根本原因を明らかにするために解析を行い,モデル出力の予測不能性とテキストエンコーダモジュールの警告パターンとの明確なリンクを確立する。 そこで本稿では,この問題を解決するための公式なフレームワークを紹介し,そのフレームワークをSATO (Stable Text-to-Motion Framework) と呼ぶ。 SATOは3つのモジュールから構成されており、それぞれが注意を安定させ、予測を安定させ、正確性と堅牢性のトレードオフのバランスを維持する。 注意と予測の安定性を満足するSATOを構築するための方法論を提案する。 モデルの安定性を検証するため,HumanML3DとKIT-MLをベースとした新しいテキスト同義語摂動データセットを導入した。 その結果,SATOは高い精度を維持しつつ,同義語や他のわずかな摂動に対して著しく安定であることがわかった。

Is the Text to Motion model robust? Recent advancements in Text to Motion models primarily stem from more accurate predictions of specific actions. However, the text modality typically relies solely on pre-trained Contrastive Language-Image Pretraining (CLIP) models. Our research has uncovered a significant issue with the text-to-motion model: its predictions often exhibit inconsistent outputs, resulting in vastly different or even incorrect poses when presented with semantically similar or identical text inputs. In this paper, we undertake an analysis to elucidate the underlying causes of this instability, establishing a clear link between the unpredictability of model outputs and the erratic attention patterns of the text encoder module. Consequently, we introduce a formal framework aimed at addressing this issue, which we term the Stable Text-to-Motion Framework (SATO). SATO consists of three modules, each dedicated to stable attention, stable prediction, and maintaining a balance between accuracy and robustness trade-off. We present a methodology for constructing an SATO that satisfies the stability of attention and prediction. To verify the stability of the model, we introduced a new textual synonym perturbation dataset based on HumanML3D and KIT-ML. Results show that SATO is significantly more stable against synonyms and other slight perturbations while keeping its high accuracy performance.
翻訳日:2024-08-19 20:02:46 公開日:2024-08-15
# 逐次エンコード可能なコードワード安定化符号

Sequentially Encodable Codeword Stabilized Codes ( http://arxiv.org/abs/2405.06142v3 )

ライセンス: Link先を確認
Sowrabh Sudevan, Sourin Das, Thamadathil Aswanth, Nupur Patanker, Navin Kashyap, (参考訳) n 量子ビット上の m-一様量子状態は、すべての m-一様部分系が最大混合される絡み合った状態である。 このような状態は純粋[[n,0,m+1]]量子誤り訂正符号(QECC)にまたがる。 m-正則グラフに関連するグラフ状態として実現されたm-ユニフォーム状態と、ある種の追加特性を持つ古典的[n,k,d \ge m+1]バイナリ線形コードから始め、純粋な[[n,k,m+1]QECCであるコードワード安定化(CWS)コードを構築する。 本稿では,コード状態へのエンコードと論理量子ビットの復号化のための測度ベースのプロトコルを提案する。 提案プロトコルは論理量子ビットのシーケンシャルエンコーディングと部分的リカバリをサポートし,量子メモリへの応用に有用である。

An m-uniform quantum state on n qubits is an entangled state in which every m-qubit subsystem is maximally mixed. Such a state spans a pure [[n,0,m+1]] quantum error correcting code (QECC). Starting with an m-uniform state realized as the graph state associated with an m-regular graph, and a classical [n,k,d \ge m+1] binary linear code with certain additional properties, we construct codeword stabilized (CWS) codes that are pure [[n,k,m+1]] QECCs. We propose measurement-based protocols for encoding into code states and recovery of logical qubits from code states. Our proposed protocols support sequential encoding and partial recovery of logical qubits, which can be useful for quantum memory applications.
翻訳日:2024-08-19 20:02:45 公開日:2024-08-15
# 保守的世界モデルを用いた効率的な模倣学習

Efficient Imitation Learning with Conservative World Models ( http://arxiv.org/abs/2405.13193v2 )

ライセンス: Link先を確認
Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn, (参考訳) 報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。 この領域における中心的な課題は、これらのポリシーが分散シフト、環境確率性、複雑なエラーのためにデプロイ時に失敗することである。 敵対的模倣学習はこの問題を緩和するが、安定性のための追加の政治訓練サンプルを必要とする。 この問題の1つのアプローチは、環境の世界モデルを学び、ポリシートレーニングに合成データを使用することである。 先行研究で成功したが、学習したモデルと実環境の間のさらなる分布シフトのため、これは準最適であると論じる。 代わりに、純粋な強化学習ではなく、微調整問題として模倣学習を再設定します。 オフラインのRLと微調整アルゴリズムとの理論的接続を描画することで、標準的なオンラインワールドモデルアルゴリズムは模倣学習問題にはあまり適していないと論じる。 本研究では,高次元の原画素観測による2つの非常に困難な操作環境の性能向上を実証的に示す。 我々は、イメージからFranka Kitchen環境に新しい最先端のパフォーマンスを設定し、報酬ラベルなしで10のデモしか必要とせず、複雑なデキスタリティ操作タスクを解決しました。

We tackle the problem of policy learning from expert demonstrations without a reward function. A central challenge in this space is that these policies fail upon deployment due to issues of distributional shift, environment stochasticity, or compounding errors. Adversarial imitation learning alleviates this issue but requires additional on-policy training samples for stability, which presents a challenge in realistic domains due to inefficient learning and high sample complexity. One approach to this issue is to learn a world model of the environment, and use synthetic data for policy training. While successful in prior works, we argue that this is sub-optimal due to additional distribution shifts between the learned model and the real environment. Instead, we re-frame imitation learning as a fine-tuning problem, rather than a pure reinforcement learning one. Drawing theoretical connections to offline RL and fine-tuning algorithms, we argue that standard online world model algorithms are not well suited to the imitation learning problem. We derive a principled conservative optimization bound and demonstrate empirically that it leads to improved performance on two very challenging manipulation environments from high-dimensional raw pixel observations. We set a new state-of-the-art performance on the Franka Kitchen environment from images, requiring only 10 demos on no reward labels, as well as solving a complex dexterity manipulation task.
翻訳日:2024-08-19 20:02:45 公開日:2024-08-15
# RAGSys:RAGシステムとしてのアイテムコールドスタートレコメンダ

RAGSys: Item-Cold-Start Recommender as RAG System ( http://arxiv.org/abs/2405.17587v2 )

ライセンス: Link先を確認
Emile Contal, Garrin McGoldrick, (参考訳) 大規模言語モデル(LLM)は現実世界のアプリケーションにとって大きな約束を持っているが、それらの一般的な知識はドメイン固有のニーズに欠けることが多い。 ファインチューニングは一般的なアプローチであり、破滅的な忘れ込みに悩まされ、一般化を阻害する。 In-Context Learning (ICL)は、Retrieval-Augmented Generation (RAG)を活用して、数ショットの学習タスクに関連したデモを提供する代替手段を提供する。 本稿では,ICLのための実演検索システムの望ましい特性について検討する。 この文脈でのICL検索は、アイテムコールドスタートレコメンデータシステムに似ており、発見の優先順位付けと厳密な関連性よりも情報の獲得を最大化している。 本研究では,NLPタスクにおけるLCMのその後のパフォーマンスを測定し,主観的多様性スコアの必要性を解消する新たな評価手法を提案する。 本研究は,ICLを有効活用するための実証実験において,多様性と品質バイアスが重要な役割を担っていることを示し,本領域におけるレコメンダシステム技術の可能性を強調した。

Large Language Models (LLM) hold immense promise for real-world applications, but their generic knowledge often falls short of domain-specific needs. Fine-tuning, a common approach, can suffer from catastrophic forgetting and hinder generalizability. In-Context Learning (ICL) offers an alternative, which can leverage Retrieval-Augmented Generation (RAG) to provide LLMs with relevant demonstrations for few-shot learning tasks. This paper explores the desired qualities of a demonstration retrieval system for ICL. We argue that ICL retrieval in this context resembles item-cold-start recommender systems, prioritizing discovery and maximizing information gain over strict relevance. We propose a novel evaluation method that measures the LLM's subsequent performance on NLP tasks, eliminating the need for subjective diversity scores. Our findings demonstrate the critical role of diversity and quality bias in retrieved demonstrations for effective ICL, and highlight the potential of recommender system techniques in this domain.
翻訳日:2024-08-19 19:52:42 公開日:2024-08-15
# 脳腫瘍セグメンテーション(BraTS)チャレンジ2024:髄膜腫放射線治療における自動セグメンテーション計画

Brain Tumor Segmentation (BraTS) Challenge 2024: Meningioma Radiotherapy Planning Automated Segmentation ( http://arxiv.org/abs/2405.18383v2 )

ライセンス: Link先を確認
Dominic LaBella, Katherine Schumacher, Michael Mix, Kevin Leu, Shan McBurney-Lin, Pierre Nedelec, Javier Villanueva-Meyer, Jonathan Shapey, Tom Vercauteren, Kazumi Chia, Omar Al-Salihi, Justin Leu, Lia Halasz, Yury Velichko, Chunhao Wang, John Kirkpatrick, Scott Floyd, Zachary J. Reitman, Trey Mullikin, Ulas Bagci, Sean Sachdev, Jona A. Hattangadi-Gluth, Tyler Seibert, Nikdokht Farid, Connor Puett, Matthew W. Pease, Kevin Shiue, Syed Muhammad Anwar, Shahriar Faghani, Muhammad Ammar Haider, Pranav Warman, Jake Albrecht, András Jakab, Mana Moassefi, Verena Chung, Alejandro Aristizabal, Alexandros Karargyris, Hasan Kassem, Sarthak Pati, Micah Sheller, Christina Huang, Aaron Coley, Siddharth Ghanta, Alex Schneider, Conrad Sharp, Rachit Saluja, Florian Kofler, Philipp Lohmann, Phillipp Vollmuth, Louis Gagnon, Maruf Adewole, Hongwei Bran Li, Anahita Fathi Kazerooni, Nourel Hoda Tahon, Udunna Anazodo, Ahmed W. Moawad, Bjoern Menze, Marius George Linguraru, Mariam Aboian, Benedikt Wiestler, Ujjwal Baid, Gian-Marco Conte, Andreas M. Rauschecker, Ayman Nada, Aly H. Abayazeed, Raymond Huang, Maria Correia de Verdier, Jeffrey D. Rudie, Spyridon Bakas, Evan Calabrese, (参考訳) 2024 Brain tumor Segmentation Meningioma Radiotherapy (BraTS-MEN-RT) の課題は、従来の放射線治療または定位放射線治療を受けた無傷または術後の髄膜腫患者に対して、専門家が注釈したターゲットラベルを付けた脳MRIの最大多施設的データセットを用いて、自動セグメンテーションアルゴリズムを推進することである。 それぞれの症例は, 造影後T1強調放射線治療計画MRI(defaced 3D post-contrast T1-weighted radiotherapy planning MRI)を含む。 ターゲットボリュームアノテーションは、確立された放射線治療計画プロトコルに準拠し、ケースや機関間の一貫性を確保する。 術前の髄膜腫ではGTV全体とそれに伴う結節尾部を対象とし,術後の症例では治療機関が判定した結節切除の空洞マージンも含む。 ケースアノテーションは、専門の神経放射線学者と放射線腫瘍学者によってレビューされ、承認された。 参加チームは、この包括的なデータセットを使用して、自動セグメンテーションモデルの開発とコンテナ化、評価を行う。 モデル性能は適応的病変関連Dice similarity Coefficientと95% Hausdorff 距離を用いて評価する。 2024年10月のMedicical Image Computing and Computer Assisted Intervention Conferenceで、トップパフォーマンスのチームが認識される。 BraTS-MEN-RTは、正確な腫瘍の分節化を可能とし、適切な治療を容易にし、最終的には患者の成績を改善することで、自動放射線治療計画を大幅に進歩させることが期待されている。

The 2024 Brain Tumor Segmentation Meningioma Radiotherapy (BraTS-MEN-RT) challenge aims to advance automated segmentation algorithms using the largest known multi-institutional dataset of radiotherapy planning brain MRIs with expert-annotated target labels for patients with intact or postoperative meningioma that underwent either conventional external beam radiotherapy or stereotactic radiosurgery. Each case includes a defaced 3D post-contrast T1-weighted radiotherapy planning MRI in its native acquisition space, accompanied by a single-label "target volume" representing the gross tumor volume (GTV) and any at-risk postoperative site. Target volume annotations adhere to established radiotherapy planning protocols, ensuring consistency across cases and institutions. For preoperative meningiomas, the target volume encompasses the entire GTV and associated nodular dural tail, while for postoperative cases, it includes at-risk resection cavity margins as determined by the treating institution. Case annotations were reviewed and approved by expert neuroradiologists and radiation oncologists. Participating teams will develop, containerize, and evaluate automated segmentation models using this comprehensive dataset. Model performance will be assessed using an adapted lesion-wise Dice Similarity Coefficient and the 95% Hausdorff distance. The top-performing teams will be recognized at the Medical Image Computing and Computer Assisted Intervention Conference in October 2024. BraTS-MEN-RT is expected to significantly advance automated radiotherapy planning by enabling precise tumor segmentation and facilitating tailored treatment, ultimately improving patient outcomes.
翻訳日:2024-08-19 19:52:42 公開日:2024-08-15
# DP-MemArc: メモリ効率の良い言語モデルのための微分プライバシー伝達学習

DP-MemArc: Differential Privacy Transfer Learning for Memory Efficient Language Models ( http://arxiv.org/abs/2406.11087v3 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Yuwei Zhang, Xiaolan Ke, Songhang Deng, Jiannan Cao, Chen Ma, Mengchen Fu, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, (参考訳) 大規模言語モデルは様々なアプリケーションにまたがって顕著な性能を示してきた。 しかしながら、これらのモデルのデプロイは、ユーザのプライバシを必然的に危険に晒す可能性がある。 トレーニング中の重要なメモリ需要は、リソース消費の面で大きな課題となる。 この大きなサイズはメモリリソースに多大な負荷をかけ、実用的な懸念を生じさせる。 本稿では,DP-MemArcについて紹介する。DP-MemArcは,ユーザデータのプライバシ保護を重視しつつ,大規模言語モデルのメモリコスト削減を目的とした,新たなトレーニングフレームワークである。 DP-MemArcは、様々な差分プライバシーメモリ効率の良い微調整スキームをサポートするために、サイドネットワークまたは可逆ネットワーク設計を組み込んでいる。 私たちのアプローチはメモリ最適化だけでなく、堅牢なプライバシ保護も実現し、ユーザのデータを安全かつ機密に保ちます。 大規模な実験により、DP-MemArcは、異なるタスクシナリオをまたいだ差分プライバシー効率の微調整を効果的に提供することが示された。

Large language models have repeatedly shown outstanding performance across diverse applications. However, deploying these models can inadvertently risk user privacy. The significant memory demands during training pose a major challenge in terms of resource consumption. This substantial size places a heavy load on memory resources, raising considerable practical concerns. In this paper, we introduce DP-MemArc, a novel training framework aimed at reducing the memory costs of large language models while emphasizing the protection of user data privacy. DP-MemArc incorporates side network or reversible network designs to support a variety of differential privacy memory-efficient fine-tuning schemes. Our approach not only achieves in memory optimization but also ensures robust privacy protection, keeping user data secure and confidential. Extensive experiments have demonstrated that DP-MemArc effectively provides differential privacy-efficient fine-tuning across different task scenarios.
翻訳日:2024-08-19 19:52:42 公開日:2024-08-15
# プライベートアソシエーション編集による大規模言語モデルにおけるデータプライバシ向上

Enhancing Data Privacy in Large Language Models through Private Association Editing ( http://arxiv.org/abs/2406.18221v2 )

ライセンス: Link先を確認
Davide Venditti, Elena Sofia Ruzzetti, Giancarlo A. Xompero, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto, (参考訳) 大規模言語モデル(LLM)は、広範なアプリケーションを持つ強力なツールであるが、プライベートな情報を記憶する傾向は、プライベートなデータ漏洩が容易に起こりうるため、重大な懸念を生じさせる。 本稿では,プライベート・アソシエーション・編集(PAE)について紹介する。 PAEは、モデルを再訓練することなく、PII(Personally Identible Information)を効果的に除去するように設計されている。 提案手法は, 暗記PIIの検出, プライベートデータの暗記を緩和するためのPAEカードの適用, ターゲットデータ抽出(TDE)攻撃に対するレジリエンスの検証, 後LPMにおける一貫性の確保の4段階からなる。 バッチ修正を可能にするPAEの汎用性と効率は、LLMにおけるデータのプライバシを大幅に向上させる。 PAEの個人データ漏洩軽減効果を示す実験結果が得られた。 PAEは、LLMにおけるデータプライバシ保護の継続的な取り組みにおいて、重要なツールとして機能し、現実世界のアプリケーションのためのより安全なモデルの開発を促進します。

Large Language Models (LLMs) are powerful tools with extensive applications, but their tendency to memorize private information raises significant concerns as private data leakage can easily happen. In this paper, we introduce Private Association Editing (PAE), a novel defense approach for private data leakage. PAE is designed to effectively remove Personally Identifiable Information (PII) without retraining the model. Our approach consists of a four-step procedure: detecting memorized PII, applying PAE cards to mitigate memorization of private data, verifying resilience to targeted data extraction (TDE) attacks, and ensuring consistency in the post-edit LLMs. The versatility and efficiency of PAE, which allows for batch modifications, significantly enhance data privacy in LLMs. Experimental results demonstrate the effectiveness of PAE in mitigating private data leakage. We believe PAE will serve as a critical tool in the ongoing effort to protect data privacy in LLMs, encouraging the development of safer models for real-world applications.
翻訳日:2024-08-19 17:59:12 公開日:2024-08-15
# デチューニング制御によるロバストダブルブラッグ回折

Robust double Bragg diffraction via detuning control ( http://arxiv.org/abs/2407.04754v2 )

ライセンス: Link先を確認
Rui Li, V. J. Martínez-Lahuerta, S. Seckmeyer, Klemens Hammerer, Naceur Gaaloul, (参考訳) 原子間干渉法において広く用いられている2重ブラッグ回折(DBD)の新たな理論モデルと数値最適化について述べる。 我々は、ほとんどのブラッグパルス原子干渉計が動作するいわゆる「準ブラッグ系」におけるマグナス展開に基づく効果的な2レベルハミルトニアンを導出する。 さらに,ドップラーの変形を考慮した5段階の記述に拡張する。 これらの導出された実効ハミルトニアンを用いて、二重ブラッグビームスプリッターにおける交流スタークシフトと偏光誤差の影響と、デチューニング制御による緩和について検討する。 特に、偏極誤差に対して99.5%を超える堅牢な効率を最大8.5%まで示す線形デチューニングスイープを設計する。 さらに,偏極誤差とドップラー効果の両方に対して強靭性を示す人工知能支援型最適デチューニング制御プロトコルを開発した。 このプロトコルは、有限運動量幅0.05$\hbar k_L$のサンプルに対して、最大10%まで拡張偏光誤差範囲で99.92%の平均効率を達成する。

We present a new theoretical model and numerical optimization of double Bragg diffraction (DBD), a widely used technique in atom interferometry. We derive an effective two-level-system Hamiltonian based on the Magnus expansion in the so-called "quasi-Bragg regime", where most Bragg-pulse atom interferometers operate. Furthermore, we extend the theory to a five-level description to account for Doppler detuning. Using these derived effective Hamiltonians, we investigate the impacts of AC-Stark shift and polarization errors on the double Bragg beam-splitter, along with their mitigations through detuning control. Notably, we design a linear detuning sweep that demonstrates robust efficiency exceeding 99.5% against polarization errors up to 8.5%. Moreover, we develop an artificial intelligence-aided optimal detuning control protocol, showcasing enhanced robustness against both polarization errors and Doppler effects. This protocol achieves an average efficiency of 99.92% for samples with a finite momentum width of 0.05$\hbar k_L$ within an extended polarization error range of up to 10%.
翻訳日:2024-08-19 17:59:12 公開日:2024-08-15
# MxT:Mamba x Transformer for Image Inpainting

MxT: Mamba x Transformer for Image Inpainting ( http://arxiv.org/abs/2407.16126v3 )

ライセンス: Link先を確認
Shuang Chen, Amir Atapour-Abarghouei, Haozheng Zhang, Hubert P. H. Shum, (参考訳) 画像インペインティング(英: Image inpainting)または画像補完(英: Image completion)は、セマンティック・コヒーレントなコンテンツを用いて、画像の欠落または損傷領域を復元することを目的としたコンピュータビジョンにおける重要なタスクである。 この技術は、復元された画像が周囲とシームレスに統合されるように、局所的なテクスチャ複製とグローバルな文脈理解の正確なバランスを必要とする。 畳み込みニューラルネットワーク(CNN)を用いた従来の手法は、局所的なパターンを捉えるのに有効であるが、受容領域が限られているため、より広い文脈の関係に苦慮することが多い。 近年の進歩はトランスフォーマーを取り入れ、グローバルな相互作用を理解する能力を活用している。 しかし、これらの手法は計算の非効率さに直面し、細かな詳細を維持するのに苦労する。 これらの課題を克服するために,Mamba と変換器を相乗的に組み合わせたHybrid Module (HM) を用いた MxT を提案する。 Mambaは、線形計算コストで効率よく長いシーケンスを処理できるので、大規模なデータインタラクションを扱うための変換器の理想的な補完となる。 我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。 我々は、広く使われているCelebA-HQとPlaces2-standardデータセット上でMxTを評価し、既存の最先端手法を一貫して上回りました。 コードは次のようになる。 {\url{https://github.com/ChrisChen1023/MxT}}。

Image inpainting, or image completion, is a crucial task in computer vision that aims to restore missing or damaged regions of images with semantically coherent content. This technique requires a precise balance of local texture replication and global contextual understanding to ensure the restored image integrates seamlessly with its surroundings. Traditional methods using Convolutional Neural Networks (CNNs) are effective at capturing local patterns but often struggle with broader contextual relationships due to the limited receptive fields. Recent advancements have incorporated transformers, leveraging their ability to understand global interactions. However, these methods face computational inefficiencies and struggle to maintain fine-grained details. To overcome these challenges, we introduce MxT composed of the proposed Hybrid Module (HM), which combines Mamba with the transformer in a synergistic manner. Mamba is adept at efficiently processing long sequences with linear computational costs, making it an ideal complement to the transformer for handling long-scale data interactions. Our HM facilitates dual-level interaction learning at both pixel and patch levels, greatly enhancing the model to reconstruct images with high quality and contextual accuracy. We evaluate MxT on the widely-used CelebA-HQ and Places2-standard datasets, where it consistently outperformed existing state-of-the-art methods. The code will be released: {\url{https://github.com/ChrisChen1023/MxT}}.
翻訳日:2024-08-19 17:49:17 公開日:2024-08-15
# MMAU: さまざまなドメインにまたがるエージェント能力の全体的ベンチマーク

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains ( http://arxiv.org/abs/2407.18961v3 )

ライセンス: Link先を確認
Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、人間のようなエージェントとして機能を評価するための包括的なベンチマークの必要性が高まっている。 既存のベンチマークは有用だが、しばしば特定のアプリケーションシナリオに焦点を当て、タスクの完了を強調するが、これらの成果を導く基盤となるスキルを識別することができない。 この粒度の欠如は、障害がどこから来たのかを深く見分けるのを難しくする。 さらに、これらの環境のセットアップにはかなりの努力が必要であり、特に対話的なタスクにおいて、信頼性の欠如や再現性の問題が発生することがある。 これらの制約に対処するため、複雑な環境設定を不要にする包括的なオフラインタスクを備えたMMAU(Massive Multitask Agent Understanding)ベンチマークを導入する。 ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習のコーディング、コンテストレベルのプログラミングと数学を含む5つの領域にわたるモデルを評価し、理解、推論、計画、問題解決、自己補正の5つの重要な機能をカバーする。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。 MMAU上で18の代表的なモデルをテストすることで、深い洞察に富んだ分析を行う。 最終的に、MMAUはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性を高める。 MMAUのデータセットと評価スクリプトはhttps://github.com/apple/axlearn/tree/main/docs/research/mmauで公開されている。

Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including Tool-use, Directed Acyclic Graph (DAG) QA, Data Science and Machine Learning coding, Contest-level programming and Mathematics, and covers five essential capabilities: Understanding, Reasoning, Planning, Problem-solving, and Self-correction. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/tree/main/docs/research/mmau.
翻訳日:2024-08-19 17:49:17 公開日:2024-08-15
# ロボット手術における視覚的トランジット前駆体を用いたFederated Instrument Segmentationのパーソナライズ

Personalizing Federated Instrument Segmentation with Visual Trait Priors in Robotic Surgery ( http://arxiv.org/abs/2408.03208v2 )

ライセンス: Link先を確認
Jialang Xu, Jiacheng Wang, Lequan Yu, Danail Stoyanov, Yueming Jin, Evangelos B. Mazomenos, (参考訳) 手術器具分割のためのPFL(Personalized Federated Learning)は有望なアプローチである。 複数の臨床サイトが、各サイトの個々の配布に合わせて、プライバシーに関する一連のモデルを協調的にトレーニングすることができる。 既存のPFL法では、多面的自己意識のパーソナライゼーションはまれであり、外観の多様性や楽器形状の類似性は考慮されていない。 そこで我々は,PFedSISを提案する。PFedSISは,PFedSISの視覚的特徴を持つ新しいPFL手法であり,GPD(Global-personalized disentanglement),外観制御パーソナライズドエンハンスメント(APE),形状相似グローバルエンハンスメント(Shape-similarity Global Entensment,SGE)を導入し,各サイトにおけるSISパフォーマンスを向上する。 GPDは、多面的自己意識のパーソナライゼーションのための頭部的割り当ての最初の試みである。 各サイトのユニークな外観表現を保存し、サイト間の差異を徐々に活用するために、APEは外観規則を導入し、各サイトのパーソナライズされたパラメータに対してハイパーネットワークを介して、カスタマイズされたレイヤワイズアグリゲーションソリューションを提供する。 機器の相互形状情報は、画像レベルでのクロススタイルな形状整合性を高め、グローバルパラメータを更新するための予測レベルにおける各部位の形状相似寄与を計算するSGEを介して維持共有される。 PFedSIS は 1.51% Dice, +2.11% IoU, -2.79 ASSD, -15.55 HD95 で最先端の手法より優れている。 対応するコードとモデルはhttps://github.com/wzjialang/PFedSISでリリースされる。

Personalized federated learning (PFL) for surgical instrument segmentation (SIS) is a promising approach. It enables multiple clinical sites to collaboratively train a series of models in privacy, with each model tailored to the individual distribution of each site. Existing PFL methods rarely consider the personalization of multi-headed self-attention, and do not account for appearance diversity and instrument shape similarity, both inherent in surgical scenes. We thus propose PFedSIS, a novel PFL method with visual trait priors for SIS, incorporating global-personalized disentanglement (GPD), appearance-regulation personalized enhancement (APE), and shape-similarity global enhancement (SGE), to boost SIS performance in each site. GPD represents the first attempt at head-wise assignment for multi-headed self-attention personalization. To preserve the unique appearance representation of each site and gradually leverage the inter-site difference, APE introduces appearance regulation and provides customized layer-wise aggregation solutions via hypernetworks for each site's personalized parameters. The mutual shape information of instruments is maintained and shared via SGE, which enhances the cross-style shape consistency on the image level and computes the shape-similarity contribution of each site on the prediction level for updating the global parameters. PFedSIS outperforms state-of-the-art methods with +1.51% Dice, +2.11% IoU, -2.79 ASSD, -15.55 HD95 performance gains. The corresponding code and models will be released at https://github.com/wzjialang/PFedSIS.
翻訳日:2024-08-19 17:49:17 公開日:2024-08-15
# ロボットのための深層強化学習 : 実世界における成功事例調査

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes ( http://arxiv.org/abs/2408.03539v2 )

ライセンス: Link先を確認
Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone, (参考訳) Reinforcement Learning(RL)、特にDeep RL(DRL)と呼ばれるディープニューラルネットワークの組み合わせは、幅広いアプリケーションで大きな可能性を示しており、高度なロボット行動の開発を可能にする可能性を示唆している。 しかし、ロボットの問題は、物理世界との相互作用の複雑さとコストから、RLの適用に根本的な困難をもたらす。 本稿では、ロボット工学におけるDRLの近代的な調査について紹介し、DRLが達成した実世界の成功を、いくつかの重要なロボット能力の実現に焦点をあてる。 我々の分析は、これらのエキサイティングな成功の根底にある重要な要因を特定し、未探索領域を明らかにし、ロボット工学におけるDRLの現状を総合的に評価することを目的としている。 今後の課題として, 安定的でサンプル効率のよい実世界のRLパラダイムの必要性を強調し, 複雑な長期的, オープンワールド的な課題に対処するための様々な能力の発見と統合のための総合的なアプローチ, 開発と評価の原則を強調した。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。

Reinforcement learning (RL), particularly its combination with deep neural networks referred to as deep RL (DRL), has shown tremendous promise across a wide range of applications, suggesting its potential for enabling the development of sophisticated robotic behaviors. Robotics problems, however, pose fundamental difficulties for the application of RL, stemming from the complexity and cost of interacting with the physical world. This article provides a modern survey of DRL for robotics, with a particular focus on evaluating the real-world successes achieved with DRL in realizing several key robotic competencies. Our analysis aims to identify the key factors underlying those exciting successes, reveal underexplored areas, and provide an overall characterization of the status of DRL in robotics. We highlight several important avenues for future work, emphasizing the need for stable and sample-efficient real-world RL paradigms, holistic approaches for discovering and integrating various competencies to tackle complex long-horizon, open-world tasks, and principled development and evaluation procedures. This survey is designed to offer insights for both RL practitioners and roboticists toward harnessing RL's power to create generally capable real-world robotic systems.
翻訳日:2024-08-19 17:39:31 公開日:2024-08-15
# FedRobo: 最適な化学噴霧のためのフェデレーション学習型自律型インターロボット

FedRobo: Federated Learning Driven Autonomous Inter Robots Communication For Optimal Chemical Sprays ( http://arxiv.org/abs/2408.06382v2 )

ライセンス: Link先を確認
Jannatul Ferdaus, Sameera Pisupati, Mahedi Hasan, Sathwick Paladugu, (参考訳) フェデレートラーニングは、中央集権的なデータ収集に頼ることなく、ロボットが互いの経験から学ぶことを可能にする。 各ロボットは、作物の状態と化学噴霧の有効性のモデルを独立に維持し、艦隊内の他のロボットと定期的に共有する。 通信プロトコルは、作物の状態、天候、その他の重要な要因に関する情報の交換を容易にすることで、化学噴霧の応用を最適化するように設計されている。 連合学習アルゴリズムは、この共有データを利用して、化学噴霧戦略を継続的に洗練し、無駄を減らし、収穫量を改善する。 このアプローチは、作物保護のためのスケーラブルで効率的なソリューションを提供することによって、農業産業に革命をもたらす可能性がある。 しかし、セキュアで堅牢な通信プロトコルの開発、複数のソースからのデータを効果的に統合するフェデレーション学習アルゴリズムの設計、自律ロボットの安全性と信頼性の確保など、大きな課題が残っている。 クラスタベースのフェデレーション学習アプローチは,グローバルサーバの計算負荷を効果的に低減し,クライアント間の通信オーバーヘッドを最小限にする。

Federated Learning enables robots to learn from each other's experiences without relying on centralized data collection. Each robot independently maintains a model of crop conditions and chemical spray effectiveness, which is periodically shared with other robots in the fleet. A communication protocol is designed to optimize chemical spray applications by facilitating the exchange of information about crop conditions, weather, and other critical factors. The federated learning algorithm leverages this shared data to continuously refine the chemical spray strategy, reducing waste and improving crop yields. This approach has the potential to revolutionize the agriculture industry by offering a scalable and efficient solution for crop protection. However, significant challenges remain, including the development of a secure and robust communication protocol, the design of a federated learning algorithm that effectively integrates data from multiple sources, and ensuring the safety and reliability of autonomous robots. The proposed cluster-based federated learning approach also effectively reduces the computational load on the global server and minimizes communication overhead among clients.
翻訳日:2024-08-19 17:39:31 公開日:2024-08-15
# UniFed:高度不均一な医用画像分類タスクの共通連盟

UniFed: A Universal Federation of a Mixture of Highly Heterogeneous Medical Image Classification Tasks ( http://arxiv.org/abs/2408.07075v2 )

ライセンス: Link先を確認
Atefe Hassani, Islem Rekik, (参考訳) 連合学習における基本的な課題は、異種データセットと分類タスクを混在させながら、クライアントによる高い通信コストを最小化し、一定回数のラウンドでサーバと重み更新を交換することである。 この結果、分岐モデル収束率と性能が変化し、精度医学への展開を妨げる可能性がある。 現実のシナリオでは、クライアントデータは、非常に多様なコンポーネント(例えば、画像モダリティ、臓器タイプなど)を持つ異なる病院から収集されます。 以前の研究では、ターゲット学習タスクがクライアントだけでなく、データセットの種類や分布によって異なるトレーニング段階で、複雑な不均一性を見落としることが多かった。 このような制約に対処するため,我々はUniFedを前代未聞で導入した。UniFedは,任意の画像モダリティから疾患を分類することを目的とした,普遍的な統合学習パラダイムである。 UniFedは、学習タスクの複雑さに基づいて、クライアント固有の最適化において様々な収束時間を扱う。 特に、ローカルモデルとグローバルモデルの両方を動的に調整することで、UniFedはクライアントとサーバの様々なタスク複雑さを考慮し、現実のシナリオへの適応性を高め、過剰なトレーニングや過剰な通信に関連する問題を緩和する。 さらに,病院間の多様なタスクを考慮に入れたシーケンシャルなモデル転送機構と,動的タスク・複雑度に基づく注文機能を備えている。 われわれは, 網膜, 病理組織学, 肝腫瘍の診断において, 精度, 通信コスト, 収束時間を比較検討した。 UniFedのコードはhttps://github.com/basiralab/UniFed.comから入手可能です。

A fundamental challenge in federated learning lies in mixing heterogeneous datasets and classification tasks while minimizing the high communication cost caused by clients as well as the exchange of weight updates with the server over a fixed number of rounds. This results in divergent model convergence rates and performance, which may hinder their deployment in precision medicine. In real-world scenarios, client data is collected from different hospitals with extremely varying components (e.g., imaging modality, organ type, etc). Previous studies often overlooked the convoluted heterogeneity during the training stage where the target learning tasks vary across clients as well as the dataset type and their distributions. To address such limitations, we unprecedentedly introduce UniFed, a universal federated learning paradigm that aims to classify any disease from any imaging modality. UniFed also handles the issue of varying convergence times in the client-specific optimization based on the complexity of their learning tasks. Specifically, by dynamically adjusting both local and global models, UniFed considers the varying task complexities of clients and the server, enhancing its adaptability to real-world scenarios, thereby mitigating issues related to overtraining and excessive communication. Furthermore, our framework incorporates a sequential model transfer mechanism that takes into account the diverse tasks among hospitals and a dynamic task-complexity based ordering. We demonstrate the superiority of our framework in terms of accuracy, communication cost, and convergence time over relevant benchmarks in diagnosing retina, histopathology, and liver tumour diseases under federated learning. Our UniFed code is available at https://github.com/basiralab/UniFed.
翻訳日:2024-08-19 17:39:31 公開日:2024-08-15
# コードによる計画: 堅牢なNLとDSL生成のアプローチの比較

Plan with Code: Comparing approaches for robust NL to DSL generation ( http://arxiv.org/abs/2408.08335v1 )

ライセンス: Link先を確認
Nastaran Bassamzadeh, Chhaya Methani, (参考訳) コードのプランニングは多くのオーケストレーションタスクにおいて、より信頼性の高いアプローチだと考えられている。 これは、コードが自然言語で生成されたステップよりも引きやすいので、決定論的論理を関数に抽象化することで、より複雑なシーケンスを簡単にサポートできるからです。 また、コード上で実行できるチェックを解析する助けを借りて、誤った関数名で問題を見つけることもできる。 しかし、コード生成方法論の進歩は、C、C++、Pythonのような汎用言語に限られている。 LLMは、ドメイン特化言語やDSLでカスタム関数名を使って、高い幻覚率と構文エラーをもたらす課題に直面し続けている。 これは、通常計画の一部であるカスタム関数名でより一般的である。 さらに、LLMを新しい関数名で最新に保つことも問題である。 これは、計画がカスタムAPI名を持つDSLとして表現されるため、多数のAPIに対するタスク計画のようなシナリオにとって、課題となる。 本稿では,タスクプランニングの特別事例として,RPA(Robotic Process Automation)領域におけるワークフローの自動化に焦点を当てる。 本稿では,LLMをDSL生成に用いる検索拡張生成(RAG)の最適化と,これらの戦略を微調整モデルと比較するアブレーション研究について述べる。 その結果, コード類似度測定では, 微調整モデルが最も優れていた。 しかしながら、最適化によって、RAGアプローチは、テストセット内のドメイン内のAPI名の品質と一致することができます。 さらに、ドメイン外または目に見えないAPI名には大きな利点があり、類似度測定でFun-Tunedモデルよりも7 ptの性能がある。

Planning in code is considered a more reliable approach for many orchestration tasks. This is because code is more tractable than steps generated via Natural Language and make it easy to support more complex sequences by abstracting deterministic logic into functions. It also allows spotting issues with incorrect function names with the help of parsing checks that can be run on code. Progress in Code Generation methodologies, however, remains limited to general-purpose languages like C, C++, and Python. LLMs continue to face challenges with custom function names in Domain Specific Languages or DSLs, leading to higher hallucination rates and syntax errors. This is more common for custom function names, that are typically part of the plan. Moreover, keeping LLMs up-to-date with newer function names is an issue. This poses a challenge for scenarios like task planning over a large number of APIs, since the plan is represented as a DSL having custom API names. In this paper, we focus on workflow automation in RPA (Robotic Process Automation) domain as a special case of task planning. We present optimizations for using Retrieval Augmented Generation (or RAG) with LLMs for DSL generation along with an ablation study comparing these strategies with a fine-tuned model. Our results showed that the fine-tuned model scored the best on code similarity metric. However, with our optimizations, RAG approach is able to match the quality for in-domain API names in the test set. Additionally, it offers significant advantage for out-of-domain or unseen API names, outperforming Fine-Tuned model on similarity metric by 7 pts.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 機械学習のための3次元データのグラフ表現

Graph representations of 3D data for machine learning ( http://arxiv.org/abs/2408.08336v1 )

ライセンス: Link先を確認
Tomasz Prytuła, (参考訳) 本稿では,グラフやメッシュなどの3次元データを表現する組み合わせ手法の概要を,機械学習アルゴリズムを用いた解析の可愛さの観点から述べる。 我々は様々な表現の長所と短所を強調し、表現間の生成/スイッチングの方法について議論する。 最終的に、生命科学と産業に2つの具体的な応用を提示する。 理論的な性質にもかかわらず、私たちの議論は一般的に、現実世界の課題に偏っている。

We give an overview of combinatorial methods to represent 3D data, such as graphs and meshes, from the viewpoint of their amenability to analysis using machine learning algorithms. We highlight pros and cons of various representations and we discuss some methods of generating/switching between the representations. We finally present two concrete applications in life science and industry. Despite its theoretical nature, our discussion is in general motivated by, and biased towards real-world challenges.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 2パスフォワード伝搬による大規模光ニューラルネットワークの訓練

Training Large-Scale Optical Neural Networks with Two-Pass Forward Propagation ( http://arxiv.org/abs/2408.08337v1 )

ライセンス: Link先を確認
Amirreza Ahmadnejad, Somayyeh Koohi, (参考訳) 本稿では、トレーニング効率、非線形関数の実装、大規模入力データ処理に関連する光学ニューラルネットワーク(ONN)の限界について述べる。 ランダムノイズによる誤差の変調と再入出力により,特定の非線形アクティベーション関数を回避する新しいトレーニング手法であるTwo-Pass Forward Propagationを導入する。 さらに,統合光学系における単純なニューラルネットワークを用いた畳み込みニューラルネットワークの新たな実装法を提案する。 理論的基礎と数値的な結果から、訓練速度、エネルギー効率、スケーラビリティが大幅に向上し、複雑なデータタスクに対する光コンピューティングの可能性が向上した。

This paper addresses the limitations in Optical Neural Networks (ONNs) related to training efficiency, nonlinear function implementation, and large input data processing. We introduce Two-Pass Forward Propagation, a novel training method that avoids specific nonlinear activation functions by modulating and re-entering error with random noise. Additionally, we propose a new way to implement convolutional neural networks using simple neural networks in integrated optical systems. Theoretical foundations and numerical results demonstrate significant improvements in training speed, energy efficiency, and scalability, advancing the potential of optical computing for complex data tasks.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 活性化空間選択型コルモゴロフ・アルノルドネットワーク

Activation Space Selectable Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2408.08338v1 )

ライセンス: Link先を確認
Zhuoqin Yang, Jiansong Zhang, Xiaoling Luo, Zheng Lu, Linlin Shen, (参考訳) 現在の人工知能の基本パラダイムである多層パーセプトロン(MLP)は、コンピュータビジョンや自然言語処理などの分野に広く応用されている。 しかし、最近提案された非線形加法接続に基づくコルモゴロフ・アルノルドネットワーク(KAN)は、パラメータが大幅に少ないMPPに匹敵する性能を実現することが証明されている。 このような可能性にもかかわらず、単一のアクティベーション関数空間を使用すると、kanの性能が低下し、関連するタスクが異なる。 この問題に対処するため、活性化空間 Selectable Kan (S-KAN) を提案する。 S-KANは、各フィードフォワードkanノードにおけるデータのアクティベーションモードを選択するための適応戦略を採用している。 提案手法は、7つの代表関数適合タスクにおいてベースライン法より優れており、パラメータのレベルが同じMPP法を大幅に上回っている。 さらに,S-KANの構造を拡張し,S-ConvKAN(Convolutional Kan)を選択可能なアクティベーション空間を提案する。 提案手法は,異なるタスクにまたがる元のkanの性能変動を軽減し,選択可能なアクティベーションを持つkanをフィードフォワードすることで,MLPベースの手法の性能を達成または超過できることを示す。 この研究は、新しいAIパラダイムのデータ中心設計の理解に寄与し、kanベースのネットワークアーキテクチャにおけるイノベーションの基礎となる参照を提供する。

The multilayer perceptron (MLP), a fundamental paradigm in current artificial intelligence, is widely applied in fields such as computer vision and natural language processing. However, the recently proposed Kolmogorov-Arnold Network (KAN), based on nonlinear additive connections, has been proven to achieve performance comparable to MLPs with significantly fewer parameters. Despite this potential, the use of a single activation function space results in reduced performance of KAN and related works across different tasks. To address this issue, we propose an activation space Selectable KAN (S-KAN). S-KAN employs an adaptive strategy to choose the possible activation mode for data at each feedforward KAN node. Our approach outperforms baseline methods in seven representative function fitting tasks and significantly surpasses MLP methods with the same level of parameters. Furthermore, we extend the structure of S-KAN and propose an activation space selectable Convolutional KAN (S-ConvKAN), which achieves leading results on four general image classification datasets. Our method mitigates the performance variability of the original KAN across different tasks and demonstrates through extensive experiments that feedforward KANs with selectable activations can achieve or even exceed the performance of MLP-based methods. This work contributes to the understanding of the data-centric design of new AI paradigms and provides a foundational reference for innovations in KAN-based network architectures.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# METR: 多数のユニークなメッセージによる画像透かし

METR: Image Watermarking with Large Number of Unique Messages ( http://arxiv.org/abs/2408.08340v1 )

ライセンス: Link先を確認
Alexander Varlamov, Daria Diatlova, Egor Spirin, (参考訳) 拡散モデルの改善により、画像生成の品質が向上し、研究者、企業、クリエーターがウォーターマーキングアルゴリズムの改善に集中するようになった。 この規定により、生成芸術の創造者を明確に特定することが可能となる。 現代の透かしアルゴリズムが直面する主な課題は、攻撃に耐え、ユーザーIDなどの多くのユニークなメッセージを暗号化する能力に関係している。 本稿では,これらの課題に対処するためのアプローチであるMETR: Message Enhanced Tree-Ringを提案する。 METRは、攻撃のレジリエンスや画質を損なうことなく、複数の異なるメッセージのエンコードを可能にする、Tree-Ringウォーターマーキングアルゴリズムに基づいて構築されている。 これにより、任意の拡散モデルに対するこの透かしアルゴリズムの適合性が保証される。 符号化されたメッセージの量を制限するために,METR++を提案する。 このアプローチは、ラテント拡散モデルアーキテクチャに限定されるが、事実上無制限のユニークなメッセージを注入するように設計されている。 画像品質を保ちながら、多くのユニークなメッセージを暗号化できる攻撃に対するロバストさを示し、METRとMETR++は現実の環境での実践的応用に大きな可能性を秘めている。 私たちのコードはhttps://github.com/deepvk/metrで利用可能です。

Improvements in diffusion models have boosted the quality of image generation, which has led researchers, companies, and creators to focus on improving watermarking algorithms. This provision would make it possible to clearly identify the creators of generative art. The main challenges that modern watermarking algorithms face have to do with their ability to withstand attacks and encrypt many unique messages, such as user IDs. In this paper, we present METR: Message Enhanced Tree-Ring, which is an approach that aims to address these challenges. METR is built on the Tree-Ring watermarking algorithm, a technique that makes it possible to encode multiple distinct messages without compromising attack resilience or image quality. This ensures the suitability of this watermarking algorithm for any Diffusion Model. In order to surpass the limitations on the quantity of encoded messages, we propose METR++, an enhanced version of METR. This approach, while limited to the Latent Diffusion Model architecture, is designed to inject a virtually unlimited number of unique messages. We demonstrate its robustness to attacks and ability to encrypt many unique messages while preserving image quality, which makes METR and METR++ hold great potential for practical applications in real-world settings. Our code is available at https://github.com/deepvk/metr
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# タンパク質言語モデルを用いたペプチドアナログ生成のための潜在空間探索

Exploring Latent Space for Generating Peptide Analogs Using Protein Language Models ( http://arxiv.org/abs/2408.08341v1 )

ライセンス: Link先を確認
Po-Yu Liang, Xueting Huang, Tibo Duran, Andrew J. Wiemer, Jun Bai, (参考訳) 望ましい性質を持つペプチドの生成は、医薬品の発見とバイオテクノロジーにとって不可欠である。 伝統的なシーケンスベースおよび構造ベースの手法は、しばしば広範囲なデータセットを必要とするため、その有効性は制限される。 本研究では, 自己エンコーダ型モデルを用いてタンパク質の埋め込み空間を探索し, タンパク質言語モデルを利用して新規ペプチドアナログを生成する手法を提案する。 提案手法は,大規模データセットの必要を回避し,関心の連続を1つだけ要求する。 ペプチド構造, 転写因子, 生体活性の類似度指標では, ベースラインモデルよりも有意に改善した。 提案法は, TIGIT阻害剤の分子動力学シミュレーションにより, 同様の性質のペプチドアナログが生成され, ペプチドスクリーニングプロセスが促進される可能性が示された。

Generating peptides with desired properties is crucial for drug discovery and biotechnology. Traditional sequence-based and structure-based methods often require extensive datasets, which limits their effectiveness. In this study, we proposed a novel method that utilized autoencoder shaped models to explore the protein embedding space, and generate novel peptide analogs by leveraging protein language models. The proposed method requires only a single sequence of interest, avoiding the need for large datasets. Our results show significant improvements over baseline models in similarity indicators of peptide structures, descriptors and bioactivities. The proposed method validated through Molecular Dynamics simulations on TIGIT inhibitors, demonstrates that our method produces peptide analogs with similar yet distinct properties, highlighting its potential to enhance peptide screening processes.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# CT4D: アニマタブルメッシュによるテキスト対4D生成

CT4D: Consistent Text-to-4D Generation with Animatable Meshes ( http://arxiv.org/abs/2408.08342v1 )

ライセンス: Link先を確認
Ce Chen, Shaoli Huang, Xuelin Chen, Guangyi Chen, Xiaoguang Han, Kun Zhang, Mingming Gong, (参考訳) 近年,2次元画像拡散モデルとビデオ拡散モデルを統合することで,テキストから4Dへの変換が可能であることが実証されている。 しかし、既存のモデルは時間の経過とともに不整合運動や幾何学的構造を伴う結果を生み出す傾向にある。 この目的のために,任意のユーザからのプロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。 メッシュベースのフレームワークの主な課題は、テキストプロンプトと一致し、直接駆動し、表面の連続性を維持する詳細なメッシュを安定して生成することです。 我々のCT4Dフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。 表面の連続性を改善するため、メッシュをいくつかの小さな領域に分割し、各領域内で一様駆動機能を実装する。 さらに,アニメーションの段階を剛性規制で制約し,領域間の連続性を確保する。 定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。 さらに、この拡張された表現は本質的に4D生成とテクスチャ編集の能力を持っていることを示す。

Text-to-4D generation has recently been demonstrated viable by integrating a 2D image diffusion model with a video diffusion model. However, existing models tend to produce results with inconsistent motions and geometric structures over time. To this end, we present a novel framework, coined CT4D, which directly operates on animatable meshes for generating consistent 4D content from arbitrary user-supplied prompts. The primary challenges of our mesh-based framework involve stably generating a mesh with details that align with the text prompt while directly driving it and maintaining surface continuity. Our CT4D framework incorporates a unique Generate-Refine-Animate (GRA) algorithm to enhance the creation of text-aligned meshes. To improve surface continuity, we divide a mesh into several smaller regions and implement a uniform driving function within each area. Additionally, we constrain the animating stage with a rigidity regulation to ensure cross-region continuity. Our experimental results, both qualitative and quantitative, demonstrate that our CT4D framework surpasses existing text-to-4D techniques in maintaining interframe consistency and preserving global geometry. Furthermore, we showcase that this enhanced representation inherently possesses the capability for combinational 4D generation and texture editing.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 大規模コードモデルのためのAPI誘導型データセット合成

API-guided Dataset Synthesis to Finetune Large Code Models ( http://arxiv.org/abs/2408.08343v1 )

ライセンス: Link先を確認
Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su, (参考訳) 大規模なコードモデル(LCM)は、大量のコードコーパスで事前訓練され、幅広いコード関連タスクで顕著なパフォーマンスを示している。 監視された微調整(SFT)は、これらのモデルを特定の要求と整合させ、特定の領域におけるそれらのパフォーマンスを高める上で重要な役割を担います。 しかし、高品質なSFTデータセットを合成することは、データセットの不均一な品質とドメイン固有のデータセットの不足のために大きな課題となる。 簡潔な構造でリッチなセマンティック情報をカプセル化するコードの高レベルの抽象化としてAPIに触発され,汎用シナリオとドメイン固有のシナリオの両方において,LCMのSFTプロセスを強化するように設計されたAPI誘導データセット合成フレームワークであるDataScopeを提案する。 DataScopeはDselとDgenの2つの主要コンポーネントで構成されている。 一方、DselはAPIカバレッジをコアメトリックとして採用し、既存の(不均一な)データセットのサブセットを高いAPIカバレッジで選択することで、一般的なシナリオでの効率的なデータセット合成を可能にする。 一方Dgenは、API仕様の高レベル機能と意図的に構成されたコードスケルトンを使用して具体的なコードを合成するプロセスとして、ドメインデータセットの合成を再キャストする。 大規模な実験では、DataScopeの有効性が実証され、合成データセットに微調整されたモデルは、最適化されていないデータセットで5倍の精度でチューニングされた。 さらに、モデル内部、関連するハイパーパラメータ、ケーススタディに関する一連の分析により、提案手法の有効性に関するさらなる証拠が得られた。 これらの知見は、高品質なデータセットを構築するための効率的で費用対効果の高いフレームワークを提供することにより、SFTにおけるデータセットの品質の重要性とLCMの分野を前進させるものである。 このコントリビューションにより、汎用シナリオとドメイン固有のシナリオの両方のパフォーマンスが向上し、より強力でカスタマイズされたLCMへの道が開かれた。

Large code models (LCMs), pre-trained on vast code corpora, have demonstrated remarkable performance across a wide array of code-related tasks. Supervised fine-tuning (SFT) plays a vital role in aligning these models with specific requirements and enhancing their performance in particular domains. However, synthesizing high-quality SFT datasets poses a significant challenge due to the uneven quality of datasets and the scarcity of domain-specific datasets. Inspired by APIs as high-level abstractions of code that encapsulate rich semantic information in a concise structure, we propose DataScope, an API-guided dataset synthesis framework designed to enhance the SFT process for LCMs in both general and domain-specific scenarios. DataScope comprises two main components: Dsel and Dgen. On one hand, Dsel employs API coverage as a core metric, enabling efficient dataset synthesis in general scenarios by selecting subsets of existing (uneven-quality) datasets with higher API coverage. On the other hand, Dgen recasts domain dataset synthesis as a process of using API-specified high-level functionality and deliberately-constituted code skeletons to synthesize concrete code. Extensive experiments demonstrate DataScope's effectiveness, with models fine-tuned on its synthesized datasets outperforming those tuned on unoptimized datasets five times larger. Furthermore, a series of analyses on model internals, relevant hyperparameters, and case studies provide additional evidence for the efficacy of our proposed methods. These findings underscore the significance of dataset quality in SFT and advance the field of LCMs by providing an efficient, cost-effective framework for constructing high-quality datasets. This contribution enhances performance across both general and domain-specific scenarios, paving the way for more powerful and tailored LCMs.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 5%>100%:視覚認知課題におけるフルファインチューニングのパフォーマンスの欠如

5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks ( http://arxiv.org/abs/2408.08345v1 )

ライセンス: Link先を確認
Dongshuo Yin, Leiyi Hu, Bin Li, Youqun Zhang, Xue Yang, (参考訳) 事前トレーニングと微調整は、視覚タスクの転送効率と性能を高めることができる。 最近のデルタチューニング手法は、視覚的分類タスクにより多くの選択肢を提供する。 彼らの成功にもかかわらず、既存の視覚デルタ調整技術は、オブジェクト検出やセグメンテーションといった困難なタスクに対する完全な微調整の上限を超えることができません。 そこで本研究では,マルチ認知型ビジュアルアダプタ(Mona)チューニング方式を提案する。 まず,複数の視覚に優しいフィルタを導入し,視覚信号の処理能力を高め,従来の手法は言語に優しい線形フィルタに大きく依存していた。 次に,適応器に拡張正規化層を追加し,視覚フィルタの入力特徴の分布を調節する。 モナの実用性と汎用性を実証するため,COCOのインスタンスセグメンテーション,ADE20Kのセマンティックセグメンテーション,Pascal VOCのオブジェクト検出,DOTA/STARのオブジェクト指向オブジェクト検出,3つの共通データセットのイメージ分類など,複数の視覚的タスクについて実験を行った。 興奮的な結果は、モナがこれら全てのタスクで完全な微調整を超越していることを示し、上記の様々なタスクで完全な微調整を行う唯一のデルタ微調整法である。 例えば、完全な微調整に比べて、MonaはCOCOデータセットで1%のパフォーマンス向上を達成した。 総合的な結果は、モナチューニングは完全な微調整よりも事前訓練されたモデルの能力を維持・活用するのに適していることを示唆している。 コードを公開します。

Pre-training & fine-tuning can enhance the transferring efficiency and performance in visual tasks. Recent delta-tuning methods provide more options for visual classification tasks. Despite their success, existing visual delta-tuning art fails to exceed the upper limit of full fine-tuning on challenging tasks like object detection and segmentation. To find a competitive alternative to full fine-tuning, we propose the Multi-cognitive Visual Adapter (Mona) tuning, a novel adapter-based tuning method. First, we introduce multiple vision-friendly filters into the adapter to enhance its ability to process visual signals, while previous methods mainly rely on language-friendly linear filters. Second, we add the scaled normalization layer in the adapter to regulate the distribution of input features for visual filters. To fully demonstrate the practicality and generality of Mona, we conduct experiments on multiple representative visual tasks, including instance segmentation on COCO, semantic segmentation on ADE20K, object detection on Pascal VOC, oriented object detection on DOTA/STAR, and image classification on three common datasets. Exciting results illustrate that Mona surpasses full fine-tuning on all these tasks, and is the only delta-tuning method outperforming full fine-tuning on the above various tasks. For example, Mona achieves 1% performance gain on the COCO dataset compared to full fine-tuning. Comprehensive results suggest that Mona-tuning is more suitable for retaining and utilizing the capabilities of pre-trained models than full fine-tuning. We will make the code publicly available.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 自然は有限個の測定値を持つ因果理論では説明できない

Nature cannot be described by any causal theory with a finite number of measurements ( http://arxiv.org/abs/2408.08347v1 )

ライセンス: Link先を確認
Lucas Tendick, (参考訳) 任意の$n \geq 2$に対して、任意の因果理論において$n-1$測定では再現できない二部形式ベルシナリオにおいて$n$二コトミック量子測定を行うことから得られる量子相関が存在することを示す。 つまり、量子論の予測を再現するためには、いかなる符号理論にも無界な数の測度を必要とする。 我々は、n-1$の測度しか持たない符号なし理論に従わなければならないベルの不等式の存在を示し、量子論においてこれらの不等式がどのように破られるかを明確に示して、その結果を証明した。 最後に、量子論の代替をある種の有界な自由度で決定する以前の研究との関係について論じ、その結果の実験的妥当性について考察する。

We show, for any $n \geq 2$, that there exists quantum correlations obtained from performing $n$ dichotomic quantum measurements in a bipartite Bell scenario, which cannot be reproduced by $n-1$ measurements in any causal theory. That is, it requires any no-signaling theory an unbounded number of measurements to reproduce the predictions of quantum theory. We prove our results by showing that there exists Bell inequalities that have to be obeyed by any no-signaling theory involving only $n-1$ measurements and show explicitly how these can be violated in quantum theory. Finally, we discuss the relation of our work to previous works ruling out alternatives to quantum theory with some kind of bounded degree of freedom and consider the experimental verifiability of our results.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# GraphQLの採用と課題: StackOverflowのコミュニティ主導による議論

GraphQL Adoption and Challenges: Community-Driven Insights from StackOverflow Discussions ( http://arxiv.org/abs/2408.08363v1 )

ライセンス: Link先を確認
Saleh Amareen, Obed Soto Dector, Ali Dado, Amiangshu Bosu, (参考訳) GraphQLは、クライアントサーバアーキテクチャのためのクエリ言語およびWebアプリケーションプログラミングインターフェース(API)である。 そのアドバンテージはタイプセーフなクエリで、単一のリクエストでクライアントが要求するデータを正確に取り出すことができる。 API実装にGraphQLを採用する組織は、その課題とソフトウェアコミュニティの関心を理解することが不可欠である。 この目標を達成するために、GraphQL上で45K StackOverflowの質問と回答の5段階の混合実験分析を行った。 最初のステップでは、5つの重要なレイヤを持つGraphQLエコシステムのリファレンスアーキテクチャを導出します。 次に、LDA(Latent Dirichlet Allocation)に基づくトピックモデリングを用いて、14のトピックと47のサブトピックを自動的に識別した。 第3に、議論トピックをアーキテクチャレイヤにマップしました。 第4に、各トピックやトピックに関する質問を手動で調査して、GraphQLのステークホルダにさらなる洞察を与えます。 最後に、トピックの難易度、人気度、トレンド、トレードオフを調査し、コミュニティの関心や課題の進化に関する洞察を提供する。 我々の結果は、クライアントとサーバがSOに関する議論を惹きつける2つのアーキテクチャレイヤであることを示している。 SOに関する以前の議論は、大企業がリリースしたGraphQL API(すなわちAPI統合)を使用するサードパーティアプリケーションの構築に重点を置いていたが、最近のトレンドは、より多くの組織がGraphQLサーバを使用してAPIを実装することを示唆している。 厳密な解決の難しさと欠如により、セキュリティは依然として困難で低関心の領域である。 しかし、このようなプラクティスは、脆弱なAPIにつながる可能性がある。

GraphQL is a query language and web application programming interface (API) for client-server architecture. Its advantages include type-safe queries, which allow clients to retrieve the data they require precisely in a single request. As organizations adopt GraphQL for API implementations, it is imperative to understand its challenges and the software community's interests. To achieve this goal, we conducted a five-step mixed-method empirical analysis of 45K StackOverflow questions and answers on GraphQL. In the first step, we derive a reference architecture for the GraphQL ecosystem with five key layers. Second, we used topic modeling based on Latent Dirichlet Allocation (LDA) to automatically identify 14 topics and 47 subtopics. Third, we mapped discussion topics to architecture layers. Fourth, we manually investigate questions on each topic and subtopics to provide additional insight to the GraphQL stakeholders. Finally, we study topic difficulty, popularity, trends, and tradeoffs to provide insights into evolving community interests and challenges. Our results indicate that Client and Server are the top two architectural layers attracting discussion on SO. While earlier discussions on SO focused on building third-party applications consuming GraphQL APIs (i.e., API Integration) released by large organizations, recent trends suggest more organizations implementing APIs using GraphQL servers. Due to difficulty and lack of well-defined solutions, security remains a difficult and low-interest area. However, such a practice can lead to vulnerable APIs.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# Coqa: QAOAの高速コンパイラ最適化

Coqa: Blazing Fast Compiler Optimizations for QAOA ( http://arxiv.org/abs/2408.08365v1 )

ライセンス: Link先を確認
Yuchen Zhu, Yidong Zhou, Jinglei Cheng, Yuwei Jin, Boxi Li, Siyuan Niu, Zhiding Liang, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm、QAOA)は、古典的コンピュータよりも量子上の優位性を達成するための最も有望な候補の1つである。 しかし、既存のコンパイラにはQAOA回路を最適化する特別な方法がない。 QAOA回路には回路パターンがあり、現在の量子ハードウェアには特定の量子ビット接続トポロジーがある。 そこで我々は,異なる種類の量子ハードウェアに適したQAOA回路のコンパイルを最適化するために,Coqaを提案する。 本手法は,線形近接近傍(LNN)トポロジとQAOA回路のパターンをLNNトポロジに効率的にマッピングし,問題ハミルトニアンの重みに基づく相互作用のヒューリスティックな検証を行う。 このアプローチにより、コンパイル中のSWAPゲートの数を削減し、量子計算の回路深さと全体的な忠実度に直接影響する。 提案手法は,QAOA回路の固有パターンを活用することにより,汎用コンパイラよりも効率的なコンパイルを実現する。 提案手法により,平均ゲート数を30%削減し,ベンチマーク全体のコンパイル時間で39倍の高速化を実現することができる。

The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising candidates for achieving quantum advantage over classical computers. However, existing compilers lack specialized methods for optimizing QAOA circuits. There are circuit patterns inside the QAOA circuits, and current quantum hardware has specific qubit connectivity topologies. Therefore, we propose Coqa to optimize QAOA circuit compilation tailored to different types of quantum hardware. Our method integrates a linear nearest-neighbor (LNN) topology and efficiently map the patterns of QAOA circuits to the LNN topology by heuristically checking the interaction based on the weight of problem Hamiltonian. This approach allows us to reduce the number of SWAP gates during compilation, which directly impacts the circuit depth and overall fidelity of the quantum computation. By leveraging the inherent patterns in QAOA circuits, our approach achieves more efficient compilation compared to general-purpose compilers. With our proposed method, we are able to achieve an average of 30% reduction in gate count and a 39x acceleration in compilation time across our benchmarks.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# ペトリネットを用いた量子バッファ設計

Quantum Buffer Design Using Petri Nets ( http://arxiv.org/abs/2408.08369v1 )

ライセンス: Link先を確認
Syed Asad Shah, A. Yavuz Oruç, (参考訳) 本稿では,量子ペトリネット(QPN)モデルを導入し,従来のSISO,SIMO,MIISO,MIMO,優先度バッファを量子バッファに一般化する。 これはプリミティブストレージ要素、すなわち量子CNOTとSWAPゲートを使った量子S-Rフリップフロップ設計を提供し、任意の量子ビットの量子レジスタを得るために複製することができる。 上記の量子バッファは、単純化されたQPNモデルと量子レジスタを用いて得られる。 $! あー! The quantum S-R flip-flop and quantum buffer design were tested using OpenQASM and Qiskit on IBM quantum computer and simulators and the results confirmed the quantum S-R flip-flop and buffer design。

This paper introduces a simplified quantum Petri net (QPN) model and uses this model to generalize classical SISO, SIMO, MISO, MIMO and priority buffers to their quantum counterparts. It provides a primitive storage element, namely a quantum S-R flip-flop design using quantum CNOT and SWAP gates that can be replicated to obtain a quantum register for any given number of qubits. The aforementioned quantum buffers are then obtained using the simplified QPN model and quantum registers. $\!\!$The quantum S-R flip-flop and quantum buffer designs have been tested using OpenQASM and Qiskit on IBM quantum computers and simulators and the results validate the presented quantum S-R flip-flop and buffer designs.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# テキスト分類ロバスト性の評価

Evaluating Text Classification Robustness to Part-of-Speech Adversarial Examples ( http://arxiv.org/abs/2408.08374v1 )

ライセンス: Link先を確認
Anahita Samadi, Allison Sullivan, (参考訳) 機械学習システムが、特に安全クリティカルなアプリケーションに広く使われるようになるにつれて、敵対的な例に直面したとしても、これらのシステムが意図したように振る舞うことを保証する必要性が高まっている。 逆の例は意思決定プロセスを騙すために設計された入力であり、人間には理解できないことを意図している。 しかし、テキストベースの分類システムでは、入力の変更、一行のテキストは常に認識可能である。 したがって、テキストベースの敵の例は、セマンティクスの保存に重点を置いている。 残念ながら、最近の研究は、この目標が満たされていないことをしばしば示している。 テキストベースの逆数例の質を向上させるためには、入力テキストのどの要素に注目する価値があるかを知る必要がある。 そこで本論文では,テキストベースの分類器が音声のどの部分が最も与える影響について検討する。 実験では、レビューデータセット内の音声トークンの特定の部分に対するCNNアルゴリズムの偏りを強調した。 この発見は、CNNの言語処理能力の重大な脆弱性を浮き彫りにする。

As machine learning systems become more widely used, especially for safety critical applications, there is a growing need to ensure that these systems behave as intended, even in the face of adversarial examples. Adversarial examples are inputs that are designed to trick the decision making process, and are intended to be imperceptible to humans. However, for text-based classification systems, changes to the input, a string of text, are always perceptible. Therefore, text-based adversarial examples instead focus on trying to preserve semantics. Unfortunately, recent work has shown this goal is often not met. To improve the quality of text-based adversarial examples, we need to know what elements of the input text are worth focusing on. To address this, in this paper, we explore what parts of speech have the highest impact of text-based classifiers. Our experiments highlight a distinct bias in CNN algorithms against certain parts of speech tokens within review datasets. This finding underscores a critical vulnerability in the linguistic processing capabilities of CNNs.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# プラズマ中の絡み合った光子対と量子スクリュッド状態の生成

Producing entangled photon pairs and quantum squeezed states in plasmas ( http://arxiv.org/abs/2408.08375v1 )

ライセンス: Link先を確認
Kenan Qu, Nathaniel J. Fisch, (参考訳) プラズマは相対論的4波混合非線形性により、2つのポンプ光子の2つの異なる光子への変換を仲介することができる。 自発的に生成した光子対はコリニアポンプ方向に対して対称角度で放出され、同じ周波数の場合には放出速度が最大になる。 したがって、2つの直交偏光ポンプは、ミリ長の均一プラズマを介して偏光に絡み合った光子対を生成することができる。 ラマン散乱によるノイズは、ポンプの脱調が2倍のプラズマ周波数と異なる場合を避けることができる。 一方、プラズマ周波数の2倍のポンプデチューニングは相互作用率を大幅に向上させ、2モード圧縮状態の生成を可能にする。 顕著なことに、ラマン散乱による増幅ノイズは相関しており、出力の2乗のうちの1つで抑制することができ、スキューズ等級を維持することができる。

Plasma is capable of mediating the conversion of two pump photons into two different photons through a relativistic four-wave mixing nonlinearity. Spontaneously created photon pairs are emitted at symmetric angles with respect to the colinear pump direction, and the emission rate is largest if they have identical frequency. Thus, two orthogonally polarized pumps can produce polarization-entangled photon pairs through a mm-long homogeneous plasma. The noise from Raman scattering can be avoided if the pump detuning differs from twice the plasma frequency. On the other hand, pump detuning exactly equal to twice the plasma frequency can significantly enhance the interaction rate, which allows for the production of two-mode squeezed states. Remarkably, the amplified noise from Raman scattering are correlated and hence can be suppressed in one of the output quadratures, thereby maintaining the squeezing magnitude.
翻訳日:2024-08-19 17:29:47 公開日:2024-08-15
# 生体物理モデルフリー深部MRIによるヒト脳組織の高周波励起応答のデコード

Decoding the human brain tissue response to radiofrequency excitation using a biophysical-model-free deep MRI on a chip framework ( http://arxiv.org/abs/2408.08376v1 )

ライセンス: Link先を確認
Dinor Nagar, Moritz Zaiss, Or Perlman, (参考訳) MRIはプロトンスピンの高周波励起に依存している。 臨床診断には、複数のMRIコントラストを介して生体データを包括的に照合する必要がある。 そこで我々は、時空間磁気信号の進化を捉え、RF励起による脳組織応答をデコードし、チップ上のMRIを構成する視覚トランスフォーマーベースのフレームワークを開発した。 物体ごとの急速校正スキャン(28.2秒)の後、完全に定量的な分子、水緩和、磁場マップを含む様々な画像コントラストを自動生成できる。 この手法は、健常者と2つの異なる画像部位のがん患者で検証され、代替プロトコルよりも94%高速であることが判明した。 チップ(DeepMonC)フレームワーク上のディープMRIは、ヒトの脳組織の分子組成を幅広い病理組織で明らかにし、臨床的に魅力的なスキャンタイムを提供する。

Magnetic resonance imaging (MRI) relies on radiofrequency (RF) excitation of proton spin. Clinical diagnosis requires a comprehensive collation of biophysical data via multiple MRI contrasts, acquired using a series of RF sequences that lead to lengthy examinations. Here, we developed a vision transformer-based framework that captures the spatiotemporal magnetic signal evolution and decodes the brain tissue response to RF excitation, constituting an MRI on a chip. Following a per-subject rapid calibration scan (28.2 s), a wide variety of image contrasts including fully quantitative molecular, water relaxation, and magnetic field maps can be generated automatically. The method was validated across healthy subjects and a cancer patient in two different imaging sites, and proved to be 94% faster than alternative protocols. The deep MRI on a chip (DeepMonC) framework may reveal the molecular composition of the human brain tissue in a wide range of pathologies, while offering clinically attractive scan times.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# リアルな合成ユーザ生成コンテンツを目指して--オンラインディスカッション生成のためのスキャッディングアプローチ

Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions ( http://arxiv.org/abs/2408.08379v1 )

ライセンス: Link先を確認
Krisztian Balog, John Palowitch, Barbara Ikica, Filip Radlinski, Hamidreza Alvari, Mehdi Manshadi, (参考訳) 合成データの出現は、現代の機械学習における重要なシフトであり、実際のデータが不足し、非常にプライベートで、入手が難しい領域において、大量のデータの必要性を満たすソリューションを提供する。 本稿では,ユーザ生成コンテンツの現実的かつ大規模な合成データセット作成の実現可能性について検討する。 大規模言語モデル (LLMs) は、オンラインインタラクションに代表される多様な応答を生成できるため、合成ソーシャルメディアの議論スレッドを生成するための出発点を提供する。 しかし、我々が示すように、LCMの直接的な適用は、オンライン議論の複雑な構造を捉えることに限られた成功をもたらし、標準のプロンプト機構は十分な制御を欠いている。 そこで本研究では,議論スレッドのコンパクトな表現をスキャフォールドと呼ぶアイデアに基づく多段階生成プロセスを提案する。 当社のフレームワークは汎用的で,特定のソーシャルメディアプラットフォームの特徴に適応しています。 2つの異なるオンラインディスカッションプラットフォームからのデータを用いて、その実現可能性を示す。 合成データの代表性と現実性を保証するための基本的な課題に対処するため,本フレームワークの様々なインスタンス化を比較するための評価尺度のポートフォリオを提案する。

The emergence of synthetic data represents a pivotal shift in modern machine learning, offering a solution to satisfy the need for large volumes of data in domains where real data is scarce, highly private, or difficult to obtain. We investigate the feasibility of creating realistic, large-scale synthetic datasets of user-generated content, noting that such content is increasingly prevalent and a source of frequently sought information. Large language models (LLMs) offer a starting point for generating synthetic social media discussion threads, due to their ability to produce diverse responses that typify online interactions. However, as we demonstrate, straightforward application of LLMs yields limited success in capturing the complex structure of online discussions, and standard prompting mechanisms lack sufficient control. We therefore propose a multi-step generation process, predicated on the idea of creating compact representations of discussion threads, referred to as scaffolds. Our framework is generic yet adaptable to the unique characteristics of specific social media platforms. We demonstrate its feasibility using data from two distinct online discussion platforms. To address the fundamental challenge of ensuring the representativeness and realism of synthetic data, we propose a portfolio of evaluation measures to compare various instantiations of our framework.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# プレプロセッシングと圧縮:内在次元を通した画像領域における隠れ表現再構成の理解

Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension ( http://arxiv.org/abs/2408.08381v1 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski, (参考訳) 近年,ニューラルネットワークの隠蔽表現の内在次元(ID)などの幾何学的特性が層を通してどのように進化するか,一般化能力などの重要なモデル行動を予測する方法が注目されている。 しかし、このような行動が自然画像や医用画像などのネットワークのトレーニングデータの領域によって大きく変化するという証拠が浮上し始めた。 ここでは,ネットワークの学習した表現のIDが階層を通してどのように進化するかを,本質的には,ネットワークが予測に使用する入力データの情報内容を連続的に洗練するかを特徴付けることによって,この調査をさらに進める。 6つのネットワークアーキテクチャにまたがる11の自然・医用画像データセットを分析し、このID進化曲線の形状は、自然・医用画像モデルで顕著に異なることを発見した。 さらに,このピーク表現IDと入力空間内のデータのIDとの強い相関関係を見出した。 全体として、本研究は、隠れ表現情報の内容に関する自然画像領域と非自然画像領域のネットワーク行動の顕著な相違を強調し、ネットワークの学習した特徴がトレーニングデータによってどのように形成されるかについて、さらなる知見を提供する。

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network's hidden representations evolve through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network's training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network's learned representations evolves through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that the shape of this ID evolution curve differs noticeably between natural and medical image models: medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model's learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network's learned features are shaped by its training data.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 時間依存発電機を用いた量子ダイナミクスのためのKrylov部分空間法

Krylov Subspace Methods for Quantum Dynamics with Time-Dependent Generators ( http://arxiv.org/abs/2408.08383v1 )

ライセンス: Link先を確認
Kazutaka Takahashi, Adolfo del Campo, (参考訳) 量子力学におけるクリロフ部分空間法は、プロセスが展開する最小部分空間を特定する。 現在まで、それらの使用は時間に依存しない発電機によって支配される時間進化に限られている。 時間依存ハミルトニアンによって支配される駆動量子系に有効な一般化を導入し、不均一かつ時間依存の最も近いホッピング確率を持つ1次元格子における拡散問題に進化をマッピングする。 この表現は、進化と作用素の成長の量子速度に対する新しい基本的な制限のクラスを確立するために用いられる。 また、離散化された時間進化や周期的ハミルトニアンに適応したアルゴリズムの一般化や、多体システムへの応用についても論じる。

Krylov subspace methods in quantum dynamics identify the minimal subspace in which a process unfolds. To date, their use is restricted to time evolutions governed by time-independent generators. We introduce a generalization valid for driven quantum systems governed by a time-dependent Hamiltonian that maps the evolution to a diffusion problem in a one-dimensional lattice with nearest-neighbor hopping probabilities that are inhomogeneous and time-dependent. This representation is used to establish a novel class of fundamental limits to the quantum speed of evolution and operator growth. We also discuss generalizations of the algorithm, adapted to discretized time evolutions and periodic Hamiltonians, with applications to many-body systems.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 有限密度カシミール効果のリフシッツ公式

Lifshitz formulas for finite-density Casimir effect ( http://arxiv.org/abs/2408.08384v1 )

ライセンス: Link先を確認
Daisuke Fujii, Katsumasa Nakayama, Kei Suzuki, (参考訳) リフシッツの公式は、有限温度でのカシミール効果を研究する理論的アプローチとしてよく知られている。 このレターでは、リフシッツの公式を有限化学ポテンシャルの場の量子場に由来するカシミール効果に一般化する。 この公式の汎用性を示すために, いくつかの境界条件, 有限温度, 任意の空間次元, ミスマッチした化学ポテンシャルなど, 種々の系における有限化学ポテンシャルにおけるカシミール効果の典型的な現象について論じる。 この式は、高密度クォーク物質とディラック/ワイル半金属のカシミール効果に適用でき、化学ポテンシャルをカシミール効果を制御するパラメータと見なすことができる。

The Lifshitz formula is well known as a theoretical approach to investigate the Casimir effect at finite temperature. In this Letter, we generalize the Lifshitz formula to the Casimir effect originating from quantum fields at finite chemical potential. To demonstrate the versatility of this formula, we discuss the typical phenomena of the Casimir effect at finite chemical potential in various systems, such as some boundary conditions, finite temperatures, arbitrary spatial dimensions, and mismatched chemical potentials. This formula can be applied to the Casimir effect in dense quark matter and Dirac/Weyl semimetals, where the chemical potential is regarded as a parameter to control the Casimir effect.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 説明可能な特徴を用いたスペクトル領域における高次元時系列の分類

Classification of High-dimensional Time Series in Spectral Domain using Explainable Features ( http://arxiv.org/abs/2408.08388v1 )

ライセンス: Link先を確認
Sarbojit Roy, Malik Shahid Sultan, Hernando Ombao, (参考訳) 時系列の解釈可能な分類は、高次元において重要な課題を示す。 周波数領域における伝統的な特徴選択法は、しばしばスペクトル密度行列(SDM)またはそれらの逆数においてスパーシティを仮定する。 本稿では,高次元定常時系列を逆SDMの差分を仮定して,モデルベースで分類する手法を提案する。 我々のアプローチはモデルパラメータの解釈可能性を強調しており、様々な状態における脳ネットワーク接続性の違いを理解することが不可欠である神経科学のような分野に特に適している。 モデルパラメータの推定子は、適切な条件下での一貫性を示す。 さらに,パラメータ推定に標準ディープラーニングオプティマイザを用い,ミニバッチや学習率スケジューリングといった手法を採用することを提案する。 さらに,分類において最も識別頻度の高い検定手法を導入し,一般的な条件下での検定特性を示す。 提案したモデルの柔軟性により、共変量の重要性は周波数によって変化し、微妙な推論と根底にある問題に対する深い洞察を可能にする。 我々の手法の新規性は、モデルパラメータの解釈可能性にあり、神経科学における重要なニーズに対処する。 提案手法はシミュレーション例と 'Alert-vs-Drowsy' EEG データセットに基づいて評価されている。

Interpretable classification of time series presents significant challenges in high dimensions. Traditional feature selection methods in the frequency domain often assume sparsity in spectral density matrices (SDMs) or their inverses, which can be restrictive for real-world applications. In this article, we propose a model-based approach for classifying high-dimensional stationary time series by assuming sparsity in the difference between inverse SDMs. Our approach emphasizes the interpretability of model parameters, making it especially suitable for fields like neuroscience, where understanding differences in brain network connectivity across various states is crucial. The estimators for model parameters demonstrate consistency under appropriate conditions. We further propose using standard deep learning optimizers for parameter estimation, employing techniques such as mini-batching and learning rate scheduling. Additionally, we introduce a method to screen the most discriminatory frequencies for classification, which exhibits the sure screening property under general conditions. The flexibility of the proposed model allows the significance of covariates to vary across frequencies, enabling nuanced inferences and deeper insights into the underlying problem. The novelty of our method lies in the interpretability of the model parameters, addressing critical needs in neuroscience. The proposed approaches have been evaluated on simulated examples and the `Alert-vs-Drowsy' EEG dataset.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# レーザー誘起クーロン爆発イメージングによる三次元分子構造の分化

Differentiating Three-Dimensional Molecular Structures using Laser-induced Coulomb Explosion Imaging ( http://arxiv.org/abs/2408.08389v1 )

ライセンス: Link先を確認
Huynh Van Sa Lam, Anbu Selvam Venkatachalam, Surjendu Bhattacharyya, Keyu Chen, Kurtis Borne, Enliang Wang, Rebecca Boll, Till Jahnke, Vinod Kumarappan, Artem Rudenko, Daniel Rolles, (参考訳) X線自由電子レーザーによるクーロン爆発イメージング(CEI)は、近年ガス相平面リング分子(R. Boll et al Nat. Phys. 18, 423-428 (2022))の詳細な構造情報を得るための強力な方法であることが示されている。 本稿では,テーブルトップレーザーによるCEIのポテンシャルについて検討し,このアプローチを三次元3次元構造を微分するために拡張する。 開環反応で形成される典型的な生成物の構造に類似した平面および非平面有機分子の静的CEIパターンについて検討した。 以上の結果から, 各分子は3次元フラグメントイオン運動量空間においてよく局在し, 特異なパターンを示すことが明らかとなった。 これらのパターンは分子構造に関する直接的な情報をもたらし、古典的なクーロン爆発シミュレーションを用いて定性的に再現できる。 この結果から,レーザー誘起CEIは有機環と鎖分子の分子構造を識別する堅牢な手法として有効であることが示唆された。 そのため、ポンププローブ実験において個々の原子の動きを追跡することにより、環開化反応中の超高速な構造変化、例えば環開化反応を追従する手法として大いに期待できる。

Coulomb explosion imaging (CEI) with x-ray free electron lasers has recently been shown to be a powerful method for obtaining detailed structural information of gas-phase planar ring molecules [R. Boll et al. Nat. Phys. 18, 423-428 (2022)]. In this Letter, we investigate the potential of CEI driven by a tabletop laser and extend this approach to differentiating three-dimensional (3D) structures. We study the static CEI patterns of planar and nonplanar organic molecules that resemble the structures of typical products formed in ring-opening reactions. Our results reveal that each molecule exhibits a well-localized and distinctive pattern in 3D fragment-ion momentum space. We find that these patterns yield direct information about the molecular structures and can be qualitatively reproduced using a classical Coulomb explosion simulation. Our findings suggest that laser-induced CEI can serve as a robust method for differentiating molecular structures of organic ring and chain molecules. As such, it holds great promise as a method for following ultrafast structural changes, e.g., during ring-opening reactions, by tracking the motion of individual atoms in pump-probe experiments.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 平板面に基づく二重カウント自由パラメータ自由多体DFT+U

Flat-plane based double-counting free and parameter free many-body DFT+U ( http://arxiv.org/abs/2408.08391v1 )

ライセンス: Link先を確認
Andrew C. Burgess, David D. O'Regan, (参考訳) Burgessらは最近BLOR補正交換相関関数を導入し、これは構成上、局所化された部分空間の各有効軌道上で平面条件を別々に強制する独自の単純化された回転不変DFT+U関数である。 Hubbardモデルから切り離されたこのタイプの関数は、二重カウント補正と、適切なエラー量化器を用いてその場で最適化された場合には、効果的にパラメータフリーである。 本研究では,多体誤り(mBLOR)に対処するBLOR関数の拡張を導出する。 mBLOR関数は、個々の軌道ではなく、サブスペース全体の平面条件を強制するために構築される。 このように、軌道間誤差は単一粒子と同じ足場で補正される。 軌道間相互作用が強い正確なテストケースに着目し, BLORとmBLORの関数は, 様々な自己反応系と静的相関誤差系を表わすホモ核pブロック二量体に対する全エネルギー拡張条件を用いて, 現代のDFT+U関数に対してベンチマークを行った。 BLOR関数はテストされた他のDFT+$U$関数よりも優れており、総エネルギーエラーを増大させるが、一部のシステムでは大きなエラーを引き起こした。 代わりにmBLORは4つの強相関二量体に低エネルギー誤差を与え、半局所近似材料のみを用いて構築した。 mBLORはDFT+Uの望ましい特徴であるバンドギャップ補正を導入しないため,機能的特異な明示的微分不連続性を電位に移動させることにより,自動的に再導入するコストフリー手法を開発した。 これにより、mBLORは非物理的スピン対称性の破れを伴わずに、拡張された中性ホモ核二量体のバンドギャップを開く唯一のDFT$+U$関数である。

Burgess et al. have recently introduced the BLOR corrective exchange-correlation functional that is, by construction, the unique simplified rotationally-invariant DFT+U functional that enforces the flat-plane condition separately on each effective orbital of a localized subspace. Detached from the Hubbard model, functionals of this type are both double-counting correction free and, when optimized in situ using appropriate error quantifiers, effectively parameter free. In this work, the extension of the BLOR functional to address many-body errors (mBLOR) is derived. The mBLOR functional is built to enforce the flat-plane condition on the entire subspace, rather than on each orbital individually. In this way inter-orbital errors are corrected on the same footing as the single-particle ones. Focusing on exact test cases with strong inter-orbital interactions, the BLOR and mBLOR functionals were benchmarked against contemporary DFT+U functionals using the total energy extensivity condition on stretched homo-nuclear p-block dimers that represent various self-interaction and static-correlation error regimes. The BLOR functional outperformed all other DFT+$U$ functionals tested, which often act to increase total-energy errors, yet it still yielded large errors in some systems. mBLOR instead yielded low energy errors across all four strongly-correlated dimers, while being constructed using only semi-local approximation ingredients. As mBLOR would not otherwise introduce a band-gap correction in the manner that is a desirable feature of DFT+U, we developed a cost-free technique to reintroduce it automatically by moving the functional's unusual explicit derivative discontinuity into the potential. With this in place, mBLOR is the only known DFT$+U$ functional that opens the bandgap of stretched neutral homo-nuclear dimers without the aid of unphysical spin-symmetry breaking.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# Level Up Your Tutorials: VLMs for Game Tutorials Quality Assessment

Level Up Your Tutorials: VLMs for Game Tutorials Quality Assessment ( http://arxiv.org/abs/2408.08396v1 )

ライセンス: Link先を確認
Daniele Rege Cambrin, Gabriele Scaffidi Militone, Luca Colomba, Giovanni Malnati, Daniele Apiletti, Paolo Garza, (参考訳) 効果的なゲームチュートリアルを設計することは、新しいプレイヤーにとって、特に多くのルールと複雑なコアメカニックを持つゲームにおいて、スムーズな学習曲線に不可欠である。 これらのチュートリアルの有効性を評価するには、ゲームに関する事前の知識を持たないテスタとの繰り返しが必要になります。 近年の視覚言語モデル (VLM) は視覚内容の理解と解釈において重要な機能を示している。 VLMはイメージを分析し、詳細な洞察を提供し、コンテンツに関する質問に答える。 オブジェクト、アクション、コンテキストを視覚データで認識し、自動ゲームテストを含むさまざまなアプリケーションに有用なツールを提供する。 本研究では,ゲームチュートリアルの品質を評価するための自動ゲームテストソリューションを提案する。 本手法はVLMを利用して,ビデオゲームのチュートリアルからフレームを分析し,関連する質問に答え,人間の知覚をシミュレートし,フィードバックを提供する。 このフィードバックは、混乱や問題のあるシーンを特定し、開発者の潜在的なエラーを明らかにするために、期待された結果と比較される。 また,本テストで使用した各種ゲーム版のチュートリアルビデオと注釈付きフレームも公開している。 このソリューションは、特に最終ゲーム体験を改善するためにチュートリアルの初期開発ステージをスピードアップし、単純化することによって、広範な手動テストの必要性を減らす。

Designing effective game tutorials is crucial for a smooth learning curve for new players, especially in games with many rules and complex core mechanics. Evaluating the effectiveness of these tutorials usually requires multiple iterations with testers who have no prior knowledge of the game. Recent Vision-Language Models (VLMs) have demonstrated significant capabilities in understanding and interpreting visual content. VLMs can analyze images, provide detailed insights, and answer questions about their content. They can recognize objects, actions, and contexts in visual data, making them valuable tools for various applications, including automated game testing. In this work, we propose an automated game-testing solution to evaluate the quality of game tutorials. Our approach leverages VLMs to analyze frames from video game tutorials, answer relevant questions to simulate human perception, and provide feedback. This feedback is compared with expected results to identify confusing or problematic scenes and highlight potential errors for developers. In addition, we publish complete tutorial videos and annotated frames from different game versions used in our tests. This solution reduces the need for extensive manual testing, especially by speeding up and simplifying the initial development stages of the tutorial to improve the final game experience.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 何千もの領域にわたる電力消費プロファイルのモデル化のための効率よく説明可能な変圧器ベースFew-Shot学習

An Efficient and Explainable Transformer-Based Few-Shot Learning for Modeling Electricity Consumption Profiles Across Thousands of Domains ( http://arxiv.org/abs/2408.08399v1 )

ライセンス: Link先を確認
Weijie Xia, Gao Peng, Chenguang Wang, Peter Palensky, Eric Pauwels, Pedro P. Vergara, (参考訳) 電力消費プロファイル(ECP)は、特にソーラーパネルや電気自動車などの様々な低炭素技術の増加に伴い、電力流通システムの運用と計画に不可欠である。 従来のECPモデリング手法は、一般的に十分なECPデータの可用性を前提としている。 しかし、実際には、プライバシー上の問題や計測装置がないため、ECPデータのアクセシビリティは制限されている。 FSL(Few-shot Learning)は、データスカースシナリオにおけるECPモデリングのための有望なソリューションとして登場した。 しかしながら、画像に使用されるような標準のFSL法は、1) 十分なデータを持つ複数のソースドメインと複数のターゲットドメインを仮定するので、ECPモデリングには適さない。 しかし、ECPモデリングの文脈では、適度な量のデータと数千のターゲットドメインを持つ何千ものソースドメインが存在するかもしれません。 2)標準FSL法は通常,事前学習や微調整などの煩雑な知識伝達機構を含むが,ECPモデリングではより軽量な手法が必要である。 (3) 深層学習モデルは、しばしば説明責任を欠き、産業における応用を妨げる。 本稿では,トランスフォーマーとガウス混合モデル(GMM)を利用した新しいFSL手法を提案する。 以上の結果から,提案手法はECPデータを最小限(例:完全ドメインデータセットの1.6.%)で精度良く復元できる一方で,最新時系列モデリング手法よりも優れており,軽量かつ解釈可能な長所を保っていることがわかった。 プロジェクトはhttps://github.com/xiaweijie 1996/TransformerEM-GMM.gitでオープンソース化されている。

Electricity Consumption Profiles (ECPs) are crucial for operating and planning power distribution systems, especially with the increasing numbers of various low-carbon technologies such as solar panels and electric vehicles. Traditional ECP modeling methods typically assume the availability of sufficient ECP data. However, in practice, the accessibility of ECP data is limited due to privacy issues or the absence of metering devices. Few-shot learning (FSL) has emerged as a promising solution for ECP modeling in data-scarce scenarios. Nevertheless, standard FSL methods, such as those used for images, are unsuitable for ECP modeling because (1) these methods usually assume several source domains with sufficient data and several target domains. However, in the context of ECP modeling, there may be thousands of source domains with a moderate amount of data and thousands of target domains. (2) Standard FSL methods usually involve cumbersome knowledge transfer mechanisms, such as pre-training and fine-tuning, whereas ECP modeling requires more lightweight methods. (3) Deep learning models often lack explainability, hindering their application in industry. This paper proposes a novel FSL method that exploits Transformers and Gaussian Mixture Models (GMMs) for ECP modeling to address the above-described issues. Results show that our method can accurately restore the complex ECP distribution with a minimal amount of ECP data (e.g., only 1.6\% of the complete domain dataset) while it outperforms state-of-the-art time series modeling methods, maintaining the advantages of being both lightweight and interpretable. The project is open-sourced at https://github.com/xiaweijie1996/TransformerEM-GMM.git.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# ゼロショット学習とキーポイントは、Fact-Checkingの自動化に必要なもの

Zero-Shot Learning and Key Points Are All You Need for Automated Fact-Checking ( http://arxiv.org/abs/2408.08400v1 )

ライセンス: Link先を確認
Mohammad Ghiasvand Mohammadkhani, Ali Ghiasvand Mohammadkhani, Hamid Beigy, (参考訳) オンラインで利用可能な大量の情報の中で、提案されたクレームの正確な状態を決定することは、重要な課題である。 この課題は、偽情報の拡散を防止するために、堅牢な評価を必要とする。 現代の大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクの実行能力を示す。 適切なプロンプト戦略を活用することで、大きなコンテキストサイズとゼロショット学習能力を理解することにより、人間の問題解決の直観をシミュレートし、問題を解決するための人間の代替手段へと進むことができる。 本稿では,ZSL-KeP(Zero-Shot Learning and Key Points)をベースとした簡易なフレームワークを提案する。

Automated fact-checking is an important task because determining the accurate status of a proposed claim within the vast amount of information available online is a critical challenge. This challenge requires robust evaluation to prevent the spread of false information. Modern large language models (LLMs) have demonstrated high capability in performing a diverse range of Natural Language Processing (NLP) tasks. By utilizing proper prompting strategies, their versatility due to their understanding of large context sizes and zero-shot learning ability enables them to simulate human problem-solving intuition and move towards being an alternative to humans for solving problems. In this work, we introduce a straightforward framework based on Zero-Shot Learning and Key Points (ZSL-KeP) for automated fact-checking, which despite its simplicity, performed well on the AVeriTeC shared task dataset by robustly improving the baseline and achieving 10th place.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# LLMとWeb検索を用いたSQLクエリ作成における学生のヘルプ検索行動の理解

Understanding Help-Seeking Behavior of Students Using LLMs vs. Web Search for Writing SQL Queries ( http://arxiv.org/abs/2408.08401v1 )

ライセンス: Link先を確認
Harsh Kumar, Mohi Reza, Jeb Mitchell, Ilya Musabirov, Lisa Zhang, Michael Liut, (参考訳) プログラミング教育における大規模言語モデル(LLM)の利用の増加は、学生のSQLクエリの書き方を変えつつある。 伝統的に、学生はコーディング支援のためのウェブ検索に大きく依存していたが、これはChatGPTのようなLLMの採用によって変化してきた。 しかし、コーディングにおけるWeb検索とLLMの比較プロセスと結果については、未検討のままである。 そこで我々は,データベース教室でランダムなインタビュー調査を行い,Web検索とLLMを比較し,SQLクエリを書くためのLLM(ChatGPT)とインストラクターチューニングLLM(LLM)を比較した。 この結果,インストラクターチューニング LLM では,ChatGPT と Web 検索のどちらよりもはるかに多くのインタラクションが必要であったが,最終的なSQL クエリに類似した編集数が得られた。 LLM条件は高いクエリ品質を示したが、最終的なSQLクエリの品質には大きな違いは見つからなかった。 さらに、インストラクター・チューニング LLM を用いた学生は、精神的な要求が低いことを報告した。 これらの結果は、プログラミング教育における学習と生産性に影響を及ぼす。

Growth in the use of large language models (LLMs) in programming education is altering how students write SQL queries. Traditionally, students relied heavily on web search for coding assistance, but this has shifted with the adoption of LLMs like ChatGPT. However, the comparative process and outcomes of using web search versus LLMs for coding help remain underexplored. To address this, we conducted a randomized interview study in a database classroom to compare web search and LLMs, including a publicly available LLM (ChatGPT) and an instructor-tuned LLM, for writing SQL queries. Our findings indicate that using an instructor-tuned LLM required significantly more interactions than both ChatGPT and web search, but resulted in a similar number of edits to the final SQL query. No significant differences were found in the quality of the final SQL queries between conditions, although the LLM conditions directionally showed higher query quality. Furthermore, students using instructor-tuned LLM reported a lower mental demand. These results have implications for learning and productivity in programming education.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 超伝導量子回路における制御スキューズゲート

A controlled-squeeze gate in superconducting quantum circuits ( http://arxiv.org/abs/2408.08404v1 )

ライセンス: Link先を確認
Nicolás F. Del Grosso, Rodrigo G. Cortiñas, Paula I. Villar, Fernando C. Lombardo, Juan Pablo Paz, (参考訳) マイクロ波共振器における電磁界の非古典的状態を作成する方法を提案する。 分散結合量子ビットの状態に条件付きSQUID終端共振器にスキューズ操作を適用する制御ゲートに基づく。 この制御されたスキューズゲートは、共振器上のガウス演算と組み合わせると普遍的である。 このツールを用いて任意のキュービット状態から圧縮状態の重ね合わせをマッピングする。 特に,光子損失を非復調パリティ測定により検出可能な高純度ボソニック符号を対象とする。 我々は、最先端のQEDツールを用いてこれを実装する可能性を分析し、現在の技術の範囲内であると結論づける。

We present a method to prepare non-classical states of the electromagnetic field in a microwave resonator. It is based on a controlled gate that applies a squeezing operation on a SQUID-terminated resonator conditioned on the state of a dispersively coupled qubit. This controlled-squeeze gate, when combined with Gaussian operations on the resonator, is universal. We explore the use of this tool to map an arbitrary qubit state into a superposition of squeezed states. In particular, we target a bosonic code with well-defined superparity which makes photon losses detectable by nondemolition parity measurements. We analyze the possibility of implementing this using state-of-the-art circuit QED tools and conclude that it is within reach of current technologies.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# Ojaの可塑性規則は、生物学的制約下でニューラルネットワークを訓練する際のいくつかの課題を克服する

Oja's plasticity rule overcomes several challenges of training neural networks under biological constraints ( http://arxiv.org/abs/2408.08408v1 )

ライセンス: Link先を確認
Navid Shervani-Tabar, Marzieh Alireza Mirhoseini, Robert Rosenbaum, (参考訳) 生体神経回路と深層人工ニューラルネットワーク(DNN)の類似点と相違点については,多くの文献がある。 しかし、DNNの現代的なトレーニングは、データのバッチ化、正規化、適応オプティマイザ、正確なウェイト初期化といったいくつかのエンジニアリングトリックに依存している。 DNNのトレーニングにおいて重要な役割を担っているにもかかわらず、これらのエンジニアリングのトリックは、生物学的ネットワークと人工ネットワークの並行性を描画する際にしばしば見過ごされる。 本研究では,Ojaの塑性規則が工学的トリックの必要性を部分的に克服していることを示す。 具体的には、オンライン学習、深層建築、準最適重量初期化のような、難しいが生物学的に現実的な学習シナリオの下では、Ojaのルールは純粋なバックプロパゲーションの性能を大幅に向上させることができる。 以上の結果から, 単純なシナプス可塑性規則はDNNのトレーニングにおいて, 生物学的に信頼性の低いアプローチで克服される学習の課題を克服できることが示された。

There is a large literature on the similarities and differences between biological neural circuits and deep artificial neural networks (DNNs). However, modern training of DNNs relies on several engineering tricks such as data batching, normalization, adaptive optimizers, and precise weight initialization. Despite their critical role in training DNNs, these engineering tricks are often overlooked when drawing parallels between biological and artificial networks, potentially due to a lack of evidence for their direct biological implementation. In this study, we show that Oja's plasticity rule partly overcomes the need for some engineering tricks. Specifically, under difficult, but biologically realistic learning scenarios such as online learning, deep architectures, and sub-optimal weight initialization, Oja's rule can substantially improve the performance of pure backpropagation. Our results demonstrate that simple synaptic plasticity rules can overcome challenges to learning that are typically overcome using less biologically plausible approaches when training DNNs.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# 鮮明な視点から見たラター凝集と品質

Rater Cohesion and Quality from a Vicarious Perspective ( http://arxiv.org/abs/2408.08411v1 )

ライセンス: Link先を確認
Deepak Pandita, Tharindu Cyril Weerasooriya, Sujan Dutta, Sarah K. Luger, Tharindu Ranasinghe, Ashiqur R. KhudaBukhsh, Marcos Zampieri, Christopher M. Homan, (参考訳) 人間のフィードバックは、AI安全性、コンテンツモデレーション、感情分析など、不一致が頻発する領域にわたって、人間中心のAIシステムを構築するために不可欠である。 多くの意見の相違は、特に政治的に告発された状況において、ラッカーが反対の価値観や信念を持っているために生じる。 Vicariousアノテーションは、他の人がデータにアノテートすると考える方法をラウンダーに問うことによって、不一致を断ち切る方法である。 本稿では,レーダの不一致を緩和するための分析手法を用いた活気あるアノテーションの利用について検討する。 我々はレーダ結束指標を用いて、政治的関係や人種的背景がラテンダーの犯罪に対する認識に与える影響について検討する。 さらに、ラッカーの人口動態を考慮に入れたCrowdTruthのレーダ品質指標を用いて、ラッカーとそのアノテーションをスコアリングする。 我々は,レーダの品質指標が,個人的および活気あるレベルにわたって,グループ内およびグループ間レーダの凝集にどのように影響するかを検討する。

Human feedback is essential for building human-centered AI systems across domains where disagreement is prevalent, such as AI safety, content moderation, or sentiment analysis. Many disagreements, particularly in politically charged settings, arise because raters have opposing values or beliefs. Vicarious annotation is a method for breaking down disagreement by asking raters how they think others would annotate the data. In this paper, we explore the use of vicarious annotation with analytical methods for moderating rater disagreement. We employ rater cohesion metrics to study the potential influence of political affiliations and demographic backgrounds on raters' perceptions of offense. Additionally, we utilize CrowdTruth's rater quality metrics, which consider the demographics of the raters, to score the raters and their annotations. We study how the rater quality metrics influence the in-group and cross-group rater cohesion across the personal and vicarious levels.
翻訳日:2024-08-19 17:20:01 公開日:2024-08-15
# ディープフェイク検出におけるペニーワイズとパウンドフーライッシュ

Penny-Wise and Pound-Foolish in Deepfake Detection ( http://arxiv.org/abs/2408.08412v1 )

ライセンス: Link先を確認
Yabin Wang, Zhiwu Huang, Su Zhou, Adam Prugel-Bennett, Xiaopeng Hong, (参考訳) ディープフェイク技術の拡散は、様々な領域にまたがる潜在的な誤用に関する深刻な懸念を引き起こし、堅牢な検出方法が緊急に必要となる。 進歩にもかかわらず、現在の多くのアプローチは長期的な効果を犠牲にして短期的な利益を優先している。 本稿では,1つのディープフェイクデータセットに対して,1ペニーワイズな目的のみをもち,一般化と知識保持のためのポンドワイズバランスを無視した,微調整事前学習モデルの過度に専門的なアプローチを批判する。 この「Penny-Wise and Pound-Foolish」問題に対処するため、事前学習された視覚言語モデルに基づく深度検出の一般化のための新しい学習フレームワーク(PoundNet)を提案する。 PoundNetは学習可能なプロンプト設計とバランスの取れた目的を組み、上流タスク(オブジェクト分類)から幅広い知識を保存すると同時に、下流タスク(ディープフェイク検出)の一般化を強化する。 パウンドネットを標準の1つのディープフェイクデータセットでトレーニングします。 次に、大規模なディープフェイク検出モデルの一般化能力を評価するための最大のベンチマークテストセットを生成する5つの主要な評価指標を用いて、10のパブリックなディープフェイクデータセットのパフォーマンスを評価した。 総合的なベンチマーク評価では、提案したPoundNetは「Penny-Wise and Pound-Foolish」よりも大幅に小さく、最先端の手法に比べてディープフェイク検出性能が19%向上し、また、他のディープフェイク検出モデルが非効率であるオブジェクト分類タスクでは63%の強い性能を維持した。 コードとデータはhttps://github.com/iamwangyabin/PoundNet.comで公開されている。

The diffusion of deepfake technologies has sparked serious concerns about its potential misuse across various domains, prompting the urgent need for robust detection methods. Despite advancement, many current approaches prioritize short-term gains at expense of long-term effectiveness. This paper critiques the overly specialized approach of fine-tuning pre-trained models solely with a penny-wise objective on a single deepfake dataset, while disregarding the pound-wise balance for generalization and knowledge retention. To address this "Penny-Wise and Pound-Foolish" issue, we propose a novel learning framework (PoundNet) for generalization of deepfake detection on a pre-trained vision-language model. PoundNet incorporates a learnable prompt design and a balanced objective to preserve broad knowledge from upstream tasks (object classification) while enhancing generalization for downstream tasks (deepfake detection). We train PoundNet on a standard single deepfake dataset, following common practice in the literature. We then evaluate its performance across 10 public large-scale deepfake datasets with 5 main evaluation metrics-forming the largest benchmark test set for assessing the generalization ability of deepfake detection models, to our knowledge. The comprehensive benchmark evaluation demonstrates the proposed PoundNet is significantly less "Penny-Wise and Pound-Foolish", achieving a remarkable improvement of 19% in deepfake detection performance compared to state-of-the-art methods, while maintaining a strong performance of 63% on object classification tasks, where other deepfake detection models tend to be ineffective. Code and data are open-sourced at https://github.com/iamwangyabin/PoundNet.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 狭いフェシュバッハ共鳴近傍における一元系ボース気体のダイナミクス:普遍コヒーレント原子-分子振動

Dynamics of the unitary Bose gas near a narrow Feshbach resonance: universal coherent atom-molecule oscillations ( http://arxiv.org/abs/2408.08415v1 )

ライセンス: Link先を確認
Ke Wang, Zhendong Zhang, Shu Nagata, Zhiqiang Wang, K. Levin, (参考訳) 広いフェシュバッハ共鳴を取り巻く一元系ボース気体のクエンチ実験は、普遍力学の発見につながった。 この普遍性は、粒子密度によって運動量分布と時間スケールの両方が決定される準平衡準準準準準安定状態の原子運動量分布に現れる。 本稿では, フェーシュバッハ共鳴の幅8.3mGの超狭小原子について検討する。 先に報告した行動と劇的な対照的に、原子凝縮体とユニタリティの急激なクエンチが観察され、最終的には動的に生成された縮合された非縮合された分子や原子を含むコヒーレントな振動を引き起こす。 フェシュバッハ結合によって決定される同じ特性周波数は、あらゆる種類の粒子で観測される。 これらのクエンチのダイナミクスと、これらの異なる粒子種がどのように生成されるかを理解するために、我々は、原子と分子の間の新しいタイプの相互相関を含むハーツリー・フォック・ボゴリボフ力学フレームワークを開発する。 これは測定された周波数と定量的に一致している。 我々の結果は、狭いフェシュバッハ共鳴に付随するボソニック超流動の一般クラスに適用でき、量子多体相互作用に支配される普遍力学の新しいパラダイムを確立する。

Quench experiments on a unitary Bose gas around a broad Feshbach resonance have led to the discovery of universal dynamics. This universality is manifested in the measured atomic momentum distributions where, asymptotically, a quasi-equilibrated metastable state is found in which both the momentum distribution and the time scales are determined by the particle density. In this paper we present counterpart studies but for the case of a very narrow Feshbach resonance of $^{133}$Cs atoms having a width of 8.3 mG. In dramatic contrast to the behavior reported earlier, a rapid quench of an atomic condensate to unitarity is observed to ultimately lead to coherent oscillations involving dynamically produced condensed and non-condensed molecules and atoms. The same characteristic frequency, determined by the Feshbach coupling, is observed in all types of particles. To understand these quench dynamics and how these different particle species are created, we develop a beyond Hartree-Fock-Bogoliubov dynamical framework including a new type of cross correlation between atoms and molecules. This leads to a quantitative consistency with the measured frequency. Our results, which can be applied to the general class of bosonic superfluids associated with narrow Feshbach resonances, establish a new paradigm for universal dynamics dominated by quantum many-body interactions.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# パンデミック規模のサイバー脅威に対処する - COVID-19の教訓

Handling Pandemic-Scale Cyber Threats: Lessons from COVID-19 ( http://arxiv.org/abs/2408.08417v1 )

ライセンス: Link先を確認
Adam Shostack, Josiah Dykstra, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックによる健康、社会的、経済的影響は、壊滅的なパンデミック規模のサイバーイベントの未解決の危険性を浮き彫りにしている。 これらの脅威の性質は異なるが、COVID-19に対する反応は、サイバーイベントの準備と対応をガイドできる貴重な教訓を示している。 パンデミック対応における協力と事前定義された役割の重要な役割に基づいて、サイバー脅威に対する同様のドクトリンやスキルセットを開発する必要性を強調した。 本研究では、パンデミック規模のサイバーイベントの特徴を提示し、世界が経験した小規模のインシデントと区別して行動するための枠組みを提供する。 フレームワークは米国に重点を置いている。 我々は、新型コロナウイルスからの6つの重要な教訓を分析し、準備が成功するための重要な考慮事項を概説し、パンデミックのメタファーの限界を認識し、堅牢なサイバー防衛プレイブックを開発するための実行可能なステップを提供する。 新型コロナウイルス(COVID-19)から学ぶことで、政府機関、民間セクター、サイバーセキュリティの専門家、学術研究者、政策立案者は、重要なインフラを守り、経済的損害を最小限に抑え、将来のサイバーイベントに直面した社会的レジリエンスを確保するための積極的な戦略を構築することができる。

The devastating health, societal, and economic impacts of the COVID-19 pandemic illuminate potential dangers of unpreparedness for catastrophic pandemic-scale cyber events. While the nature of these threats differs, the responses to COVID-19 illustrate valuable lessons that can guide preparation and response to cyber events. Drawing on the critical role of collaboration and pre-defined roles in pandemic response, we emphasize the need for developing similar doctrine and skill sets for cyber threats. We provide a framework for action by presenting the characteristics of a pandemic-scale cyber event and differentiating it from smaller-scale incidents the world has previously experienced. The framework is focused on the United States. We analyze six critical lessons from COVID-19, outlining key considerations for successful preparedness, acknowledging the limitations of the pandemic metaphor, and offering actionable steps for developing a robust cyber defense playbook. By learning from COVID-19, government agencies, private sector, cybersecurity professionals, academic researchers, and policy makers can build proactive strategies that safeguard critical infrastructure, minimize economic damage, and ensure societal resilience in the face of future cyber events.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 希少疾患質問応答における大規模言語モデルの評価と強化

Assessing and Enhancing Large Language Models in Rare Disease Question-answering ( http://arxiv.org/abs/2408.08422v1 )

ライセンス: Link先を確認
Guanchu Wang, Junhao Ran, Ruixiang Tang, Chia-Yuan Chang, Chia-Yuan Chang, Yu-Neng Chuang, Zirui Liu, Vladimir Braverman, Zhandong Liu, Xia Hu, (参考訳) 一般医学領域におけるLarge Language Models (LLMs) の印象的な機能にもかかわらず、希少疾患の診断におけるその性能について疑問が残る。 本研究の目的は,レアな疾患におけるLSMの診断性能を評価することであり,その分野での有効性を高める方法を探ることである。 本研究では,レアな疾患の診断におけるLCMの性能を評価するために,レアな疾患質問応答データセット(ReDis-QA)を導入する。 具体的には、ReDis-QAデータセットで1360の高品質な質問応答ペアを収集し、205の稀な疾患をカバーした。 さらに,各質問に対するメタデータに注釈を付け,特定の疾患とその特性に特有のサブセットの抽出を容易にする。 ReDis-QAデータセットに基づいて、いくつかのオープンソースのLCMをベンチマークし、稀な疾患の診断がこれらのモデルにとって重要な課題であることを示した。 希少疾患診断のための検索増強生成を容易にするため,全国希少疾患機関(NORD)データベースから得られた最初のレア疾患コーパス(ReCOP)を収集した。 具体的には、各稀な疾患の報告を、その概要、症状、原因、効果、関連疾患、診断、標準治療など、疾患のさまざまな特性を表す複数のチャンクに分けた。 この構造は、各チャンク内の情報が質問と一貫して一致することを保証します。 実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。 さらに、既存の文献にさかのぼる信頼できる回答や説明を生成するためにLLMを大いに導く。

Despite the impressive capabilities of Large Language Models (LLMs) in general medical domains, questions remain about their performance in diagnosing rare diseases. To answer this question, we aim to assess the diagnostic performance of LLMs in rare diseases, and explore methods to enhance their effectiveness in this area. In this work, we introduce a rare disease question-answering (ReDis-QA) dataset to evaluate the performance of LLMs in diagnosing rare diseases. Specifically, we collected 1360 high-quality question-answer pairs within the ReDis-QA dataset, covering 205 rare diseases. Additionally, we annotated meta-data for each question, facilitating the extraction of subsets specific to any given disease and its property. Based on the ReDis-QA dataset, we benchmarked several open-source LLMs, revealing that diagnosing rare diseases remains a significant challenge for these models. To facilitate retrieval augmentation generation for rare disease diagnosis, we collect the first rare diseases corpus (ReCOP), sourced from the National Organization for Rare Disorders (NORD) database. Specifically, we split the report of each rare disease into multiple chunks, each representing a different property of the disease, including their overview, symptoms, causes, effects, related disorders, diagnosis, and standard therapies. This structure ensures that the information within each chunk aligns consistently with a question. Experiment results demonstrate that ReCOP can effectively improve the accuracy of LLMs on the ReDis-QA dataset by an average of 8%. Moreover, it significantly guides LLMs to generate trustworthy answers and explanations that can be traced back to existing literature.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 解釈可能な機械学習を用いた効果的スケール分離階層構造を持つ音波材料

Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning ( http://arxiv.org/abs/2408.08428v1 )

ライセンス: Link先を確認
Mary V. Bastawrous, Zhi Chen, Alexander C. Ogren, Chiara Daraio, Cynthia Rudin, L. Catherine Brinson, (参考訳) 振動波の分散特性を操作することは、高精度機器など多くの用途に有用である。 構造的階層的な音波材料は 弾性波と複数の周波数範囲の振動の 有望なチューナビリティを 引き起こした 本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。 我々の新しいアプローチである 'hierarchical unit-cell template method' は、事前に定義されたバンドギャップの目的に対応するグローバルな単位セル形状/トポロジーパターンを明らかにする、解釈可能な機械学習手法である。 粗いスケールのバンドギャップの目的が、その長さスケールの近接性にもかかわらず、その微細な特徴にほとんど影響されず、効率的な階層的アルゴリズムを実現するスケール分離効果が観察される。 さらに、明らかにされた階層的パターンは、現在の階層的音素材料に共通する事前定義や自己相似階層ではない。 したがって,本手法は階層型設計空間における新しい領域の探索に柔軟かつ効率的な手法を提供し,複数の周波数領域を対象とするアプリケーションにおいて,逆設計のための最小限の効果的なパターンを抽出する。

Manipulating the dispersive characteristics of vibrational waves is beneficial for many applications, e.g., high-precision instruments. architected hierarchical phononic materials have sparked promise tunability of elastodynamic waves and vibrations over multiple frequency ranges. In this article, hierarchical unit-cells are obtained, where features at each length scale result in a band gap within a targeted frequency range. Our novel approach, the ``hierarchical unit-cell template method,'' is an interpretable machine-learning approach that uncovers global unit-cell shape/topology patterns corresponding to predefined band-gap objectives. A scale-separation effect is observed where the coarse-scale band-gap objective is mostly unaffected by the fine-scale features despite the closeness of their length scales, thus enabling an efficient hierarchical algorithm. Moreover, the hierarchical patterns revealed are not predefined or self-similar hierarchies as common in current hierarchical phononic materials. Thus, our approach offers a flexible and efficient method for the exploration of new regions in the hierarchical design space, extracting minimal effective patterns for inverse design in applications targeting multiple frequency ranges.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 8つの電荷と磁気電荷を持つブラックホールのSLOCCとLU分類

SLOCC and LU classification of black holes with eight electric and magnetic charges ( http://arxiv.org/abs/2408.08429v1 )

ライセンス: Link先を確認
Dafa Li, Maggie Cheng, Xiangrong Li, Shuwang Li, (参考訳) \cite{Linde} において、カロシュとリンデはブラックホールの SLOCC 分類について議論した。 しかし、ブラックホールのSLOCC分類の基準は与えられていない。 さらに、過去において、ブラックホールのLU分類は研究されていない。 本稿では,4つの整数電荷$q_{i}$と4つの整数電荷$p^{i}$,$i=0,1,2,3$のSTUブラックホールのSLOCCとLUの分類について検討する。 8つの電荷を持つ2つのSTUブラックホールがSLOCC(LU)同値であり、3つの量子ビットの対応する状態がSLOCC(LU)同値である場合に限る。 本定義では, SLOCC および LU の下での8チャージ STU ブラックホールの分類基準について述べる。 SLOCCの分類と3つの量子ビットのLUエンタングルメントによるブラックホールの分類について検討する。 次に、3つの量子ビットの状態 W に対応するブラックホールの集合を同定するが、これはエンタングルメントの最大平均フォン・ノイマンエントロピーを持つため興味がある。 フォン・ノイマンの絡み合いエントロピーにより、GHZ SLOCCクラスの純粋な状態に対応するSTUブラックホールをLUの下で5つの族に分割する。

In \cite{Linde}, Kallosh and Linde discussed the SLOCC classification of black holes. However, the criteria for the SLOCC classification of black holes have not been given. In addition, the LU classification of black holes has not been studied in the past. In this paper we will consider both SLOCC and LU classification of the STU black holes with four integer electric charges $q_{i} $ and four integer magnetic charges $p^{i}$, $i=0,1,2,3$. Two STU black holes with eight charges are considered SLOCC (LU) equivalent if and only if their corresponding states of three qubits are SLOCC (LU) equivalent. Under this definition, we give criteria for the classification of the eight-charge STU black holes under SLOCC and under LU, respectively. We will study the classification of the black holes via the classification of SLOCC and LU entanglement of three qubits. We then identify a set of black holes corresponding to the state W of three qubits, which is of interest since it has the maximal average von Neumann entropy of entanglement. Via von Neumann entanglement entropy, we partition the STU black holes corresponding to pure states of GHZ SLOCC class into five families under LU.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# フェデレートラーニングにおける深層漏洩に対する防御尺度としてのランダム勾配マスキング

Random Gradient Masking as a Defensive Measure to Deep Leakage in Federated Learning ( http://arxiv.org/abs/2408.08430v1 )

ライセンス: Link先を確認
Joon Kim, Sejin Park, (参考訳) フェデレートラーニング(FL)は、理論的には、高品質な機械学習モデルを作成しながら、個々のクライアントデータのプライバシを保存する。 しかし、DLG(Deep Leakage from Gradients)のような攻撃はFLの実用性に深刻な疑問を呈している。 本稿では, DLGに対する防御方法として, マスキング, クリッピング, プルーニング, ノージングの4つの方法の有効性を実証的に評価した。 マスキングは以前パラメータ転送中に情報を圧縮する方法としてのみ研究されたが、他の3つの確立された方法と比較して驚くほど堅牢な防御効果を示した。 私たちの実験は2倍です。 まず,MNIST,CIFAR-10,lfwデータセットにまたがる各手法の最小パラメータ閾値を評価する。 そして,各手法と最低しきい値を用いてFLクライアントを訓練し,DLG防御とトレーニング性能のトレードオフを検討する。 その結果, マスキングとクリッピングはDLGを効果的に防ぐのに十分な情報を隠蔽しながら, 性能の劣化をほとんど示さないことが明らかとなった。

Federated Learning(FL), in theory, preserves privacy of individual clients' data while producing quality machine learning models. However, attacks such as Deep Leakage from Gradients(DLG) severely question the practicality of FL. In this paper, we empirically evaluate the efficacy of four defensive methods against DLG: Masking, Clipping, Pruning, and Noising. Masking, while only previously studied as a way to compress information during parameter transfer, shows surprisingly robust defensive utility when compared to the other three established methods. Our experimentation is two-fold. We first evaluate the minimum hyperparameter threshold for each method across MNIST, CIFAR-10, and lfw datasets. Then, we train FL clients with each method and their minimum threshold values to investigate the trade-off between DLG defense and training performance. Results reveal that Masking and Clipping show near to none degradation in performance while obfuscating enough information to effectively defend against DLG.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# GuessWhich ゲームにおける多モード対話状態追跡

Multi-Modal Dialogue State Tracking for Playing GuessWhich Game ( http://arxiv.org/abs/2408.08431v1 )

ライセンス: Link先を確認
Wei Pang, Ruixue Duan, Jinfu Yang, Ning Li, (参考訳) GuessWhichは、QBot(QBot)とAnswer Bot(ABot)のインタラクションをイメージゲスティングのコンテキストで行う、魅力的なビジュアル対話ゲームである。 このゲームでは、QBotの目的は、ABotに提示される一連の視覚的関連質問を通してのみ隠された画像を見つけることである。 しかし、QBotの意思決定プロセスにおける視覚的関連推論を効果的にモデル化することは大きな課題となる。 現在のアプローチでは、視覚的な情報がないか、各ラウンドでサンプリングされた1つの実像をデコードコンテキストとして依存しており、どちらも視覚的推論には不十分である。 この制限に対処するために、未開示画像のメンタルモデルを用いて視覚的関連推論に焦点を当てた新しいアプローチを提案する。 このフレームワーク内では、QBotはメンタルイメージを表現することを学び、対話状態を追跡することで、堅牢な視覚的推論を可能にする。 対話状態は、メンタルイメージの表現のコレクションと、会話に関わるエンティティの表現を含む。 各ラウンドにおいて、QBotは、対話状態を使用して視覚的に関連する推論を行い、内部表現を構築し、関連する質問を生成し、回答を受け取ると、対話状態と内部表現の両方を更新する。 VisDial データセット (v0.5,0.9,1.0) に関する実験結果から,提案モデルの有効性が示された。 我々の実験のコードとデータセットは、 \href{https://github.com/xubuvd/GuessWhich} で自由に入手できる。

GuessWhich is an engaging visual dialogue game that involves interaction between a Questioner Bot (QBot) and an Answer Bot (ABot) in the context of image-guessing. In this game, QBot's objective is to locate a concealed image solely through a series of visually related questions posed to ABot. However, effectively modeling visually related reasoning in QBot's decision-making process poses a significant challenge. Current approaches either lack visual information or rely on a single real image sampled at each round as decoding context, both of which are inadequate for visual reasoning. To address this limitation, we propose a novel approach that focuses on visually related reasoning through the use of a mental model of the undisclosed image. Within this framework, QBot learns to represent mental imagery, enabling robust visual reasoning by tracking the dialogue state. The dialogue state comprises a collection of representations of mental imagery, as well as representations of the entities involved in the conversation. At each round, QBot engages in visually related reasoning using the dialogue state to construct an internal representation, generate relevant questions, and update both the dialogue state and internal representation upon receiving an answer. Our experimental results on the VisDial datasets (v0.5, 0.9, and 1.0) demonstrate the effectiveness of our proposed model, as it achieves new state-of-the-art performance across all metrics and datasets, surpassing previous state-of-the-art models. Codes and datasets from our experiments are freely available at \href{https://github.com/xubuvd/GuessWhich}.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 実際のデータセットシフトによる肺がん分類における深層学習の予測的不確実性の推定

Predictive uncertainty estimation in deep learning for lung carcinoma classification in digital pathology under real dataset shifts ( http://arxiv.org/abs/2408.08432v1 )

ライセンス: Link先を確認
Abdur R. Fayjie, Jutika Borah, Florencia Carbone, Jan Tack, Patrick Vandewalle, (参考訳) 深層学習は、幅広いデジタル病理学と医用画像分類タスクにおいて大きな進歩を見せている。 安全な臨床的意思決定支援への統合には、堅牢で信頼性の高いモデルが必要である。 しかし、現実世界のデータには、意図したソース分布の外側にしばしば置かれる多様性が伴っている。 さらに,検査試料が劇的に異なる場合,臨床的意思決定に大きな影響を及ぼす。 モデルにおける予測の不確実性の定量化は、適切に校正された予測と、モデルを信頼する(または信用しない)時期の決定に不可欠である。 残念なことに、多くの研究は予測的不確実性推定の重要性を見落としている。 本稿では,予測不確実性推定が深層学習に基づく診断意思決定システムに堅牢性をもたらすか否かを評価する。 種々の癌分布シフトシナリオが予測性能および校正に及ぼす影響について検討した。 まず, モンテカルロの脱落, 深層アンサンブル, 肺腺癌分類における軽微な学習をスライド画像全体の一次疾患として, 予測不確実性を改善するための3つの一般的な方法について, 系統的に検討した。 第2に,本手法の有効性を,原発性疾患のサブタイプと他の特徴分析データを含む分布シフト,よく分化した症例,異なる臓器起源,画像モダリティシフトなど,臨床的に関係のある分布シフトによる評価と校正について比較した。 不確実性評価の研究はあるが、我々の知る限り、厳密な大規模ベンチマークでは、これらの肺がん分類のためのデータセットシフトを含む予測不確実性評価を比較していない。

Deep learning has shown tremendous progress in a wide range of digital pathology and medical image classification tasks. Its integration into safe clinical decision-making support requires robust and reliable models. However, real-world data comes with diversities that often lie outside the intended source distribution. Moreover, when test samples are dramatically different, clinical decision-making is greatly affected. Quantifying predictive uncertainty in models is crucial for well-calibrated predictions and determining when (or not) to trust a model. Unfortunately, many works have overlooked the importance of predictive uncertainty estimation. This paper evaluates whether predictive uncertainty estimation adds robustness to deep learning-based diagnostic decision-making systems. We investigate the effect of various carcinoma distribution shift scenarios on predictive performance and calibration. We first systematically investigate three popular methods for improving predictive uncertainty: Monte Carlo dropout, deep ensemble, and few-shot learning on lung adenocarcinoma classification as a primary disease in whole slide images. Secondly, we compare the effectiveness of the methods in terms of performance and calibration under clinically relevant distribution shifts such as in-distribution shifts comprising primary disease sub-types and other characterization analysis data; out-of-distribution shifts comprising well-differentiated cases, different organ origin, and imaging modality shifts. While studies on uncertainty estimation exist, to our best knowledge, no rigorous large-scale benchmark compares predictive uncertainty estimation including these dataset shifts for lung carcinoma classification.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 階層型フェデレーション学習を用いた車載ネットワークセキュリティのためのロバスト多段階侵入検知システム

A Robust Multi-Stage Intrusion Detection System for In-Vehicle Network Security using Hierarchical Federated Learning ( http://arxiv.org/abs/2408.08433v1 )

ライセンス: Link先を確認
Muzun Althunayyan, Amir Javed, Omer Rana, (参考訳) コネクテッドカーや自動運転車の普及に伴い、CANバスは速度と効率のために車内ネットワークの主要な通信標準となっている。 しかし、CANバスは認証や暗号化といった基本的なセキュリティ対策を欠いているため、サイバー攻撃に対して非常に脆弱である。 車両内のセキュリティを確保するため、侵入検知システム(IDS)は、目に見える攻撃を検知し、実用的な配備のために軽量を維持しながら、新しい目に見えない攻撃に対する堅牢な防御を提供する必要がある。 これまでの作業は、CAN ID機能のみに依存していたり、手動で機能抽出する従来の機械学習(ML)アプローチを使用していました。 これらのアプローチは、他の悪用可能な機能を見落とし、新しい目に見えない攻撃の亜種への適応とセキュリティの妥協を困難にしている。 本稿では,これらの制約に対処するために,最先端,斬新,軽量,車内,IDS平均化,深層学習(DL)アルゴリズムを提案する。 提案したIDSは、第1ステージの人工知能ニューラルネットワーク(ANN)と第2ステージのLong Short-Term Memory(LSTM)オートエンコーダを使用して、新たな未知の攻撃を検出する。 多様な運転行動を理解し解析し、最新の攻撃パターンでモデルを更新し、データプライバシを保存するために、階層的フェデレーション学習(H-FL)環境でIDSをデプロイするための理論的枠組みを提案する。 実験結果から,IDSは新規攻撃では0.99以上,新規攻撃では0.95以上,検出率は99.99%であった。 さらに、誤報率(FAR)は0.016%と極めて低く、誤報を最小化する。 高度な攻撃やゼロデイ攻撃の特定において、DLアルゴリズムが有効であることが知られているが、IDSは依然として軽量であり、現実のデプロイメントの実現可能性を保証する。

As connected and autonomous vehicles proliferate, the Controller Area Network (CAN) bus has become the predominant communication standard for in-vehicle networks due to its speed and efficiency. However, the CAN bus lacks basic security measures such as authentication and encryption, making it highly vulnerable to cyberattacks. To ensure in-vehicle security, intrusion detection systems (IDSs) must detect seen attacks and provide a robust defense against new, unseen attacks while remaining lightweight for practical deployment. Previous work has relied solely on the CAN ID feature or has used traditional machine learning (ML) approaches with manual feature extraction. These approaches overlook other exploitable features, making it challenging to adapt to new unseen attack variants and compromising security. This paper introduces a cutting-edge, novel, lightweight, in-vehicle, IDS-leveraging, deep learning (DL) algorithm to address these limitations. The proposed IDS employs a multi-stage approach: an artificial neural network (ANN) in the first stage to detect seen attacks, and a Long Short-Term Memory (LSTM) autoencoder in the second stage to detect new, unseen attacks. To understand and analyze diverse driving behaviors, update the model with the latest attack patterns, and preserve data privacy, we propose a theoretical framework to deploy our IDS in a hierarchical federated learning (H-FL) environment. Experimental results demonstrate that our IDS achieves an F1-score exceeding 0.99 for seen attacks and exceeding 0.95 for novel attacks, with a detection rate of 99.99%. Additionally, the false alarm rate (FAR) is exceptionally low at 0.016%, minimizing false alarms. Despite using DL algorithms known for their effectiveness in identifying sophisticated and zero-day attacks, the IDS remains lightweight, ensuring its feasibility for real-world deployment.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# エージェントシステムの自動設計

Automated Design of Agentic Systems ( http://arxiv.org/abs/2408.08435v1 )

ライセンス: Link先を確認
Shengran Hu, Cong Lu, Jeff Clune, (参考訳) 研究者は強力な汎用エージェントの開発に多大な投資をしており、ファンデーションモデルはエージェントシステム内のモジュール(例えばChain-of-Thought、Self-Reflection、Toolformer)として使用される。 しかし、機械学習の歴史から、手作りのソリューションは最終的に学習されたソリューションに置き換えられることがわかる。 エージェントシステムの自動設計(ADAS)という新しい研究領域を定式化し、新しいビルディングブロックを発明したり、それらを新しい方法で組み合わせたりするなど、強力なエージェントシステム設計を自動生成することを目的としている。 さらに、ADAS内には、エージェントをコードで定義し、新しいエージェントをコードでより優れたエージェントプログラミングによって自動的に発見できる、未調査で有望なアプローチがあることを実証する。 プログラミング言語がチューリング完全であることを考えると、このアプローチは理論上、新しいプロンプト、ツールの使用、制御フロー、それらの組み合わせを含むあらゆるエージェントシステムの学習を可能にする。 本稿では,メタエージェント検索というシンプルなアルゴリズムを提案する。メタエージェントがこのアイデアを実証するためには,メタエージェントが,過去の発見を継続的に蓄積したアーカイブに基づいて,興味深い新しいエージェントを反復的にプログラムする。 コーディング、科学、数学を含む複数の分野にわたる広範な実験を通して、我々のアルゴリズムは、最先端のハンドデザインエージェントを大きく上回る斬新なデザインでエージェントを段階的に発明できることを示した。 重要なことは、メタエージェントサーチによって発明されたエージェントが、ドメインやモデル間で転送しても優れたパフォーマンスを維持し、その堅牢性と汎用性を示すという驚くべき結果が一貫して観察されていることである。 私たちがそれを安全に開発すれば、人類に利益をもたらすために、より強力なエージェントシステムを自動設計するための、エキサイティングな新しい研究の方向性が示されます。

Researchers are investing substantial effort in developing powerful general-purpose agents, wherein Foundation Models are used as modules within agentic systems (e.g. Chain-of-Thought, Self-Reflection, Toolformer). However, the history of machine learning teaches us that hand-designed solutions are eventually replaced by learned solutions. We formulate a new research area, Automated Design of Agentic Systems (ADAS), which aims to automatically create powerful agentic system designs, including inventing novel building blocks and/or combining them in new ways. We further demonstrate that there is an unexplored yet promising approach within ADAS where agents can be defined in code and new agents can be automatically discovered by a meta agent programming ever better ones in code. Given that programming languages are Turing Complete, this approach theoretically enables the learning of any possible agentic system: including novel prompts, tool use, control flows, and combinations thereof. We present a simple yet effective algorithm named Meta Agent Search to demonstrate this idea, where a meta agent iteratively programs interesting new agents based on an ever-growing archive of previous discoveries. Through extensive experiments across multiple domains including coding, science, and math, we show that our algorithm can progressively invent agents with novel designs that greatly outperform state-of-the-art hand-designed agents. Importantly, we consistently observe the surprising result that agents invented by Meta Agent Search maintain superior performance even when transferred across domains and models, demonstrating their robustness and generality. Provided we develop it safely, our work illustrates the potential of an exciting new research direction toward automatically designing ever-more powerful agentic systems to benefit humanity.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# PQV-Mobile: モバイルアプリケーションのためのビジョントランスを最適化するPruning and Quantization Toolkit

PQV-Mobile: A Combined Pruning and Quantization Toolkit to Optimize Vision Transformers for Mobile Applications ( http://arxiv.org/abs/2408.08437v1 )

ライセンス: Link先を確認
Kshitij Bhardwaj, (参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクにおいて極めて効果的であり、新しい最先端技術として畳み込みニューラルネットワークを置き換えるが、それらは複雑でメモリ集約的なモデルである。 リソース制約のあるモバイル/エッジシステム上でこれらのモデルを効果的に実行するためには、これらのモデルを圧縮するだけでなく、最適化し、デプロイに適したフォーマットに変換する必要がある。 そこで本稿では,PQV-Mobileと呼ばれる,モバイルアプリケーションのための視覚変換器を最適化するための複合的なプルーニング・量子化ツールを提案する。 このツールは、マグニチュードの重要性、テイラーの重要性、ヘッセンの重要性に基づいて、異なるタイプの構造化プルーニングをサポートすることができる。 FP32からFP16、int8への量子化もサポートしており、さまざまなモバイルハードウェアバックエンドをターゲットにしている。 我々は、Facebook Data Efficient Image Transformer (DeiT)モデルを用いて、ツールの機能を示し、異なる量のプルーニングとInt8量子化のための重要なレイテンシ-メモリ-精度トレードオフを示す。 その結果、DiTモデルを9.375%、FP32からInt8に量子化し、続いてモバイルアプリケーションに最適化しても、レイテンシが7.18X減少し、精度が2.24%低下することがわかった。 ツールはオープンソースです。

While Vision Transformers (ViTs) are extremely effective at computer vision tasks and are replacing convolutional neural networks as the new state-of-the-art, they are complex and memory-intensive models. In order to effectively run these models on resource-constrained mobile/edge systems, there is a need to not only compress these models but also to optimize them and convert them into deployment-friendly formats. To this end, this paper presents a combined pruning and quantization tool, called PQV-Mobile, to optimize vision transformers for mobile applications. The tool is able to support different types of structured pruning based on magnitude importance, Taylor importance, and Hessian importance. It also supports quantization from FP32 to FP16 and int8, targeting different mobile hardware backends. We demonstrate the capabilities of our tool and show important latency-memory-accuracy trade-offs for different amounts of pruning and int8 quantization with Facebook Data Efficient Image Transformer (DeiT) models. Our results show that even pruning a DeiT model by 9.375% and quantizing it to int8 from FP32 followed by optimizing for mobile applications, we find a latency reduction by 7.18X with a small accuracy loss of 2.24%. The tool is open source.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# D5RL:データ駆動型深層強化学習のための分散データセット

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning ( http://arxiv.org/abs/2408.08441v1 )

ライセンス: Link先を確認
Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine, (参考訳) オフライン強化学習アルゴリズムは、コストや危険な現実世界の探索や大規模な事前収集データセットの恩恵を必要としない、データ駆動型RLメソッドを可能にするという約束を持っている。 これにより、実世界の応用が促進され、RL研究へのより標準化されたアプローチが実現される。 さらに、オフラインのRL手法は、探索における課題を克服するために、オンラインの微調整に効果的な初期化を提供することができる。 しかし、オフラインRLアルゴリズムの進捗を評価するには、実世界のタスクの特性を捉え、タスクの難しさの範囲を提供し、ドメインのパラメータ(例えば、水平線の長さ、報酬の幅)とデータパラメータ(例えば、狭いデモデータや広い探索データ)の両方をカバーできる、効果的で挑戦的なベンチマークが必要である。 近年のオフラインRLのかなりの進歩は、より単純なベンチマークタスクによって実現されているが、最も広く使われているデータセットは、パフォーマンスが飽和し、現実的なタスクの特性を反映できない可能性がある。 我々は,実世界のロボットシステムのモデルに基づいて,ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案し,スクリプトデータ,人間の遠隔操作者によって収集されたプレイスタイルデータ,その他のデータソースを含むさまざまなデータソースを含む。 提案するベンチマークは、状態ベースドメインと画像ベースドメインを対象とし、オフラインのRLとオンラインの微調整評価の両方をサポートする。 提案したベンチマークは、オフラインRLと微調整アルゴリズムの両方でさらなる進歩を期待する。 コード、例、タスク、データを持つウェブサイトは、 \url{https://sites.google.com/view/d5rl/} で入手できる。

Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at \url{https://sites.google.com/view/d5rl/}
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 効率的な灌水スケジューリングのための半集中型マルチエージェントRLフレームワーク

A semi-centralized multi-agent RL framework for efficient irrigation scheduling ( http://arxiv.org/abs/2408.08442v1 )

ライセンス: Link先を確認
Bernard T. Agyeman, Benjamin Decard-Nelson, Jinfeng Liu, Sirish L. Shah, (参考訳) 本稿では,空間変動型農地における灌水計画のための半集中型マルチエージェント強化学習(SCMARL)手法を提案する。 SCMARLフレームワークは本質的に階層的であり、トップレベルに中央コーディネータエージェント、第2レベルに分散ローカルエージェントがある。 コーディネータエージェントは、現地エージェントに伝達されるフィールドワイド条件に基づいて、毎日二分灌水決定を行う。 ローカルエージェントは、ローカル条件を用いて、特定の管理ゾーンに対して適切な灌水量を決定する。 このフレームワークは、ローカルエージェントの環境における非定常性を扱うために、ステート拡張アプローチを採用している。 カナダ・レスブリッジの大規模フィールドに対する広範囲な評価は、SCMARLアプローチと学習に基づくマルチエージェントモデル予測制御手法を比較し、その性能の向上を強調し、水質保全と灌水利用効率(IWUE)の改善をもたらす。 特に, 提案手法は, IWUEを6.3%高めながら, 排水中の4.0%の貯水量を達成した。

This paper proposes a Semi-Centralized Multi-Agent Reinforcement Learning (SCMARL) approach for irrigation scheduling in spatially variable agricultural fields, where management zones address spatial variability. The SCMARL framework is hierarchical in nature, with a centralized coordinator agent at the top level and decentralized local agents at the second level. The coordinator agent makes daily binary irrigation decisions based on field-wide conditions, which are communicated to the local agents. Local agents determine appropriate irrigation amounts for specific management zones using local conditions. The framework employs state augmentation approach to handle non-stationarity in the local agents' environments. An extensive evaluation on a large-scale field in Lethbridge, Canada, compares the SCMARL approach with a learning-based multi-agent model predictive control scheduling approach, highlighting its enhanced performance, resulting in water conservation and improved Irrigation Water Use Efficiency (IWUE). Notably, the proposed approach achieved a 4.0% savings in irrigation water while enhancing the IWUE by 6.3%.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# W-RAG:オープンドメイン質問応答のためのRAGにおける暗黙の高密度検索

W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering ( http://arxiv.org/abs/2408.08444v1 )

ライセンス: Link先を確認
Jinming Nian, Zhiyuan Peng, Qifan Wang, Yi Fang, (参考訳) オープンドメイン質問応答(OpenQA)のような知識集約的なタスクでは、Large Language Models(LLM)は、内部(パラメトリック)の知識にのみ依存して、現実的な回答を生成するのに苦労することが多い。 この制限に対処するため、レトリーバー拡張生成(RAG)システムは、外部ソースから関連情報を検索することでLCMを強化し、レトリーバーを重要なコンポーネントとして位置づける。 厳密な検索は最先端のパフォーマンスを示すが、その訓練は、人間のアノテーションの高コストが原因で、地道な証拠が不足しているため、課題を生んでいる。 本稿では,LLMのランキング機能を活用してW-RAGを提案する。 具体的には、BM25を介して検索した上位$Kのパスを、質問と各パスに基づいてLLMが正しい回答を生成する確率を評価することで、再評価する。 上位の通路は、密集検索の正の訓練例として使用される。 公開されている4つのOpenQAデータセットの総合的な実験により、我々のアプローチはベースラインモデルと比較して検索とOpenQAのパフォーマンスを向上することを示した。

In knowledge-intensive tasks such as open-domain question answering (OpenQA), Large Language Models (LLMs) often struggle to generate factual answers relying solely on their internal (parametric) knowledge. To address this limitation, Retrieval-Augmented Generation (RAG) systems enhance LLMs by retrieving relevant information from external sources, thereby positioning the retriever as a pivotal component. Although dense retrieval demonstrates state-of-the-art performance, its training poses challenges due to the scarcity of ground-truth evidence, largely attributed to the high costs of human annotation. In this paper, we propose W-RAG by utilizing the ranking capabilities of LLMs to create weakly labeled data for training dense retrievers. Specifically, we rerank the top-$K$ passages retrieved via BM25 by assessing the probability that LLMs will generate the correct answer based on the question and each passage. The highest-ranking passages are then used as positive training examples for dense retrieval. Our comprehensive experiments across four publicly available OpenQA datasets demonstrate that our approach enhances both retrieval and OpenQA performance compared to baseline models.
翻訳日:2024-08-19 17:09:56 公開日:2024-08-15
# 神経変調による生涯強化学習

Lifelong Reinforcement Learning via Neuromodulation ( http://arxiv.org/abs/2408.08446v1 )

ライセンス: Link先を確認
Sebastian Lee, Samuel Liebana Garcia, Claudia Clopath, Will Dabney, (参考訳) 複数のタスクをナビゲートする$\unicode{x2014}$、連続学習や生涯学習、メタ学習やマルチタスク学習の$\unicode{x2014}$requires some idea of adapt。 千年紀の時間スケールの進化は、人間や他の動物に非常に効果的な適応学習と意思決定戦略をもたらした。 これらの機能の中心は、いわゆる神経調節システムである。 本研究では,適応型人工強化学習アルゴリズムの設計に神経科学と認知科学からの理論と証拠を統合するための抽象的枠組みを導入する。 神経調節物質であるAcetylcholine (ACh) とNoradrenaline (NA) を囲む文献に基づいて構築されたこの枠組みの具体例を示し, 適応アルゴリズムの有効性を, 非定常的マルチアームバンディット問題において実証的に検証した。 我々は、我々のフレームワークを実験神経科学の取り組みに結びつけるための道を提供する理論に基づく実験提案で締めくくります。

Navigating multiple tasks$\unicode{x2014}$for instance in succession as in continual or lifelong learning, or in distributions as in meta or multi-task learning$\unicode{x2014}$requires some notion of adaptation. Evolution over timescales of millennia has imbued humans and other animals with highly effective adaptive learning and decision-making strategies. Central to these functions are so-called neuromodulatory systems. In this work we introduce an abstract framework for integrating theories and evidence from neuroscience and the cognitive sciences into the design of adaptive artificial reinforcement learning algorithms. We give a concrete instance of this framework built on literature surrounding the neuromodulators Acetylcholine (ACh) and Noradrenaline (NA), and empirically validate the effectiveness of the resulting adaptive algorithm in a non-stationary multi-armed bandit problem. We conclude with a theory-based experiment proposal providing an avenue to link our framework back to efforts in experimental neuroscience.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# SpectralEarth: ハイパースペクトルの基礎モデルを大規模にトレーニングする

SpectralEarth: Training Hyperspectral Foundation Models at Scale ( http://arxiv.org/abs/2408.08447v1 )

ライセンス: Link先を確認
Nassim Ait Ali Braham, Conrad M Albrecht, Julien Mairal, Jocelyn Chanussot, Yi Wang, Xiao Xiang Zhu, (参考訳) ファンデーションモデルはコンピュータビジョンのパラダイムシフトを引き起こし、リモートセンシング、特にマルチスペクトル画像に採用されつつある。 しかし、そのハイパースペクトルイメージング(HSI)の可能性は、包括的でグローバルに代表されるハイパースペクトルデータセットが欠如していることから、未解決のままである。 このギャップを埋めるために,環境マッピング・分析プログラム(EnMAP)のデータを活用するハイパースペクトル基盤モデルの事前学習を目的とした,大規模なマルチ時間データセットであるSpectralEarthを紹介した。 SpectralEarthは、538,974枚の画像のパッチで、415,153個のユニークな場所をカバーしている。 さらに、これらの場所の17.5%は複数のタイムスタンプを含んでおり、複数の時間的HSI分析を可能にしている。 最先端の自己教師付き学習(SSL)アルゴリズムを利用することで、SpectralEarth上で一連の基礎モデルを事前訓練する。 我々は、スペクトルアダプタを古典的な視覚バックボーンに統合し、HSIのユニークな特性に対応する。 タンデムでは、土地被覆と作物型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。 実験結果は、我々のモデルの汎用性をサポートし、様々なタスクやセンサーにまたがる一般化性を示す。 また、モデル微調整時の計算効率も強調する。 データセット、モデル、ソースコードが公開されている。

Foundation models have triggered a paradigm shift in computer vision and are increasingly being adopted in remote sensing, particularly for multispectral imagery. Yet, their potential in hyperspectral imaging (HSI) remains untapped due to the absence of comprehensive and globally representative hyperspectral datasets. To close this gap, we introduce SpectralEarth, a large-scale multi-temporal dataset designed to pretrain hyperspectral foundation models leveraging data from the Environmental Mapping and Analysis Program (EnMAP). SpectralEarth comprises 538,974 image patches covering 415,153 unique locations from more than 11,636 globally distributed EnMAP scenes spanning two years of archive. Additionally, 17.5% of these locations include multiple timestamps, enabling multi-temporal HSI analysis. Utilizing state-of-the-art self-supervised learning (SSL) algorithms, we pretrain a series of foundation models on SpectralEarth. We integrate a spectral adapter into classical vision backbones to accommodate the unique characteristics of HSI. In tandem, we construct four downstream datasets for land-cover and crop-type mapping, providing benchmarks for model evaluation. Experimental results support the versatility of our models, showcasing their generalizability across different tasks and sensors. We also highlight computational efficiency during model fine-tuning. The dataset, models, and source code will be made publicly available.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# 予測モデル性能と一般化可能性の文脈におけるクロスモデル神経相関の探索

Exploring Cross-model Neuronal Correlations in the Context of Predicting Model Performance and Generalizability ( http://arxiv.org/abs/2408.08448v1 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Lionel Levine, Majid Sarrafzadeh, (参考訳) 人工知能(AI)モデルが重要なシステムに統合されるにつれて、AIの信頼性を確立するための堅牢なフレームワークの必要性がますます高まっている。 共同作業はそのようなフレームワークの概念的な基盤を確立してきましたが、AIモデルの品質とパフォーマンスを評価する技術的に堅牢な方法を開発する上で、依然として大きなギャップがあります。 モデルの妥当性と一般化性を評価する従来の方法における重大な欠点は、内部の開発者データセットに依存していることだ。 本稿では,ニューラルネットワーク間の相関関係を計算し,他の既知のモデルに基づく新たなトレーニングモデルの性能評価手法を提案する。 提案手法は,1つのネットワーク内の各ニューロンに対して,類似の出力を生成する他のネットワークにニューロンが存在するかどうかを判定することにより相関性を評価する。 このアプローチはメモリ効率に影響を及ぼし、異なるサイズのネットワーク間で高い相関関係が存在する場合、より小さなネットワークを使用することができる。 さらに、本手法はロバスト性に関する洞察を提供し、2つの高相関ネットワークを比較し、本番環境で運用する場合にロバスト性を示すとすると、他方も同様のロバスト性を示す可能性が高いことを示唆している。 このコントリビューションは、責任あるAIのための技術ツールキットを推進し、より包括的でニュアンスなAIモデルの評価をサポートし、安全で効果的なデプロイメントを保証する。

As Artificial Intelligence (AI) models are increasingly integrated into critical systems, the need for a robust framework to establish the trustworthiness of AI is increasingly paramount. While collaborative efforts have established conceptual foundations for such a framework, there remains a significant gap in developing concrete, technically robust methods for assessing AI model quality and performance. A critical drawback in the traditional methods for assessing the validity and generalizability of models is their dependence on internal developer datasets, rendering it challenging to independently assess and verify their performance claims. This paper introduces a novel approach for assessing a newly trained model's performance based on another known model by calculating correlation between neural networks. The proposed method evaluates correlations by determining if, for each neuron in one network, there exists a neuron in the other network that produces similar output. This approach has implications for memory efficiency, allowing for the use of smaller networks when high correlation exists between networks of different sizes. Additionally, the method provides insights into robustness, suggesting that if two highly correlated networks are compared and one demonstrates robustness when operating in production environments, the other is likely to exhibit similar robustness. This contribution advances the technical toolkit for responsible AI, supporting more comprehensive and nuanced evaluations of AI models to ensure their safe and effective deployment.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# 集積フォトニックGalton基板と光子計数への応用

Integrated photonic Galton board and its application for photon counting ( http://arxiv.org/abs/2408.08452v1 )

ライセンス: Link先を確認
Hezheng Qin, Risheng Cheng, Yiyu Zhou, Hong X. Tang, (参考訳) ガルトンボード(Galton board)は、古典的な粒子を用いた統計物理学の原理を視覚化するために伝統的に用いられてきたデスクトップ確率マシンである。 ここでは、単光子干渉のオンチップ観測を可能にするフォトニックなガルトン基板を実証する。 フォトニックなガルトン基板は、単純化されたボソンサンプリング器と見なすことができ、超伝導ナノワイヤ検出器の配列によって停止される方向のカプラ行列で構成され、時空間分解能を提供する。 この設計では光子数解決能力も備えており、高速光子計数にも適している。 本研究は, 単光子検出器アレイとフォトニック集積回路との整合性を実証し, オンチップ大規模量子光学実験とフォトニック量子コンピューティングの実現の道を開くものである。

The Galton board is a desktop probability machine traditionally used to visualize the principles of statistical physics with classical particles. Here, we demonstrate a photonic Galton board that enables on-chip observation of single-photon interference. The photonic Galton board, which can be considered as a simplified Boson sampler, consists of a directional coupler matrix terminated by an array of superconducting nanowire detectors to provide spatiotemporal resolution. This design also allows for photon-number-resolving capability, making it suitable for high-speed photon counting. Our results demonstrate the compatibility between single-photon detector array and photonic integrated circuits, paving the way for implementing on-chip large-scale quantum optics experiments and photonic quantum computing.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# CRQBench: コード推論に関する質問のベンチマーク

CRQBench: A Benchmark of Code Reasoning Questions ( http://arxiv.org/abs/2408.08453v1 )

ライセンス: Link先を確認
Elizabeth Dinella, Satish Chandra, Petros Maniatis, (参考訳) 大規模言語モデルは、コーディングタスクに例外的な習熟度を示してきたが、コードの推論能力を正確に評価することは困難である。 既存のベンチマークは、非現実的で、セマンティック推論能力とソフトウェアエンジニアリングタスクのパフォーマンスを説明できないため、不十分です。 CRQBenchは、コンテキスト化されたコードレビューコメントから得られた質問や回答を100のC++コードで推論するベンチマークである。 CRQBenchをキュレートするために、人間の検査と同時にLLMアシスタントを使用し、手作業の労力を減らす。 CRQBench 上で GPT-4 の評価を行い,100 問中65 問に対して所定の文脈で正しい応答が得られた。

Large Language Models have demonstrated exceptional proficiency on coding tasks, but it is challenging to precisely evaluate their code reasoning ability. Existing benchmarks are insufficient as they are unrealistic and conflate semantic reasoning ability with performance on software engineering tasks. We introduce CRQBench, a benchmark of 100 C++ code reasoning questions and answers derived from contextualized code review comments. To curate CRQBench, we use an LLM assistant alongside human inspection, reducing manual effort. We conduct an evaluation of GPT-4 on CRQBench and find that it produces correct responses grounded in the given context for 65 of the 100 questions.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# 均一なクエリ分散を超えて - キー駆動型グループクエリの注意

Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention ( http://arxiv.org/abs/2408.08454v1 )

ライセンス: Link先を確認
Zohaib Khan, Muhammad Khaquan, Omer Tafveez, Agha Ali Raza, (参考訳) Transformerアーキテクチャは、コンテキスト情報を効果的にキャプチャするセルフアテンションメカニズムを通じて、ディープラーニングに革命をもたらした。 しかし、Self-Attentionのメモリフットプリントは、長時間のタスクに重大な課題をもたらす。 Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。 本稿では,鍵分散GQA(KDGQA)と動的鍵分散GQA(DGQA)という,グループ分けの静的性質から逸脱する2つの新しいアプローチに注目し,GQAの強化を紹介する。 具体的には、KDGQAは各前方通過中のキーヘッドのノルムの比率を調べ、DGQAはトレーニングによって進化するノルムの比率を調べる。 さらに,注意図からノイズを減じることによる(静的な)グループ形成のばらつきをもたらすケーススタディとして,Perturbed GQA(PGQA)を提案する。 CIFAR-10、CIFAR-100、Food101、Tiny ImageNetなどのデータセットの画像分類のためのアップトレーニングされた視覚変換器を用いた実験では、より情報的かつ適応的なグループ化機構により、元のGQAを改善する上でこれらの変異が期待できることを示す。 さらに、キーバリューヘッドの数がパフォーマンスに与える影響を分析し、クエリキー親和性を活用することの重要性を強調する。

The Transformer architecture has revolutionized deep learning through its Self-Attention mechanism, which effectively captures contextual information. However, the memory footprint of Self-Attention presents significant challenges for long-sequence tasks. Grouped Query Attention (GQA) addresses this issue by grouping queries and mean-pooling the corresponding key-value heads - reducing the number of overall parameters and memory requirements in a flexible manner without adversely compromising model accuracy. In this work, we introduce enhancements to GQA, focusing on two novel approaches that deviate from the static nature of grouping: Key-Distributed GQA (KDGQA) and Dynamic Key-Distributed GQA (DGQA), which leverage information from the norms of the key heads to inform query allocation. Specifically, KDGQA looks at the ratios of the norms of the key heads during each forward pass, while DGQA examines the ratios of the norms as they evolve through training. Additionally, we present Perturbed GQA (PGQA) as a case-study, which introduces variability in (static) group formation via subtracting noise from the attention maps. Our experiments with up-trained Vision Transformers, for Image Classification on datasets such as CIFAR-10, CIFAR-100, Food101, and Tiny ImageNet, demonstrate the promise of these variants in improving upon the original GQA through more informed and adaptive grouping mechanisms: specifically ViT-L experiences accuracy gains of up to 8% when utilizing DGQA in comparison to GQA and other variants. We further analyze the impact of the number of Key-Value Heads on performance, underscoring the importance of utilizing query-key affinities.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# 医用画像における分布ドリフトの早期検出のための効率的なデータスケッチとファインチューニング

Efficient Data-Sketches and Fine-Tuning for Early Detection of Distributional Drift in Medical Imaging ( http://arxiv.org/abs/2408.08456v1 )

ライセンス: Link先を確認
Yusen Wu, Hao Chen, Alex Pissinou Makki, Phuong Nguyen, Yelena Yesha, (参考訳) 分布ドリフト検出は、診断や治療決定に影響を与える可能性のある基礎となるデータ分布の変化を特定することによって、モデルの精度と信頼性を確保するため、医療応用において重要である。 しかし、現在の手法ではドリフトの検出に制限があり、例えば異常なデータセットを含むと不公平な比較につながる可能性がある。 本稿では,CTスキャンによる医用画像の分布ドリフトを高精度かつ高感度に検出する手法を提案する。 本研究では,リアルタイム異常検出のためのロバストなベースラインライブラリモデルを構築し,画像の効率的な比較と異常の同定を可能にした。 さらに、乳がん画像を用いて関連特徴を抽出するために、予め訓練した視覚トランスフォーマーモデルを微調整し、モデル精度を99.11\%まで大幅に向上させた。 データスケッチと微調整を組み合わせることで,類似したデータセット間のコサイン類似度スコアが約50倍から100倍に向上することを示した。 最後に, 感度評価の結果, 解法は1\%のソルト・アンド・ペッパーやスペックルノイズにも非常に敏感であり, 照明騒音にも敏感であることがわかった(例えば, 照明条件はデータドリフトに影響を与えない)。 提案手法は, 動的臨床環境における診断モデルの精度を維持するために, スケーラブルで信頼性の高いソリューションを提供する。

Distributional drift detection is important in medical applications as it helps ensure the accuracy and reliability of models by identifying changes in the underlying data distribution that could affect diagnostic or treatment decisions. However, current methods have limitations in detecting drift; for example, the inclusion of abnormal datasets can lead to unfair comparisons. This paper presents an accurate and sensitive approach to detect distributional drift in CT-scan medical images by leveraging data-sketching and fine-tuning techniques. We developed a robust baseline library model for real-time anomaly detection, allowing for efficient comparison of incoming images and identification of anomalies. Additionally, we fine-tuned a vision transformer pre-trained model to extract relevant features using breast cancer images as an example, significantly enhancing model accuracy to 99.11\%. Combining with data-sketches and fine-tuning, our feature extraction evaluation demonstrated that cosine similarity scores between similar datasets provide greater improvements, from around 50\% increased to 100\%. Finally, the sensitivity evaluation shows that our solutions are highly sensitive to even 1\% salt-and-pepper and speckle noise, and it is not sensitive to lighting noise (e.g., lighting conditions have no impact on data drift). The proposed methods offer a scalable and reliable solution for maintaining the accuracy of diagnostic models in dynamic clinical environments.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# JPEG-LM:標準コーデック表現を用いたイメージジェネレータとしてのLCM

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations ( http://arxiv.org/abs/2408.08459v1 )

ライセンス: Link先を確認
Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov, (参考訳) 画像およびビデオ生成における最近の研究は、その汎用性と、マルチモーダルシステムへの容易な統合により、自己回帰型LLMアーキテクチャを採用する。 言語生成における自己回帰トレーニングを視覚的生成に適用する上での要点は、画像やビデオなどの連続したデータを離散トークンとして表現する、離散化である。 画像やビデオの離散化の一般的な方法は、不当に長めである生のピクセル値のモデリングや、複雑なプレホックトレーニングを必要とするベクトル量子化である。 本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。 画像を生成するためにJPEG-LMをスクラッチから事前訓練し(AVC-LMは概念実証としてビデオを生成する)、JPEGおよびAVCフォーマットで圧縮されたファイルバイトを直接出力する。 画像生成の評価は、この単純で簡単なアプローチは、ピクセルベースモデリングや高度なベクトル量子化ベースライン(FIDの31%削減をもたらす)よりも効果的であることを示している。 解析の結果,JPEG-LMはベクトル量子化モデルよりも長期視覚要素の生成に有利であることが示唆された。 全体として、標準コーデック表現を用いることで、言語生成と視覚生成の間の障壁を減らし、マルチモーダル言語/画像/ビデオLLMの今後の研究を促進することが示される。

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.
翻訳日:2024-08-19 16:59:46 公開日:2024-08-15
# 共形アンサンブルによる気候予測の不確かさの定量化

Quantifying uncertainty in climate projections with conformal ensembles ( http://arxiv.org/abs/2408.06642v2 )

ライセンス: Link先を確認
Trevor Harris, Ryan Sriver, (参考訳) 大規模な気候モデルアンサンブルは、将来の気候状態をしっかりと予測し、予測の不確実性を定量化する主要なツールである。 過去数十年間、気候モデリングの著しい進歩にもかかわらず、全体予測の確実性は、モデルスキルを着実に改善することで、相変わらず低下していない。 我々は,予測の不確実性を低減するために,共形推論に基づく気候予測における不確実性定量化の新しいアプローチである共形アンサンブルを導入する。 従来の手法とは異なり、共形アンサンブルは気候モデルアンサンブルと観測データを様々なスケールでシームレスに統合し、統計的に厳密で容易に解釈できる不確実性推定を生成する。 アンサンブル解析法を用いて任意の気候変数に適用でき、すべての時間地平線およびSSP2-4.5の下でのほとんどの空間的位置における不確実な定量化において、既存のモデル間変動法より優れる。 コンフォーマルエンハンブルもまた計算的に効率的であり、最小限の仮定を必要とし、コンフォーマルエンハンブル測度に対して非常に堅牢である。 実験により、従来のアンサンブル平均化手法と比較して、過去の分析データに将来の予測を条件付けると、より物理的に一貫した予測が得られることが示された。

Large climate model ensembles are the primary tool for robustly projecting future climate states and quantifying projection uncertainty. Despite significant advancements in climate modeling over the past few decades, overall projection certainty has not commensurately decreased with steadily improving model skill. We introduce conformal ensembling, a new approach to uncertainty quantification in climate projections based on conformal inference to reduce projection uncertainty. Unlike traditional methods, conformal ensembling seamlessly integrates climate model ensembles and observational data across a range of scales to generate statistically rigorous, easy-to-interpret uncertainty estimates. It can be applied to any climatic variable using any ensemble analysis method and outperforms existing inter-model variability methods in uncertainty quantification across all time horizons and most spatial locations under SSP2-4.5. Conformal ensembling is also computationally efficient, requires minimal assumptions, and is highly robust to the conformity measure. Experiments show that it is effective when conditioning future projections on historical reanalysis data compared with standard ensemble averaging approaches, yielding more physically consistent projections.
翻訳日:2024-08-19 10:58:09 公開日:2024-08-15
# 適応型オンライン学習に基づく確率的負荷予測

Probabilistic Load Forecasting Based on Adaptive Online Learning ( http://arxiv.org/abs/2011.14721v4 )

ライセンス: Link先を確認
Verónica Álvarez, Santiago Mazuelas, José A. Lozano, (参考訳) 負荷予測は、発電能力のスケジューリング、供給と需要の計画、エネルギー取引コストの最小化など、複数のエネルギー管理タスクに不可欠である。 近年、再生可能エネルギー、電気自動車、マイクログリッドの統合により、その関連性はますます高まっている。 従来の負荷予測技術は、過去の負荷需要の消費パターンを利用して、単一値の負荷予測を得る。 しかし、そのような手法は、負荷需要の本質的な不確実性を評価することができず、消費パターンの動的変化を捉えることはできない。 本稿では,隠れマルコフモデルの適応型オンライン学習に基づく確率的負荷予測手法を提案する。 本稿では,理論的保証のある学習予測手法を提案し,その性能を複数のシナリオで実験的に評価する。 特に,モデルパラメータを再帰的に更新する適応型オンライン学習手法と,最新のパラメータを用いて確率的予測を得る逐次予測手法を開発する。 本手法の性能は,異なる大きさの領域に対応する複数のデータセットを用いて評価し,時間変化の異なる消費パターンを表示する。 その結果,提案手法は様々なシナリオにおいて既存手法の性能を大幅に向上させることができることがわかった。

Load forecasting is crucial for multiple energy management tasks such as scheduling generation capacity, planning supply and demand, and minimizing energy trade costs. Such relevance has increased even more in recent years due to the integration of renewable energies, electric cars, and microgrids. Conventional load forecasting techniques obtain single-value load forecasts by exploiting consumption patterns of past load demand. However, such techniques cannot assess intrinsic uncertainties in load demand, and cannot capture dynamic changes in consumption patterns. To address these problems, this paper presents a method for probabilistic load forecasting based on the adaptive online learning of hidden Markov models. We propose learning and forecasting techniques with theoretical guarantees, and experimentally assess their performance in multiple scenarios. In particular, we develop adaptive online learning techniques that update model parameters recursively, and sequential prediction techniques that obtain probabilistic forecasts using the most recent parameters. The performance of the method is evaluated using multiple datasets corresponding with regions that have different sizes and display assorted time-varying consumption patterns. The results show that the proposed method can significantly improve the performance of existing techniques for a wide range of scenarios.
翻訳日:2024-08-16 19:30:50 公開日:2024-08-15
# 半教師付き学習を用いた中国語中国語における多音不明瞭化

Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning ( http://arxiv.org/abs/2102.00621v3 )

ライセンス: Link先を確認
Yi Shi, Congyi Wang, Yu Chen, Bin Wang, (参考訳) 漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。 音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。 このプロセスはPolyphone Disambiguationと呼ばれる。 この問題は、知識ベースと学習ベースの両方のアプローチでよく研究されてきたが、一般に公開されているラベル付きデータセットの欠如と、中国語におけるポリフォンの不規則性により、依然として困難である。 本稿では,中国語多言語不明瞭化のための新たな半教師付き学習(SSL)フレームワークを提案する。 本稿では,エントロピー保持やレキシコンベースラベリングなど,さまざまなプロキシラベリング戦略の効果について検討する。 定性的かつ定量的な実験により,本手法が最先端の性能を実現することを示す。 さらに,ポリホンの曖昧化タスクに特化した新しいデータセットを公開し,さらなる研究を促進する。

The majority of Chinese characters are monophonic, while a special group of characters, called polyphonic characters, have multiple pronunciations. As a prerequisite of performing speech-related generative tasks, the correct pronunciation must be identified among several candidates. This process is called Polyphone Disambiguation. Although the problem has been well explored with both knowledge-based and learning-based approaches, it remains challenging due to the lack of publicly available labeled datasets and the irregular nature of polyphone in Mandarin Chinese. In this paper, we propose a novel semi-supervised learning (SSL) framework for Mandarin Chinese polyphone disambiguation that can potentially leverage unlimited unlabeled text data. We explore the effect of various proxy labeling strategies including entropy-thresholding and lexicon-based labeling. Qualitative and quantitative experiments demonstrate that our method achieves state-of-the-art performance. In addition, we publish a novel dataset specifically for the polyphone disambiguation task to promote further research.
翻訳日:2024-08-16 19:30:50 公開日:2024-08-15
# 因果効果推定のない推論効果の順序付け

Inferring Effect Ordering Without Causal Effect Estimation ( http://arxiv.org/abs/2206.12532v5 )

ライセンス: Link先を確認
Carlos Fernández-Loría, Jorge Loría, (参考訳) 予測モデルは、広告、顧客の保持、パーソナライズドメディカルな医療など、様々な分野の介入をガイドするためにしばしば使用される。 これらのモデルは、しばしば介入の実際の効果を見積もらず、プロキシとして機能し、予測された結果に基づいて潜在的な効果を示唆する。 本稿では、これらの予測モデルをいつ、どのように因果的に解釈できるかという批判的な疑問に対処し、特に、正確な効果サイズではなく、効果の順序を推測するためにモデルを使用することに焦点をあてる。 直接因果効果を推定することなく, 直接因果効果を推定するのに十分な2つの仮定, 完全な潜時媒介と潜時単調性を定式化する。 介入時の個人行動に関するデータや、関心の最初の結果に関するデータがないシナリオにおいて、効果順序を推測するためのプロキシの実現可能性を評価する上で、これらの仮定の有用性について検討する。 また,プロキシに関する評価を実践者が独自に行うための実践的ガイドラインも提供する。 本研究の結果は,プロキシから効果の順序を合理的に推測できるだけでなく,これらのプロキシをモデル化することで直接効果の予測に勝ることを示す。 本研究は、効果推定以上の代替因果解釈を包含する因果推論の拡充の重要性を強調し、直接効果推定が不可能な場合に意思決定プロセスを強化するための今後の研究の基盤を提供する。

Predictive models are often employed to guide interventions across various domains, such as advertising, customer retention, and personalized medicine. These models often do not estimate the actual effects of interventions but serve as proxies, suggesting potential effectiveness based on predicted outcomes. Our paper addresses the critical question of when and how these predictive models can be interpreted causally, specifically focusing on using the models for inferring effect ordering rather than precise effect sizes. We formalize two assumptions, full latent mediation and latent monotonicity, that are jointly sufficient for inferring effect ordering without direct causal effect estimation. We explore the utility of these assumptions in assessing the feasibility of proxies for inferring effect ordering in scenarios where there is no data on how individuals behave when intervened or no data on the primary outcome of interest. Additionally, we provide practical guidelines for practitioners to make their own assessments about proxies. Our findings reveal not only when it is possible to reasonably infer effect ordering from proxies, but also conditions under which modeling these proxies can outperform direct effect estimation. This study underscores the importance of broadening causal inference to encompass alternative causal interpretations beyond effect estimation, offering a foundation for future research to enhance decision-making processes when direct effect estimation is not feasible.
翻訳日:2024-08-16 19:30:50 公開日:2024-08-15
# パターン生成・コントラストネットワークによる非教師付き産業異常検出

Unsupervised Industrial Anomaly Detection via Pattern Generative and Contrastive Networks ( http://arxiv.org/abs/2207.09792v2 )

ライセンス: Link先を確認
Jianfeng Huang, Chenyang Li, Yimin Lin, Shiguo Lian, (参考訳) 産業生産におけるディープラーニングネットワークのトレーニングには,十分な欠陥画像の収集が困難である。 そのため,既存の産業的異常検出手法では,CNNをベースとした非教師なし検出・ローカライゼーションネットワークが好まれる。 しかし、従来のエンド・ツー・エンドのネットワークは高次元空間における非線形モデルの適合障壁に悩まされているため、新しい信号に変異が発生した場合、これらの手法は常に失敗する。 さらに、通常の画像の特徴を本質的にクラスタリングすることでメモリライブラリを持っているため、テクスチャ変更に対して堅牢ではない。 そこで本研究では,Vision Transformerをベースとした教師なし異常検出ネットワークを提案する。 階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。 我々のネットワークはパターン生成と比較ネットワークで構成されている。 パターン生成ネットワークは、2つのVITベースのエンコーダモジュールを使用して、2つの連続したイメージパッチの特徴を抽出し、次にVITベースのデコーダモジュールを使用して、これらの機能の人間設計スタイルを学習し、3番目のイメージパッチを予測する。 その後、Siameseベースのネットワークを用いて、生成画像パッチとオリジナル画像パッチの類似性を計算する。 最後に、双方向推論戦略により、異常な局所化を洗練する。 公開データセットMVTecデータセットの比較実験により,従来の最先端手法を超越した99.8%のAUCが得られた。 さらに, 皮革と布のデータセットについて定性的な図式を作成した。 精度の高いセグメントは,異常検出における本手法の精度を強く証明する。

It is hard to collect enough flaw images for training deep learning network in industrial production. Therefore, existing industrial anomaly detection methods prefer to use CNN-based unsupervised detection and localization network to achieve this task. However, these methods always fail when there are varieties happened in new signals since traditional end-to-end networks suffer barriers of fitting nonlinear model in high-dimensional space. Moreover, they have a memory library by clustering the feature of normal images essentially, which cause it is not robust to texture change. To this end, we propose the Vision Transformer based (VIT-based) unsupervised anomaly detection network. It utilizes a hierarchical task learning and human experience to enhance its interpretability. Our network consists of pattern generation and comparison networks. Pattern generation network uses two VIT-based encoder modules to extract the feature of two consecutive image patches, then uses VIT-based decoder module to learn the human designed style of these features and predict the third image patch. After this, we use the Siamese-based network to compute the similarity of the generation image patch and original image patch. Finally, we refine the anomaly localization by the bi-directional inference strategy. Comparison experiments on public dataset MVTec dataset show our method achieves 99.8% AUC, which surpasses previous state-of-the-art methods. In addition, we give a qualitative illustration on our own leather and cloth datasets. The accurate segment results strongly prove the accuracy of our method in anomaly detection.
翻訳日:2024-08-16 19:30:50 公開日:2024-08-15
# 確率的量子係数解析

Probabilistic Quantile Factor Analysis ( http://arxiv.org/abs/2212.10301v3 )

ライセンス: Link先を確認
Dimitris Korobilis, Maximilian Schröder, (参考訳) 本稿では,正則化と計算効率の良い変分近似を組み込んだ確率的変分へと量子係数解析を拡張した。 我々は,提案した推定器が最近提案した損失ベース推定器よりも精度の高い推定器を実現することができるように,合成および実データ実験を通じて確立する。 本研究は, 経済政策の不確実性, および, 財務状況の指標として, 因子分析の文献を抽出し, 因子分析に寄与する。 経済活動の様々な指標において、高い不確実性と厳密な金融条件指数が優れた予測能力を有することを示す。 約1000の日次ファイナンシャルシリーズを含む高次元のエクササイズでは、平均または中央値の要素と比較して、量子的要因が優れたサンプル外情報を提供することがわかった。

This paper extends quantile factor analysis to a probabilistic variant that incorporates regularization and computationally efficient variational approximations. We establish through synthetic and real data experiments that the proposed estimator can, in many cases, achieve better accuracy than a recently proposed loss-based estimator. We contribute to the factor analysis literature by extracting new indexes of \emph{low}, \emph{medium}, and \emph{high} economic policy uncertainty, as well as \emph{loose}, \emph{median}, and \emph{tight} financial conditions. We show that the high uncertainty and tight financial conditions indexes have superior predictive ability for various measures of economic activity. In a high-dimensional exercise involving about 1000 daily financial series, we find that quantile factors also provide superior out-of-sample information compared to mean or median factors.
翻訳日:2024-08-16 19:30:50 公開日:2024-08-15
# 物理学における独立命題の意義

Some Implications of the Independence Postulate for Physics ( http://arxiv.org/abs/2302.07649v7 )

ライセンス: Link先を確認
Samuel Epstein, (参考訳) 多くの世界理論と建設論は独立宣言と矛盾している。 多世界理論との対立は、多数の電子のスピンを測定する有限の実験の存在によって示される。 実験の後、独立命題を破る禁止シーケンスを含む正の確率の分岐が存在する。 コンストラクタ理論(Constructor Theory)は、あるプロセスが実行可能である、あるいは実行できないことを宣言する反事実から成り立っている。 しかし、この二項分類は、禁止されたシーケンスを発見または生成できるかどうかを記述する際に課題を満たす。

The Many Worlds Theory and Constructor Theory are in conflict with the Independence Postulate. The conflict with the Many Worlds Theory is shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate. Constructor Theory consists of counterfactuals, decreeing certain processes can or cannot occur. However this binary classification meets challenges when describing whether a forbidden sequence can be found or created.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# ニューラルネットワークのモデル圧縮について:フレームワーク,アルゴリズム,収束保証

On Model Compression for Neural Networks: Framework, Algorithm, and Convergence Guarantee ( http://arxiv.org/abs/2303.06815v3 )

ライセンス: Link先を確認
Chenyang Li, Jihoon Chung, Mengnan Du, Haimin Wang, Xianlian Zhou, Bo Shen, (参考訳) モデル圧縮は、特に多くのアプリケーションでコンピュータデバイスのメモリとストレージが制限されている場合、ニューラルネットワーク(NN)のデプロイにおいて重要な部分である。 本稿では,近年広く普及しているニューラルネットワークにおける低ランク近似と重み付けという2つのモデル圧縮技術に焦点を当てる。 しかし、低ランク近似と重量刈りのトレーニングNNは、常にかなりの精度の損失と収束の問題に悩まされる。 本稿では, 対象関数を適切に設計することで, 非凸最適化の新たな視点から, モデル圧縮のための包括的枠組みを提案する。 次に,非凸最適化のためのブロック座標降下(BCD)アルゴリズムであるNN-BCDを紹介する。 アルゴリズムの利点の1つは、効率的な反復スキームを、勾配のない閉形式で導出できることである。 したがって,アルゴリズムは勾配問題を解消・展開することができない。 さらに、我々の目的関数のKurtyka-{\L}ojasiewicz (K{\L}) 特性により、我々のアルゴリズムはO(1/k) の速度で臨界点に収束し、k は反復数を表す。 最後に, テンソルトレインの分解および重み付けによる広範囲な実験により, 提案手法の有効性と性能を実証した。 私たちのコード実装はhttps://github.com/ChenyangLi-97/NN-BCDで利用可能です。

Model compression is a crucial part of deploying neural networks (NNs), especially when the memory and storage of computing devices are limited in many applications. This paper focuses on two model compression techniques: low-rank approximation and weight pruning in neural networks, which are very popular nowadays. However, training NN with low-rank approximation and weight pruning always suffers significant accuracy loss and convergence issues. In this paper, a holistic framework is proposed for model compression from a novel perspective of nonconvex optimization by designing an appropriate objective function. Then, we introduce NN-BCD, a block coordinate descent (BCD) algorithm to solve the nonconvex optimization. One advantage of our algorithm is that an efficient iteration scheme can be derived with closed-form, which is gradient-free. Therefore, our algorithm will not suffer from vanishing/exploding gradient problems. Furthermore, with the Kurdyka-{\L}ojasiewicz (K{\L}) property of our objective function, we show that our algorithm globally converges to a critical point at the rate of O(1/k), where k denotes the number of iterations. Lastly, extensive experiments with tensor train decomposition and weight pruning demonstrate the efficiency and superior performance of the proposed framework. Our code implementation is available at https://github.com/ChenyangLi-97/NN-BCD
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# パスとしてのレーングラフ:オンラインレーングラフ構築のための連続保存パスワイズモデリング

Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction ( http://arxiv.org/abs/2303.08815v3 )

ライセンス: Link先を確認
Bencheng Liao, Shaoyu Chen, Bo Jiang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang, (参考訳) オンラインレーングラフの構築は、自動運転において有望だが挑戦的な課題である。 従来の方法は、通常、ピクセルまたはピースレベルでレーングラフをモデル化し、ピクセルワイドまたはピースワイド接続によってレーングラフを復元する。 人間のドライバーは車線ではなく、連続した経路と完全な経路に焦点を合わせ、運転する。 自動走行車は、軌道計画のためのレーングラフからの経路固有のガイダンスも必要である。 交通の流れを示す経路はレーングラフの原始的部分であると主張する。 そこで本研究では,レーンの連続性を良好に保ち,計画のための交通情報を符号化した経路グラフを,新しいパスワイズでモデル化することを提案する。 本稿では,パスに基づくオンラインレーングラフ構築手法であるLaneGAPを提案し,パスをエンドツーエンドで学習し,Path2Graphアルゴリズムを用いてレーングラフを復元する。 制御可能かつ公正な条件下での難解なnuScenesとArgoverse2データセットに対する従来のピクセルベースおよびピースベース手法よりも、LaneGAPの精度と効率を質的かつ定量的に示す。 OpenLane-V2データセット上の最近の最先端のピースワイドメソッドであるTopoNetと比較すると、LaneGAPは1.6 mIoUよりもパフォーマンスが優れており、パスワイドモデリングの有効性が検証されている。 補足資料には、LaneGAPが様々な交通状況に対処できることが示されている。 コードは \url{https://github.com/hustvl/LaneGAP} でリリースされる。

Online lane graph construction is a promising but challenging task in autonomous driving. Previous methods usually model the lane graph at the pixel or piece level, and recover the lane graph by pixel-wise or piece-wise connection, which breaks down the continuity of the lane and results in suboptimal performance. Human drivers focus on and drive along the continuous and complete paths instead of considering lane pieces. Autonomous vehicles also require path-specific guidance from lane graph for trajectory planning. We argue that the path, which indicates the traffic flow, is the primitive of the lane graph. Motivated by this, we propose to model the lane graph in a novel path-wise manner, which well preserves the continuity of the lane and encodes traffic information for planning. We present a path-based online lane graph construction method, termed LaneGAP, which end-to-end learns the path and recovers the lane graph via a Path2Graph algorithm. We qualitatively and quantitatively demonstrate the superior accuracy and efficiency of LaneGAP over conventional pixel-based and piece-based methods on the challenging nuScenes and Argoverse2 datasets under controllable and fair conditions. Compared to the recent state-of-the-art piece-wise method TopoNet on the OpenLane-V2 dataset, LaneGAP still outperforms by 1.6 mIoU, further validating the effectiveness of path-wise modeling. Abundant visualizations in the supplementary material show LaneGAP can cope with diverse traffic conditions. Code is released at \url{https://github.com/hustvl/LaneGAP}.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# 需要応答型公共交通のメリットと課題 : ノースカロライナ州シャーロット市を事例として

Towards Understanding the Benefits and Challenges of Demand Responsive Public Transit- A Case Study in the City of Charlotte, NC ( http://arxiv.org/abs/2304.06467v2 )

ライセンス: Link先を確認
Sanaz Sadat Hosseini, Mona Azarbayjani, Jason Lawrence, Hamed Tabkhi, (参考訳) 信頼性の高い公共交通機関へのアクセスは、社会経済的格差、特に仕事や医療、本質的なサービスへの交通に大きく依存する低所得社会に対処するために不可欠である。 本研究は、現在の公共バスシステムにおける公共交通機関の空間的およびサービス的不等式に着目して、ノースカロライナ州シャーロットの交通依存人口が直面している課題について考察する。 本研究は、当初、低所得者の日常生活に大きな影響を及ぼす待ち時間、信頼性の低いスケジュール、アクセシビリティの制限など、重要な課題について評価した。 これらの課題に対応するために、私たちは、トランジットギャップを最小化し、将来的にはサービス効率を高めるように設計された、接続された需要応答型バスシステムの可能性を評価するために、データを収集しました。 この評価には、既存のシャーロット地域交通システム(CATS)モバイルアプリケーションの分析と、提案されたスマートオンデマンドトランジット技術に対するユーザ受け入れ調査が含まれていた。 また,Sprinter 路線と Bus Line 7, 9, 97-99 路線を含む主要路線を対象とした調査により,現行路線の重大な欠点が判明した。 しかし,スマートフォンのアクセシビリティ,プライバシ,信頼に関する懸念を効果的に解決し,新たなトランジットソリューションを採用することへの参加者の強い意欲が示唆されている。 この研究は、シャーロットにおける公共交通システムの近代化に関する貴重な洞察に貢献し、革新的で公平で効率的な輸送ソリューションを開発する上で、ユーザー中心のアプローチの重要性を強調している。

Access to reliable public transportation is essential for addressing socio-economic disparities, particularly in low-income communities that rely heavily on transit for accessing jobs, healthcare, and essential services. This study investigates the challenges faced by transit-dependent populations in Charlotte, NC, focusing on the spatial and service-related inequities within the current public bus system. Our research initially evaluates critical issues such as extended wait times, unreliable schedules, and limited accessibility, which significantly impact the daily lives of low-income residents. In response to these challenges, we gathered data to assess the potential for a connected, demand-responsive bus system designed to minimize transit gaps and enhance service efficiency in the future. This evaluation included an analysis of the existing Charlotte Area Transit System (CATS) mobile applications and the exploration of user acceptance for a proposed smart, on-demand transit technology. Through surveys conducted across key bus lines-including the Sprinter line and Bus Lines 7, 9, and 97-99-we identified significant shortcomings in the current system. However, our findings also indicate a strong willingness among participants to adopt new transit solutions, provided that they effectively address current issues and alleviate concerns related to smartphone accessibility, privacy, and trust. This research contributes valuable insights into the modernization of public transit systems in Charlotte, highlighting the importance of user-centric approaches in developing innovative, equitable, and efficient transportation solutions.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# Hi-ResNet:高分解能リモートセンシングセグメンテーションのためのエッジ詳細化

Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation ( http://arxiv.org/abs/2305.12691v3 )

ライセンス: Link先を確認
Yuxia Chen, Pengcheng Fang, Jianhui Yu, Xiaoling Zhong, Xiaoming Zhang, Tianrui Li, (参考訳) 高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。 しかし、HRS画像内の同じカテゴリのオブジェクトは、様々な地理的環境におけるスケールと形状の顕著な違いを示しており、データ分布に適合することが困難である。 さらに、複雑な背景環境は、異なるカテゴリのオブジェクトに類似した外観を引き起こすため、かなりの数のオブジェクトが背景として誤分類される。 これらの問題は、既存の学習アルゴリズムを準最適にする。 本研究では,高分解能リモートセンシングネットワーク(Hi-ResNet)をファンネルモジュール,情報集約ブロック(IA)ブロックのスタックを持つマルチブランチモジュール,順次,クラス非依存エッジアウェア(CEA)ロスからなるネットワーク構造設計により提案する。 具体的には、計算コストを削減し、初期入力画像から高精細な意味情報を抽出する、ダウンサンプルのためのファンネルモジュールを提案する。 第2に,処理された特徴画像を段階的にマルチレゾリューションに分解し,異なるスケールで画像特徴をキャプチャし,IAブロックを適用し,注意機構を利用して重要な潜時情報をキャプチャし,特徴集約を効果的に行い,同一クラスの画像特徴を異なるスケールと形状で識別する。 最後に,機能改善モジュールはCEA損失関数を統合し,類似した形状のクラス間オブジェクトを曖昧にし,正確な予測のためのデータ分散距離を増大させる。 実効的な事前学習戦略により、3つのHRSセグメンテーションベンチマークにおける最先端手法よりもHi-ResNetの方が優れていることを示した。

High-resolution remote sensing (HRS) semantic segmentation extracts key objects from high-resolution coverage areas. However, objects of the same category within HRS images generally show significant differences in scale and shape across diverse geographical environments, making it difficult to fit the data distribution. Additionally, a complex background environment causes similar appearances of objects of different categories, which precipitates a substantial number of objects into misclassification as background. These issues make existing learning algorithms sub-optimal. In this work, we solve the above-mentioned problems by proposing a High-resolution remote sensing network (Hi-ResNet) with efficient network structure designs, which consists of a funnel module, a multi-branch module with stacks of information aggregation (IA) blocks, and a feature refinement module, sequentially, and Class-agnostic Edge Aware (CEA) loss. Specifically, we propose a funnel module to downsample, which reduces the computational cost, and extract high-resolution semantic information from the initial input image. Secondly, we downsample the processed feature images into multi-resolution branches incrementally to capture image features at different scales and apply IA blocks, which capture key latent information by leveraging attention mechanisms, for effective feature aggregation, distinguishing image features of the same class with variant scales and shapes. Finally, our feature refinement module integrate the CEA loss function, which disambiguates inter-class objects with similar shapes and increases the data distribution distance for correct predictions. With effective pre-training strategies, we demonstrated the superiority of Hi-ResNet over state-of-the-art methods on three HRS segmentation benchmarks.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# ロバストベイズ合成様相に対するワッサーシュタインガウス化と効率的な変分ベイズ

Wasserstein Gaussianization and Efficient Variational Bayes for Robust Bayesian Synthetic Likelihood ( http://arxiv.org/abs/2305.14746v2 )

ライセンス: Link先を確認
Nhat-Minh Nguyen, Minh-Ngoc Tran, Christopher Drovandi, David Nott, (参考訳) Bayesian Synthetic Likelihood (BSL) 法は、確率自由ベイズ推論のための広く使われているツールである。 この方法は、いくつかの要約統計値が通常分布していると仮定するが、多くのアプリケーションでは正しくない。 我々は、ワッサーシュタイン勾配流を用いて、要約統計量の分布をガウス分布に大まかに変換する、ワッサーシュタインガウス化変換(Wasserstein Gaussianization transformation)という変換を提案する。 BSLはまた、作業モデルの下でシミュレーションされた要約統計と観測された要約統計との互換性を暗黙的に要求する。 これを実現する堅牢なBSL変種は、近年の文献で開発されている。 我々は、ワッサーシュタインガウス化変換とロバストなBSLと、後方近似のための効率的な変分ベイズ法を組み合わせることで、確率自由問題に対する高効率で信頼性の高い近似ベイズ推定法を開発する。

The Bayesian Synthetic Likelihood (BSL) method is a widely-used tool for likelihood-free Bayesian inference. This method assumes that some summary statistics are normally distributed, which can be incorrect in many applications. We propose a transformation, called the Wasserstein Gaussianization transformation, that uses a Wasserstein gradient flow to approximately transform the distribution of the summary statistics into a Gaussian distribution. BSL also implicitly requires compatibility between simulated summary statistics under the working model and the observed summary statistics. A robust BSL variant which achieves this has been developed in the recent literature. We combine the Wasserstein Gaussianization transformation with robust BSL, and an efficient Variational Bayes procedure for posterior approximation, to develop a highly efficient and reliable approximate Bayesian inference method for likelihood-free problems.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# 自己回帰運動拡散モデルを用いた対話型文字制御

Interactive Character Control with Auto-Regressive Motion Diffusion Models ( http://arxiv.org/abs/2306.00416v3 )

ライセンス: Link先を確認
Yi Shi, Jingbo Wang, Xuekun Jiang, Bingkun Lin, Bo Dai, Xue Bin Peng, (参考訳) リアルタイムキャラクタ制御は、物理シミュレーション、ビデオゲーム、バーチャルリアリティーなど幅広い応用で、インタラクティブな体験に欠かせない要素である。 画像合成のための拡散モデルの成功により、これらのモデルが運動合成に使用されるようになった。 しかしながら、これらの動き拡散モデルの大部分は主にオフラインアプリケーション用に設計されており、空間時間モデルを使用してフレーム全体のシーケンスを予め指定された長さで同時に合成する。 A-MDM(Auto-Regressive Motion Diffusion Model)を提案する。 我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付き連続した動きフレームを自動回帰的に生成する。 単純なMLPを用いたネットワークアーキテクチャでは,多種多様で長い水平,高忠実な動き列を生成することができる。 さらに,タスク指向サンプリング,インペインティング,階層的強化学習など,インタラクティブな制御をA-MDMに組み込むための一連の技術を紹介した。 これらの技術により、事前訓練されたA-MDMは、様々な新しい下流タスクに効率的に適応できる。 我々は,A-MDMの有効性を実証するための総合的な実験を行い,その性能を最先端の自己回帰手法と比較した。

Real-time character control is an essential component for interactive experiences, with a broad range of applications, including physics simulations, video games, and virtual reality. The success of diffusion models for image synthesis has led to the use of these models for motion synthesis. However, the majority of these motion diffusion models are primarily designed for offline applications, where space-time models are used to synthesize an entire sequence of frames simultaneously with a pre-specified length. To enable real-time motion synthesis with diffusion model that allows time-varying controls, we propose A-MDM (Auto-regressive Motion Diffusion Model). Our conditional diffusion model takes an initial pose as input, and auto-regressively generates successive motion frames conditioned on the previous frame. Despite its streamlined network architecture, which uses simple MLPs, our framework is capable of generating diverse, long-horizon, and high-fidelity motion sequences. Furthermore, we introduce a suite of techniques for incorporating interactive controls into A-MDM, such as task-oriented sampling, in-painting, and hierarchical reinforcement learning. These techniques enable a pre-trained A-MDM to be efficiently adapted for a variety of new downstream tasks. We conduct a comprehensive suite of experiments to demonstrate the effectiveness of A-MDM, and compare its performance against state-of-the-art auto-regressive methods.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# エンドツーエンドの自動運転 - 課題とフロンティア

End-to-end Autonomous Driving: Challenges and Frontiers ( http://arxiv.org/abs/2306.16927v3 )

ライセンス: Link先を確認
Li Chen, Penghao Wu, Kashyap Chitta, Bernhard Jaeger, Andreas Geiger, Hongyang Li, (参考訳) 自動運転車コミュニティは、検出やモーション予測といった個々のタスクに集中するのではなく、生のセンサー入力を使用して車両の動き計画を生成する、エンドツーエンドのアルゴリズムフレームワークを採用するアプローチの急速な成長を目撃している。 モジュールパイプラインと比較して、エンドツーエンドのシステムは、知覚と計画のための共同機能最適化の恩恵を受ける。 この分野は、大規模データセットの可用性、クローズドループ評価、そして挑戦的なシナリオで効果的に実行する自律運転アルゴリズムの必要性の増加により、繁栄している。 本調査では,270以上の論文を総合的に分析し,エンド・ツー・エンドの自動運転におけるモチベーション,ロードマップ,方法論,課題,今後の動向について考察する。 マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。 さらに、基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。 私たちはhttps://github.com/OpenDriveLab/End-to-end-Autonomous-Driving.comで最新の文献とオープンソースプロジェクトを含むアクティブリポジトリを維持しています。

The autonomous driving community has witnessed a rapid growth in approaches that embrace an end-to-end algorithm framework, utilizing raw sensor input to generate vehicle motion plans, instead of concentrating on individual tasks such as detection and motion prediction. End-to-end systems, in comparison to modular pipelines, benefit from joint feature optimization for perception and planning. This field has flourished due to the availability of large-scale datasets, closed-loop evaluation, and the increasing need for autonomous driving algorithms to perform effectively in challenging scenarios. In this survey, we provide a comprehensive analysis of more than 270 papers, covering the motivation, roadmap, methodology, challenges, and future trends in end-to-end autonomous driving. We delve into several critical challenges, including multi-modality, interpretability, causal confusion, robustness, and world models, amongst others. Additionally, we discuss current advancements in foundation models and visual pre-training, as well as how to incorporate these techniques within the end-to-end driving framework. we maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# DPM: 分離による感性データのクラスタリング

DPM: Clustering Sensitive Data through Separation ( http://arxiv.org/abs/2307.02969v2 )

ライセンス: Link先を確認
Johannes Liebenow, Yara Schütt, Tanya Braun, Marcel Gehrke, Florian Thaeter, Esfandiar Mohammadi, (参考訳) クラスタリングは、データセットを、基盤となるデータ構造によく適合する不整合クラスタに分割することを目的としている、データ探索のための重要なツールである。 機密データを扱う場合、プライバシー保護アルゴリズムは機密情報の漏洩を最小限に抑えつつ、プライベートでないベースラインを近似することを目的としている。 最先端のプライバシ保存クラスタリングアルゴリズムは、標準メトリクス、慣性、シルエットスコア、クラスタリング精度の点で優れたクラスタを出力する傾向にあるが、クラスタリング結果は非プライベートなKMeansベースラインから強く逸脱する。 本研究では,幾何的クラスタリングアプローチに基づいて,データセットをクラスタに再帰的に分離する,DPMと呼ばれるプライバシ保護クラスタリングアルゴリズムを提案する。 さらに、 \DPMはデータ依存のハイパーパラメータの大部分をプライバシ保護の方法で見積もっている。 DPMは差分プライバシを保持し、DPMの実用性保証を分析することを実証する。 最後に,合成および実生活データセットに対する広範な実験評価を行う。 DPMは,標準クラスタリングメトリクスの最先端性を実現し,クラス数を必要とせずに,一般的なKMeansアルゴリズムに非常に近いクラスタリング結果が得られることを示す。

Clustering is an important tool for data exploration where the goal is to subdivide a data set into disjoint clusters that fit well into the underlying data structure. When dealing with sensitive data, privacy-preserving algorithms aim to approximate the non-private baseline while minimising the leakage of sensitive information. State-of-the-art privacy-preserving clustering algorithms tend to output clusters that are good in terms of the standard metrics, inertia, silhouette score, and clustering accuracy, however, the clustering result strongly deviates from the non-private KMeans baseline. In this work, we present a privacy-preserving clustering algorithm called \DPM that recursively separates a data set into clusters based on a geometrical clustering approach. In addition, \DPM estimates most of the data-dependent hyper-parameters in a privacy-preserving way. We prove that \DPM preserves Differential Privacy and analyse the utility guarantees of \DPM. Finally, we conduct an extensive empirical evaluation for synthetic and real-life data sets. We show that \DPM achieves state-of-the-art utility on the standard clustering metrics and yields a clustering result much closer to that of the popular non-private KMeans algorithm without requiring the number of classes.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# モデルを超えた製品 - オープンソースML製品のリポジトリに関する実証的研究

The Product Beyond the Model -- An Empirical Study of Repositories of Open-Source ML Products ( http://arxiv.org/abs/2308.04328v2 )

ライセンス: Link先を確認
Nadia Nahar, Haoran Zhang, Grace Lewis, Shurui Zhou, Christian Kästner, (参考訳) マシンラーニング(ML)コンポーネントは、エンドユーザー向けのソフトウェア製品にますます取り入れられているが、開発者は、MLプロトタイプから製品に移行する際の課題に直面している。 学術は商用ML製品のソースへのアクセスを制限しており、これらの課題に対処する研究の進展を妨げる。 この研究では、まず第一に、エンドユーザー(モデルだけでなく)に262のオープンソースML製品のデータセットを提供し、GitHub上の50万以上のML関連プロジェクトの中で特定します。 そこで我々は,30のオープンソースML製品を質的かつ定量的に分析し,開発プラクティスとシステムアーキテクチャに関する6つの幅広い研究課題に答える。 私たちのサンプルにあるML製品の大部分は、過去のインタビュー研究よりもスタートアップスタイルの開発を代表していることが分かりました。 例えば、多くのオープンソースML製品へのデータサイエンティストの関与の制限、MLと非MLコードのモジュール性が異常に低いこと、製品へのモデルの導入に関するさまざまなアーキテクチャ上の選択、モデルテストやパイプライン自動化、監視といった業界のベストプラクティスの限定的な普及などです。 さらに、データサイエンティストなしでチームを支援するツールの必要性、教育機会、プライバシー保護テレメトリのためのオープンソース固有の研究など、研究、開発、教育に関する研究の7つの意味について論じる。

Machine learning (ML) components are increasingly incorporated into software products for end-users, but developers face challenges in transitioning from ML prototypes to products. Academics have limited access to the source of commercial ML products, hindering research progress to address these challenges. In this study, first and foremost, we contribute a dataset of 262 open-source ML products for end users (not just models), identified among more than half a million ML-related projects on GitHub. Then, we qualitatively and quantitatively analyze 30 open-source ML products to answer six broad research questions about development practices and system architecture. We find that the majority of the ML products in our sample represent more startup-style development than reported in past interview studies. We report 21 findings, including limited involvement of data scientists in many open-source ML products, unusually low modularity between ML and non-ML code, diverse architectural choices on incorporating models into products, and limited prevalence of industry best practices such as model testing, pipeline automation, and monitoring. Additionally, we discuss seven implications of this study on research, development, and education, including the need for tools to assist teams without data scientists, education opportunities, and open-source-specific research for privacy-preserving telemetry.
翻訳日:2024-08-16 19:24:40 公開日:2024-08-15
# DyFFPAD:指先提示検出のための畳み込み・手技的特徴の動的融合

DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2308.10015v3 )

ライセンス: Link先を確認
Anuj Rai, Parsheel Kumar Tiwari, Jyotishna Baishya, Ram Prakash Sharma, Somnath Dey, (参考訳) 自動指紋認識システムは、国境や商業用途を含む幅広い地域への展開により、プレゼンテーション攻撃の脅威に悩まされている。 ユーザの指紋を同意の有無にかかわらず偽造することにより、提示攻撃を行うことができる。 本稿では,自由度検出コンペティションの既知および未知の物質プロトコルにおける提示攻撃を検出するために,深層CNNと手作り特徴の動的アンサンブルを提案する。 提案したプレゼンテーション攻撃検出モデルは,深層CNNと手作り特徴技術の両方の機能を活用し,個々の性能よりも優れた性能を示す。 我々は、2015年、2017年、2019年のLiveness Detection Competitionで提案したベンチマークデータベースの手法を検証し、それぞれ96.10\%、96.49\%、94.99\%の精度を得た。 提案手法は,分類精度の点で最先端の手法より優れている。

Automatic fingerprint recognition systems suffer from the threat of presentation attacks due to their wide range of deployment in areas including national borders and commercial applications. A presentation attack can be performed by creating a spoof of a user's fingerprint with or without their consent. This paper presents a dynamic ensemble of deep CNN and handcrafted features to detect presentation attacks in known-material and unknown-material protocols of the livness detection competition. The proposed presentation attack detection model, in this way, utilizes the capabilities of both deep CNN and handcrafted features techniques and exhibits better performance than their individual performances. We have validated our proposed method on benchmark databases from the Liveness Detection Competition in 2015, 2017, and 2019, yielding overall accuracy of 96.10\%, 96.49\%, and 94.99\% on them, respectively. The proposed method outperforms state-of-the-art methods in terms of classification accuracy.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 分離型ハミルトンニューラルネットワーク

Separable Hamiltonian Neural Networks ( http://arxiv.org/abs/2309.01069v4 )

ライセンス: Link先を確認
Zi-Yu Khoo, Dawen Wu, Jonathan Sze Choong Low, Stéphane Bressan, (参考訳) ハミルトンニューラルネットワーク (HNN) は、ハミルトン方程式の学習バイアスの下で力学系のベクトル場を回帰する最先端のモデルである。 最近の観察では、ハミルトンの加法分離性に関するバイアスを埋め込むことで、回帰複雑性が減少し、回帰性能が向上する。 観測,学習,帰納バイアスを用いて,HNN内に加法分離性を組み込む分離可能なHNNを提案する。 提案したモデルは、ハミルトン場とベクトル場の回帰において、HNNよりも効果的であることを示す。 その結果、提案したモデルは力学を予測し、ハミルトン系の総エネルギーをより正確に保存する。

Hamiltonian neural networks (HNNs) are state-of-the-art models that regress the vector field of a dynamical system under the learning bias of Hamilton's equations. A recent observation is that embedding a bias regarding the additive separability of the Hamiltonian reduces the regression complexity and improves regression performance. We propose separable HNNs that embed additive separability within HNNs using observational, learning, and inductive biases. We show that the proposed models are more effective than the HNN at regressing the Hamiltonian and the vector field. Consequently, the proposed models predict the dynamics and conserve the total energy of the Hamiltonian system more accurately.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 粗粒林と多中心損失に基づく長山分類

Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss ( http://arxiv.org/abs/2310.08206v3 )

ライセンス: Link先を確認
Jinye Yang, Ji Xu, Di Wu, Jianhang Tang, Shaobo Li, Guoyin Wang, (参考訳) Long-tailed (LT) 分類は、現実世界では避けられない問題であり、困難な問題である。 既存の長い尾の分類法の多くは、属性のバランスを無視しながらクラスワイドの不均衡を解決することにのみ焦点をあてている。 分類モデルの偏差は、クラスワイドと属性ワイドの不均衡の両方によって引き起こされる。 ほとんどのデータセットでは属性が暗黙的であり、属性の組み合わせが複雑であるという事実から、属性に関する不均衡は扱いにくい。 この目的のために,不変特徴学習を用いて多粒度分類モデルを構築することを目的とした,新しい長鎖分類フレームワークを提案する。 この方法はまず、クラス内の属性の分布をより正確に特徴付けるために、粗粒林(CLF)を教師なしで構築する。 属性の分布に応じて、異なる不均衡なデータセットを構築するために適切なサンプリング戦略をカスタマイズできる。 次に,特徴学習過程において,不明瞭な属性を徐々に排除することを目的としたマルチセンター・ロス(MCL)を導入する。 提案するフレームワークは,特定のLT分類モデル構造に必ずしも対応せず,既存のLTメソッドを独立したコンポーネントとして統合することができる。 大規模な実験により,既存のベンチマークである ImageNet-GLT と MSCOCO-GLT の両方で最先端の性能を実現し,既存の LT 手法の性能を向上させることができた。 コードはGitHubで入手可能だ。 \url{https://github.com/jinyery/cognisance}

Long-tailed (LT) classification is an unavoidable and challenging problem in the real world. Most existing long-tailed classification methods focus only on solving the class-wise imbalance while ignoring the attribute-wise imbalance. The deviation of a classification model is caused by both class-wise and attribute-wise imbalance. Due to the fact that attributes are implicit in most datasets and the combination of attributes is complex, attribute-wise imbalance is more difficult to handle. For this purpose, we proposed a novel long-tailed classification framework, aiming to build a multi-granularity classification model by means of invariant feature learning. This method first unsupervisedly constructs Coarse-Grained forest (CLF) to better characterize the distribution of attributes within a class. Depending on the distribution of attributes, one can customize suitable sampling strategies to construct different imbalanced datasets. We then introduce multi-center loss (MCL) that aims to gradually eliminate confusing attributes during feature learning process. The proposed framework does not necessarily couple to a specific LT classification model structure and can be integrated with any existing LT method as an independent component. Extensive experiments show that our approach achieves state-of-the-art performance on both existing benchmarks ImageNet-GLT and MSCOCO-GLT and can improve the performance of existing LT methods. Our codes are available on GitHub: \url{https://github.com/jinyery/cognisance}
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# マルチタスク学習における共通パラダイムの検討

Examining Common Paradigms in Multi-Task Learning ( http://arxiv.org/abs/2311.04698v5 )

ライセンス: Link先を確認
Cathrin Elich, Lukas Kirchdorfer, Jan M. Köhler, Lukas Schott, (参考訳) 近年,マルチタスク学習(MTL)が注目されているが,その基盤となるメカニズムはよく分かっていない。 最近の手法では、単一タスク学習(STL)ベースラインよりも一貫したパフォーマンス向上は得られず、MTL固有の課題についてより深い洞察を得ることの重要性が強調されている。 そこで本研究では,MLLのパラダイムをSTLの文脈で検討する。 我々は,様々な実験において,MTLにおけるAdam Optimizationrのような一般的なSTLツールの重要な役割を実証的に示す。 アダムの有効性をさらに調査するため、理論上は軽微な仮定の下で部分的に損失スケールの不変性を導出する。 第二に、勾配衝突の概念は、しばしばMTLの特定の問題として表現される。 MTLにおける勾配衝突の役割を探求し、STLと比較する。 角勾配アライメントに対しては、これが MTL の唯一の問題であることを示す証拠は見つからない。 主な差別化要因として,勾配の等級差を強調した。 全体として、STLとMTLの驚くほどの類似性は、より広い文脈で両方の分野からの手法を検討することを示唆している。

While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we investigate paradigms in MTL in the context of STL: First, the impact of the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL empirically in various experiments. To further investigate Adam's effectiveness, we theoretical derive a partial loss-scale invariance under mild assumptions. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 銀の弾丸は存在しない:予測的コンビニティブ最適化におけるベンチマーク手法

There is No Silver Bullet: Benchmarking Methods in Predictive Combinatorial Optimization ( http://arxiv.org/abs/2311.07633v4 )

ライセンス: Link先を確認
Haoyu Geng, Hang Ruan, Runzhong Wang, Yang Li, Yang Wang, Lei Chen, Junchi Yan, (参考訳) 予測的組合せ最適化(英: Predictive combinatorial optimization、CO)とは、エネルギーコストを意識したスケジューリングや広告予算の割り当てなど、現実の多くのアプリケーションの正確なモデリングである。 このような問題に対処するには、通常予測モデルとCOソルバが関係する。 これら2つのモジュールは,2つの設計原則に従って予測COパイプラインに統合される: ‘予測最適化(PtO)’; 教師付きトレーニングによって予測を学習し,その後予測係数を用いてCOを解く。 しかしながら、モジュールレベルでの設計選択を含む、両方のアプローチのシステマティックなベンチマークや、代表的な実世界のシナリオをカバーする評価データセットが欠落している。 そこで本研究では,既存のPtO/PnOメソッド11を8つの問題に対してベンチマークするモジュラーフレームワークを開発した。 本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。 現在のアプローチの包括的な分類と典型的なシナリオの統合は、統一されたベンチマークの下で提供される。 したがって,本論文は今後のPnOアプローチ開発のための包括的なベンチマークとして機能し,アプリケーション中心の開発に高速なプロトタイピングを提供する。

Predictive combinatorial optimization, where the parameters of combinatorial optimization (CO) are unknown at the decision-making time, is the precise modeling of many real-world applications, including energy cost-aware scheduling and budget allocation on advertising. Tackling such a problem usually involves a prediction model and a CO solver. These two modules are integrated into the predictive CO pipeline following two design principles: ``Predict-then-Optimize (PtO)'', which learns predictions by supervised training and subsequently solves CO using predicted coefficients, while the other, named ``Predict-and-Optimize (PnO)'', directly optimizes towards the ultimate decision quality and claims to yield better decisions than traditional PtO approaches. However, there lacks a systematic benchmark of both approaches, including the specific design choices at the module level, as well as an evaluation dataset that covers representative real-world scenarios. To this end, we develop a modular framework to benchmark 11 existing PtO/PnO methods on 8 problems, including a new industrial dataset for combinatorial advertising that will be released. Our study shows that PnO approaches are better than PtO on 7 out of 8 benchmarks, but there is no silver bullet found for the specific design choices of PnO. A comprehensive categorization of current approaches and integration of typical scenarios are provided under a unified benchmark. Therefore, this paper could serve as a comprehensive benchmark for future PnO approach development and also offer fast prototyping for application-focused development.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 大規模言語モデルとFew-Shotトレーニング例ジェネレータ:誤認識のケーススタディ

Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition ( http://arxiv.org/abs/2311.09552v2 )

ライセンス: Link先を確認
Tariq Alhindi, Smaranda Muresan, Preslav Nakov, (参考訳) 諸領域にわたる議論の品質と妥当性を確保するためには,誤認識の認識が不可欠である。 しかし、計算の誤認識は、データセットに見られる様々なジャンル、ドメイン、タイプによる課題に直面している。 これにより、高いマルチクラス、さらにはマルチラベルのセットアップが、かなりクラスの不均衡を伴います。 本研究では,新たな文脈を取り入れ,大規模言語モデルを活用して合成データを生成することによって,誤り認識のための既存のモデルを強化することを目的としている。 我々は、GPT3.5を用いて合成例を生成し、これに対するプロンプト設定の影響について検討した。 さらに、ゼロショットと少数ショットのシナリオを探索し、生成した例を用いて、統一された誤認識フレームワーク内でより小さなモデルを訓練するの有効性を評価する。 さらに、合成データと既存の誤りデータセットの重なりを解析する。 最後に,このようなコンテキストを必要とする誤字を検出するための補足的コンテキストを提供することの有用性について検討する。 評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。 コードと合成データセットはすべて公開されています。

Recognizing fallacies is crucial for ensuring the quality and validity of arguments across various domains. However, computational fallacy recognition faces challenges due to the diverse genres, domains, and types of fallacies found in datasets. This leads to a highly multi-class, and even multi-label, setup with substantial class imbalance. In this study, we aim to enhance existing models for fallacy recognition by incorporating additional context and by leveraging large language models to generate synthetic data, thus increasing the representation of the infrequent classes. We experiment with GPT3.5 to generate synthetic examples and we examine the impact of prompt settings for this. Moreover, we explore zero-shot and few-shot scenarios to evaluate the effectiveness of using the generated examples for training smaller models within a unified fallacy recognition framework. Furthermore, we analyze the overlap between the synthetic data and existing fallacy datasets. Finally, we investigate the usefulness of providing supplementary context for detecting fallacy types that need such context, e.g., diversion fallacies. Our evaluation results demonstrate consistent improvements across fallacy types, datasets, and generators. The code and the synthetic datasets are all publicly available.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 弱教師付き校正による世界空間における単眼画像からの人間の動きのキャプチャ

Capturing Human Motion from Monocular Images in World Space with Weak-supervised Calibration ( http://arxiv.org/abs/2311.17460v4 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang, (参考訳) モノクル画像からの3次元人間の動作回復のための従来の方法は、カメラ座標に依存するため、しばしば不足し、複雑な撮影条件が一般的である現実世界のアプリケーションでは不正確な結果が生じる。 焦点距離ラベルの可用性と多様性の制限により、再構成された3次元人体における不整合問題がさらに悪化する。 これらの課題に対処するため,身体の歪み情報に基づいて焦点距離を予測し,精度の高い焦点距離ラベルを不要としたW-HMRを導入する。 提案手法は2次元監視精度と回復精度を向上させる。 さらに、不正確なカメラ回転予測に伴う誤差の蓄積を回避し、世界空間における可視的再構成のための身体配向を補正するOrientCorrectモジュールを提案する。 我々の貢献には、カメラのキャリブレーション技術、効果的な配向補正モジュール、およびカメラと世界の両方の座標における人間の運動回復の一般化性と精度を大幅に向上させるデカップリング戦略が含まれる。 W-HMRのロバスト性は、様々なデータセットに関する広範な実験を通じて検証され、既存の手法よりもその優位性を示している。 コードとデモはプロジェクトページ https://yw0208.github.io/w-hmr/ で公開されている。

Previous methods for 3D human motion recovery from monocular images often fall short due to reliance on camera coordinates, leading to inaccuracies in real-world applications where complex shooting conditions are prevalent. The limited availability and diversity of focal length labels further exacerbate misalignment issues in reconstructed 3D human bodies. To address these challenges, we introduce W-HMR, a weak-supervised calibration method that predicts "reasonable" focal lengths based on body distortion information, eliminating the need for precise focal length labels. Our approach enhances 2D supervision precision and recovery accuracy. Additionally, we present the OrientCorrect module, which corrects body orientation for plausible reconstructions in world space, avoiding the error accumulation associated with inaccurate camera rotation predictions. Our contributions include a novel weak-supervised camera calibration technique, an effective orientation correction module, and a decoupling strategy that significantly improves the generalizability and accuracy of human motion recovery in both camera and world coordinates. The robustness of W-HMR is validated through extensive experiments on various datasets, showcasing its superiority over existing methods. Codes and demos have been released on the project page https://yw0208.github.io/w-hmr/.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# Evetac:ロボットマニピュレーションのためのイベントベース光学触覚センサ

Evetac: An Event-based Optical Tactile Sensor for Robotic Manipulation ( http://arxiv.org/abs/2312.01236v2 )

ライセンス: Link先を確認
Niklas Funk, Erik Helmut, Georgia Chalvatzaki, Roberto Calandra, Jan Peters, (参考訳) 近年,光触覚センサが普及している。 これらは高い空間分解能を提供するが、微細な時間分解能を提供するのに苦労する。 この欠点を克服するために、RGBカメラをイベントベースのカメラに置き換えるアイデアと、イベントベースの新しい触覚センサーであるEvetacを紹介する。 ハードウェア設計とともに,1000Hzでオンラインに計測処理を行うタッチ処理アルゴリズムを開発した。 我々は,センサのスパース出力に拘わらず,印字されたマーカーを通してエラストマーの変形を追跡する効率的なアルゴリズムを考案した。 ベンチマーク実験では、エベタックは最大498Hzの振動を感知し、せん断力を再構築し、RGB光触覚センサーと比較してデータレートを著しく低減する能力を示した。 さらに、Evetacの出力とマーカー追跡は、データ駆動スリップの検出と予測モデルを学ぶ上で有意義な機能を提供する。 学習モデルは、広範囲のオブジェクトを扱うことができる頑健で適応的なクローズドループグリップコントローラの基礎を形成する。 Evetacのような高速で効率的なイベントベースの触覚センサーは、ロボット工学に人間のような操作能力をもたらすのに不可欠だと考えています。 センサーの設計はhttps://sites.google.com/view/evetac でオープンソース化されている。

Optical tactile sensors have recently become popular. They provide high spatial resolution, but struggle to offer fine temporal resolutions. To overcome this shortcoming, we study the idea of replacing the RGB camera with an event-based camera and introduce a new event-based optical tactile sensor called Evetac. Along with hardware design, we develop touch processing algorithms to process its measurements online at 1000 Hz. We devise an efficient algorithm to track the elastomer's deformation through the imprinted markers despite the sensor's sparse output. Benchmarking experiments demonstrate Evetac's capabilities of sensing vibrations up to 498 Hz, reconstructing shear forces, and significantly reducing data rates compared to RGB optical tactile sensors. Moreover, Evetac's output and the marker tracking provide meaningful features for learning data-driven slip detection and prediction models. The learned models form the basis for a robust and adaptive closed-loop grasp controller capable of handling a wide range of objects. We believe that fast and efficient event-based tactile sensors like Evetac will be essential for bringing human-like manipulation capabilities to robotics. The sensor design is open-sourced at https://sites.google.com/view/evetac .
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# DiffPMAE: ポイントクラウド再構築のための拡散マスク付きオートエンコーダ

DiffPMAE: Diffusion Masked Autoencoders for Point Cloud Reconstruction ( http://arxiv.org/abs/2312.03298v3 )

ライセンス: Link先を確認
Yanlong Li, Chamara Madarasingha, Kanchana Thilakarathna, (参考訳) ポイントクラウドストリーミングは、インタラクティブなサービスデリバリと将来のMetaverseの標準へと進化し、ますます人気が高まっている。 しかし、ポイントクラウドに関連する膨大な量のデータは、特に高帯域消費と大容量ストレージ容量の観点から、多くの課題を呈している。 これまでに提案された様々なソリューションは、ポイントクラウド圧縮、アップサンプリング、および完了に重点を置いているが、これらの再構成関連手法は、高忠実度ポイントクラウド出力の提供において不足している。 解決策として、DiffPMAEでは、効率的なポイントクラウド再構築アーキテクチャを提案する。 自己教師型学習の概念にヒントを得て,Masked Auto-Encoding と Diffusion Model のメカニズムを組み合わせることで,ポイントクラウドデータのリモート再構成を行う。 この再構成プロセスの性質により、DiffPMAEはポイントクラウド圧縮、アップサンプリング、完了を含む多くの関連する下流タスクに拡張できる。 6万以上のオブジェクトでShapeNet-55およびModelNetデータセットを活用することで、DiffPMAEの性能が、検討された自動エンコーディングおよびダウンストリームタスクの短期的な多くの最先端メソッドを上回ることを検証する。

Point cloud streaming is increasingly getting popular, evolving into the norm for interactive service delivery and the future Metaverse. However, the substantial volume of data associated with point clouds presents numerous challenges, particularly in terms of high bandwidth consumption and large storage capacity. Despite various solutions proposed thus far, with a focus on point cloud compression, upsampling, and completion, these reconstruction-related methods continue to fall short in delivering high fidelity point cloud output. As a solution, in DiffPMAE, we propose an effective point cloud reconstruction architecture. Inspired by self-supervised learning concepts, we combine Masked Auto-Encoding and Diffusion Model mechanism to remotely reconstruct point cloud data. By the nature of this reconstruction process, DiffPMAE can be extended to many related downstream tasks including point cloud compression, upsampling and completion. Leveraging ShapeNet-55 and ModelNet datasets with over 60000 objects, we validate the performance of DiffPMAE exceeding many state-of-the-art methods in-terms of auto-encoding and downstream tasks considered.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# 確率的修復可能なスケジューリングのためのシナリオからの学習

Learning From Scenarios for Stochastic Repairable Scheduling ( http://arxiv.org/abs/2312.03492v2 )

ライセンス: Link先を確認
Kim van den Houten, David M. J. Tax, Esteban Freydell, Mathijs de Weerdt, (参考訳) 線形目的語における不確定パラメータ値の問題を最適化する場合、決定中心学習はこれらの値のエンドツーエンド学習を可能にする。 我々は、処理時間が不確実であり、制約に不確実な値をもたらす確率的スケジューリング問題に興味を持ち、初期スケジュールの修復が必要である。 確率的処理時間の歴史的実現が可能である。 確率的平滑化に基づく既存の意思決定型学習手法が,このスケジューリング問題にどのように適応できるかを示す。 シナリオベースの確率的最適化は、意思決定中心の学習がこれらの状況に対してどのような状況で最先端であるかを調査するための広範囲な実験的評価を含む。

When optimizing problems with uncertain parameter values in a linear objective, decision-focused learning enables end-to-end learning of these values. We are interested in a stochastic scheduling problem, in which processing times are uncertain, which brings uncertain values in the constraints, and thus repair of an initial schedule may be needed. Historical realizations of the stochastic processing times are available. We show how existing decision-focused learning techniques based on stochastic smoothing can be adapted to this scheduling problem. We include an extensive experimental evaluation to investigate in which situations decision-focused learning outperforms the state of the art for such situations: scenario-based stochastic optimization.
翻訳日:2024-08-16 19:14:56 公開日:2024-08-15
# GIR:3次元ガウス逆レンダリング

GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization ( http://arxiv.org/abs/2312.05133v2 )

ライセンス: Link先を確認
Yahao Shi, Yanmin Wu, Chenming Wu, Xing Liu, Chen Zhao, Haocheng Feng, Jian Zhang, Bin Zhou, Errui Ding, Jingdong Wang, (参考訳) 本稿では,3次元ガウス表現を用いた3次元ガウス逆レンダリング(GIR)手法を提案する。 主な貢献は3倍です。 最短固有ベクトルを用いて各3次元ガウスの正規性を計算する。 我々は3次元ガウシアン毎に方向対応の放射光を格納し、多重バウンス光輸送を近似するために二次照明をアンタングルするために、効率的なボクセルベースの間接照明追跡方式を採用する。 照明のゆがみをさらに高めるため、学習可能な低解像度マップと軽量で完全な畳み込みネットワークを備えた高解像度環境マップを表現した。 提案手法は,最近提案した逆レンダリング手法の照準と新鮮ビュー合成の両タスクにおいて,リアルタイムレンダリングを実現しつつ,最先端の性能を実現する。 提案手法の有効性と適用性について検討し,素材編集やリライティングなどのリアルタイムインタラクティブグラフィックスアプリケーションにおいて,その可能性を強調した。 コードはhttps://github.com/guduxiaolang/GIRでリリースされる。

This paper presents a 3D Gaussian Inverse Rendering (GIR) method, employing 3D Gaussian representations to effectively factorize the scene into material properties, light, and geometry. The key contributions lie in three-fold. We compute the normal of each 3D Gaussian using the shortest eigenvector, with a directional masking scheme forcing accurate normal estimation without external supervision. We adopt an efficient voxel-based indirect illumination tracing scheme that stores direction-aware outgoing radiance in each 3D Gaussian to disentangle secondary illumination for approximating multi-bounce light transport. To further enhance the illumination disentanglement, we represent a high-resolution environmental map with a learnable low-resolution map and a lightweight, fully convolutional network. Our method achieves state-of-the-art performance in both relighting and novel view synthesis tasks among the recently proposed inverse rendering methods while achieving real-time rendering. This substantiates our proposed method's efficacy and broad applicability, highlighting its potential as an influential tool in various real-time interactive graphics applications such as material editing and relighting. The code will be released at https://github.com/guduxiaolang/GIR.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# アルツハイマー病検出のための分散型プライバシ保存モデル

A Distributed Privacy Preserving Model for the Detection of Alzheimer's Disease ( http://arxiv.org/abs/2312.10237v3 )

ライセンス: Link先を確認
Paul K. Mandal, (参考訳) BACKGROUND: 医療データのセグメンテーション、個人健康情報(PHI)の漏洩に関する懸念、そして、そのようなセグメンテーションされた日付を統合管理するための直接的かつ間接的なコストは、診断機械学習(DML)研究者を動機付け、異なるモダリティの分散または分散化されたデータセットでトレーニング可能なプライバシー保護機械学習アルゴリズムを特定することが必要です。 フェデレートされた学習モデルは、異なるデータセットを所有し、異なるデバイスやサーバで作業している複数の研究者が、ローカルデータを交換することなく、グローバルな機械学習モデルを協調的にトレーニングし、法定のPHI保護を満たすことのできる、分散化された機械学習フレームワークを提供する。 この目的のために,アルツハイマー病(AD)の診断に有効な縦型フェデレート学習モデルを考案し,その有効性を検証した。 METHODS: Open Access Series of Imaging Studiesの第2版(人口統計、画像、臨床評価データセット)は、AD検出のための多モード垂直統合学習(VFL)モデルをテストするために使用された。 結果: OASIS-2の統計,臨床,MRIデータに基づいて,このVFLモデルをトレーニングし,検証することにより,従来報告された結果と一致して,82.9%の精度が達成される。 CONCLUSIONS: ここで提案されたVFLアーキテクチャは、新しい分散アーキテクチャを提供し、法的なプライバシー制約を尊重しながら、さまざまな医療データのソースをまたいだ協調学習を可能にする。 複数のデータモダリティを活用することにより、AD検出の堅牢性と精度を向上させることができる。 このモデルは、フェデレーション学習技術の進歩に寄与するだけでなく、医学研究におけるデータセグメンテーションによるハードルを克服する公約も持つ。

BACKGROUND: Segmentation of medical data, concerns about personal health information (PHI) breaches, and the direct and indirect costs of consolidating and managing such segmented date should motivate diagnostic machine learning (DML) researchers to identify privacy-preserving machine learning algorithms that can train on distributed or decentralized datasets of different modalities. Federated learning models provide such a decentralized machine learning framework in which multiple investigators in possession of disparate datasets and working on different devices or servers can train collaboratively a global machine learning models without ever having to exchange local data and thus can meet statutory PHI protections. To this end, a vertical federate learning model is devised and tested for efficacy in the detection of Alzheimer's Disease (AD). METHODS: The second version of Open Access Series of Imaging Studies -- with its panoply of demographic, imaging, and clinical assessment datasets -- was used to test a multimodal vertical federated learning (VFL) model for AD detection. RESULTS: By training and validating this VFL model on the demographic, clinical, and MRI data in OASIS-2, an 82.9\% accuracy rate is achieved, consistent with previously reported results. CONCLUSIONS: The VFL architecture proposed herein offers a novel distributed architecture, enabling collaborative learning across diverse sources of medical data while respecting statutory privacy constraints. By leveraging multiple modalities of data, the robustness and accuracy of AD detection can be enhanced. This model not only contributes to the advancement of federated learning techniques but also holds promise for overcoming the hurdles posed by data segmentation in medical research.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# セマンティック空間は256の言語記述に価値がある:記述特性を持つより強いセグメンテーションモデルを作る

A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties ( http://arxiv.org/abs/2312.13764v3 )

ライセンス: Link先を確認
Junfei Xiao, Ziqi Zhou, Wenxuan Li, Shiyi Lan, Jieru Mei, Zhiding Yu, Alan Yuille, Yuyin Zhou, Cihang Xie, (参考訳) 本稿では、プロパティレベルラベル空間を用いた強力な解釈可能なセグメンテーションモデルを作成するための新しいアプローチであるProLabを紹介する。 ProLabは、カテゴリ固有のアノテーションのみに頼る代わりに、セグメンテーションモデルを監督するために、常識知識に基づく記述的プロパティを使用する。 2つの基本設計に基づいている。 まず、Large Language Models(LLM)を用いて、意味のある常識知識を持ち、構造化されたフォーマットに従うすべての関連カテゴリの記述を慎重に作成する。 第2に、記述間の意味的相関を保った記述埋め込みモデルを導入し、K-Meansを用いて記述的特性(例えば256)にクラスタ化する。 これらの特性は、人間の認識理論と一致する解釈可能な常識知識に基づいている。 当社のアプローチは,5つの古典的ベンチマーク(ADE20K,COCO-Stuff,Pascal Context,Cityscapes,BDDなど)において,セグメンテーションモデルをより強固に動作させることを実証的に示しています。 また,本手法は,カテゴリレベルの監視よりも拡張トレーニングステップによるスケーラビリティも向上する。 我々の解釈可能なセグメンテーションフレームワークは、ドメイン内記述プロパティのみを使用して、ドメイン外または未知のカテゴリをセグメンテーションする一般化能力を持つ。 コードはhttps://github.com/lambert-x/ProLab.comで入手できる。

This paper introduces ProLab, a novel approach using property-level label space for creating strong interpretable segmentation models. Instead of relying solely on category-specific annotations, ProLab uses descriptive properties grounded in common sense knowledge for supervising segmentation models. It is based on two core designs. First, we employ Large Language Models (LLMs) and carefully crafted prompts to generate descriptions of all involved categories that carry meaningful common sense knowledge and follow a structured format. Second, we introduce a description embedding model preserving semantic correlation across descriptions and then cluster them into a set of descriptive properties (e.g., 256) using K-Means. These properties are based on interpretable common sense knowledge consistent with theories of human recognition. We empirically show that our approach makes segmentation models perform stronger on five classic benchmarks (e.g., ADE20K, COCO-Stuff, Pascal Context, Cityscapes, and BDD). Our method also shows better scalability with extended training steps than category-level supervision. Our interpretable segmentation framework also emerges with the generalization ability to segment out-of-domain or unknown categories using only in-domain descriptive properties. Code is available at https://github.com/lambert-x/ProLab.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# 相互作用を用いた重要な画素群の同定

Identifying Important Group of Pixels using Interactions ( http://arxiv.org/abs/2401.03785v3 )

ライセンス: Link先を確認
Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera, (参考訳) 画像分類器の挙動をよりよく理解するために、個々の画素のモデル予測への寄与を可視化することが有用である。 本研究では,予測信頼度の高い画素群を効率的に正確に同定する手法であるMoXI(\textbf{Mo}$del e$\textbf{X}$planation by $\textbf{I}$nteractions)を提案する。 提案手法は,個々の画素の影響とモデルの信頼性に対する画素の協調的影響を考慮し,ゲーム理論の概念,シェープ値,相互作用を利用する。 理論的解析と実験により,本手法はGrad-CAM,Attention Rollout,Shapley値による広義の可視化よりも,モデル出力に高い寄与力を持つ画素をよりよく同定できることが示された。 従来の研究はシェープ値と相互作用の計算において指数計算コストに悩まされてきたが、これはタスクの二次コストに還元できることを示す。 コードはhttps://github.com/KosukeSumiyasu/MoXIで入手できる。

To better understand the behavior of image classifiers, it is useful to visualize the contribution of individual pixels to the model prediction. In this study, we propose a method, MoXI ($\textbf{Mo}$del e$\textbf{X}$planation by $\textbf{I}$nteractions), that efficiently and accurately identifies a group of pixels with high prediction confidence. The proposed method employs game-theoretic concepts, Shapley values and interactions, taking into account the effects of individual pixels and the cooperative influence of pixels on model confidence. Theoretical analysis and experiments demonstrate that our method better identifies the pixels that are highly contributing to the model outputs than widely-used visualization by Grad-CAM, Attention rollout, and Shapley value. While prior studies have suffered from the exponential computational cost in the computation of Shapley value and interactions, we show that this can be reduced to quadratic cost for our task. The code is available at https://github.com/KosukeSumiyasu/MoXI.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# 自律走行におけるロバスト性を考慮した3次元物体検出:展望と展望

Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook ( http://arxiv.org/abs/2401.06542v3 )

ライセンス: Link先を確認
Ziying Song, Lin Liu, Feiyang Jia, Yadan Luo, Guoxin Zhang, Lei Yang, Li Wang, Caiyan Jia, (参考訳) 現代の自律運転の領域では、周囲環境の状態を正確に評価するためには認識システムが不可欠であり、情報予測と計画を可能にする。 このシステムの重要なステップは、LiDARやカメラなどの車両に搭載されたセンサーを使って、近くの物体のサイズ、カテゴリ、位置を識別する3Dオブジェクト検出に関連している。 検出精度と効率性の向上を目的とした3次元物体検出手法の急増にもかかわらず, 環境変動, 騒音, 気象変化に対する耐性を系統的に検討する文献のギャップがある。 本研究は,現実シナリオ下での知覚システム評価において,精度と遅延とともに頑健性の重要性を強調した。 我々の研究は、カメラのみ、LiDARのみ、マルチモーダルな3Dオブジェクト検出アルゴリズムを広範囲に調査し、精度、レイテンシ、堅牢性の間のトレードオフを、特にKITTI-CやnuScenes-Cのようなデータセットで徹底的に評価し、公正な比較を保証する。 これらのうち、多モード3D検出手法は優れた堅牢性を示し、新しい分類法を導入して、文献の明瞭性を高めるために再編成する。 本調査は、現実のアプリケーションにおける3次元オブジェクト検出アルゴリズムの現在の機能と制約について、より実用的な視点を提供することを目的としている。

In the realm of modern autonomous driving, the perception system is indispensable for accurately assessing the state of the surrounding environment, thereby enabling informed prediction and planning. The key step to this system is related to 3D object detection that utilizes vehicle-mounted sensors such as LiDAR and cameras to identify the size, the category, and the location of nearby objects. Despite the surge in 3D object detection methods aimed at enhancing detection precision and efficiency, there is a gap in the literature that systematically examines their resilience against environmental variations, noise, and weather changes. This study emphasizes the importance of robustness, alongside accuracy and latency, in evaluating perception systems under practical scenarios. Our work presents an extensive survey of camera-only, LiDAR-only, and multi-modal 3D object detection algorithms, thoroughly evaluating their trade-off between accuracy, latency, and robustness, particularly on datasets like KITTI-C and nuScenes-C to ensure fair comparisons. Among these, multi-modal 3D detection approaches exhibit superior robustness, and a novel taxonomy is introduced to reorganize the literature for enhanced clarity. This survey aims to offer a more practical perspective on the current capabilities and the constraints of 3D object detection algorithms in real-world applications, thus steering future research towards robustness-centric advancements.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# 複数質問応答における大規模言語モデルの限界に関する検討

A Study on Large Language Models' Limitations in Multiple-Choice Question Answering ( http://arxiv.org/abs/2401.07955v2 )

ライセンス: Link先を確認
Aisha Khatun, Daniel G. Brown, (参考訳) LLM(Large Language Models)の普及は、特にオープンソースモデルの出現とともに、一般的になってきている。 さらに重要なのは、小さなモデルはコンシューマデバイスとの統合に適しており、スタンドアローンのソリューションとして、あるいはさまざまなAIタスクでサブルーチンとして頻繁に使用されることだ。 ユビキタスな使用にもかかわらず、特定の機能や制限に関する体系的な分析は行われていない。 本研究では,最も広く使われている課題の1つ,MCQ(Multiple Choice Question)に答える。 26の小さなオープンソースモデルを分析し、その65%がタスクを理解しておらず、4つのモデルだけが与えられた選択から適切な回答を選択しており、これらのモデルのうち5つだけが選択順序に依存していないことがわかった。 これらのモデルでMCQテストが広範囲に使用されていることを考えると、これらの結果はかなり危険である。 MCQを用いて、どんな分野でもLCMを評価する前に、注意喚起やタスク理解のテストを行うことを推奨する。

The widespread adoption of Large Language Models (LLMs) has become commonplace, particularly with the emergence of open-source models. More importantly, smaller models are well-suited for integration into consumer devices and are frequently employed either as standalone solutions or as subroutines in various AI tasks. Despite their ubiquitous use, there is no systematic analysis of their specific capabilities and limitations. In this study, we tackle one of the most widely used tasks - answering Multiple Choice Question (MCQ). We analyze 26 small open-source models and find that 65% of the models do not understand the task, only 4 models properly select an answer from the given choices, and only 5 of these models are choice order independent. These results are rather alarming given the extensive use of MCQ tests with these models. We recommend exercising caution and testing task understanding before using MCQ to evaluate LLMs in any field whatsoever.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# スパイニーパブリングを用いた古典空間と量子空間のトレードオフ

Trade-offs between classical and quantum space using spooky pebbling ( http://arxiv.org/abs/2401.10579v3 )

ライセンス: Link先を確認
Arend-Jan Quist, Alfons Laarman, (参考訳) Pebbleゲームは、空間/時間のトレードオフを研究するために使用されます。 近年,量子コンピュータ上での古典的回路シミュレーションのための古典的空間/量子空間/時間的トレードオフを研究するために,スポーキーな小石ゲームが導入された。 本稿では,一般的な回路に対して,スポーキーな小石ゲームフレームワークを初めて適用する。 この枠組みを用いることで、スパーキー小石ゲームにおける量子空間の上限を証明できる。 また,この不気味な小石ゲームはPSPACE完全であることが証明された。 さらに,ヒューリスティックオプティマイザと組み合わされた満足度解決器をベースとした,スポーキーな小石ゲームのための解法を提案する。 最適古典空間 / 量子空間 / 時間トレードオフを計算し, 経験的評価を行った。 制限されたランタイム内では、古典的な空間を考慮すると量子空間を減らす戦略を見つけることができ、スポーキー小石モデルが量子空間を減らすのに有用であることを示す。

Pebble games are used to study space/time trade-offs. Recently, spooky pebble games were introduced to study classical space / quantum space / time trade-offs for simulation of classical circuits on quantum computers. In this paper, the spooky pebble game framework is applied for the first time to general circuits. Using this framework we prove an upper bound for quantum space in the spooky pebble game. We also prove that solving the spooky pebble game is PSPACE-complete. Moreover, we present a solver for the spooky pebble game based on satisfiability solvers combined with heuristic optimizers. This spooky pebble game solver was empirically evaluated by calculating optimal classical space / quantum space / time trade-offs. Within limited runtime, the solver could find a strategy reducing quantum space when classical space is taken into account, showing that the spooky pebble model is useful to reduce quantum space.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# 古典的ハードハミルトニアンの基底状態解く多項式時間散逸に基づく量子アルゴリズム

A polynomial-time dissipation-based quantum algorithm for solving the ground states of a class of classically hard Hamiltonians ( http://arxiv.org/abs/2401.13946v6 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) 本研究では、ハミルトン群の基底状態を解決するための量子アルゴリズムを提案する。 我々のアルゴリズムに現れた指数的スピードアップのメカニズムは、オープン量子系における散逸に由来する。 この散逸を利用するために、中心的なアイデアはベクトル化と正規化により$n$-qubit 密度行列 $\rho$ を 2n$-qubit 純状態 $|\rho\rangle$ として扱うことである。 そうすることによって、リンドブラッドマスター方程式(LME)は、非エルミート的ハミルトニアン$L$を持つシュリンガー方程式となる。 したがって、 LME の定常状態 $\rho_{ss}$ は、基底状態 $|\rho_{ss}\rangle$ と $L^\dag L$ の形で対応する。 LMEのランタイムは、初期状態と基底状態の重複を$\zeta$に依存しない。 入力部分に対して、ハミルトニアン$H$が妥当な仮定の下で与えられたとき、多項式時間的古典的手続きを与え、$L$が存在して$H-E_0=L^\dag L$であるかどうかを判断し、解決する。 出力部分について、ミッションは基底状態 $|\rho_{ss}\rangle$ に対する任意の作用素の期待値を推定するものと定義する。 我々は、実際に$|\rho_{ss}\rangle$を作成することの量子硬さに関するいくつかの証拠を与え、これは、我々のアルゴリズムと量子位相推定のような射影に基づく量子アルゴリズムの間の潜在的な複雑さの分離を示す。 さらに、我々のアルゴリズムで効率的に解けるハミルトニアンは、$\text{P}\neq \text{BQP}$を仮定する古典的なハードなインスタンスを含むことを示す。 その後、他の種類のハミルトニアンへの一般化や、アルゴリズムの「非線形」力学など、アルゴリズムの重要な側面について論じ、分析する。

In this work, we give a quantum algorithm for solving the ground states of a class of Hamiltonians. The mechanism of the exponential speedup that appeared in our algorithm comes from dissipation in open quantum systems. To utilize the dissipation, the central idea is to treat $n$-qubit density matrices $\rho$ as $2n$-qubit pure states $|\rho\rangle$ by vectorization and normalization. By doing so, the Lindblad master equation (LME) becomes a Schr\"odinger equation with non-Hermitian Hamiltonian $L$. The steady-state $\rho_{ss}$ of the LME, therefore, corresponds to the ground states $|\rho_{ss}\rangle$ of Hamiltonians with the form $L^\dag L$. The runtime of the LME has no dependence on $\zeta$ the overlap between the initial state and the ground state compared with the Heisenberg scaling $\mathcal{O}(\zeta^{-1})$ in other algorithms. For the input part, given a Hamiltonian $H$, under plausible assumptions, we give a polynomial-time classical procedure to judge and solve whether there exists $L$ such that $H-E_0=L^\dag L$. For the output part, we define the mission as estimating expectation values of arbitrary operators with respect to the ground state $|\rho_{ss}\rangle$, which can be done surprisingly by an efficient measurement protocol on $\rho_{ss}$ with no need to prepare $|\rho_{ss}\rangle$. We give several pieces of evidence on the quantum hardness of really preparing $|\rho_{ss}\rangle$, which indicates a potential complexity separation between our algorithm and those projection-based quantum algorithms such as quantum phase estimation. Further, we show that the Hamiltonians that can be efficiently solved by our algorithms contain classically hard instances assuming $\text{P}\neq \text{BQP}$. Later, we discuss and analyze several important aspects of the algorithm including generalizing to other types of Hamiltonians and the "non-linear`` dynamics in the algorithm.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# TriSAM: VEM画像におけるゼロショット皮質血管セグメンテーションのためのTri-Plane SAM

TriSAM: Tri-Plane SAM for zero-shot cortical blood vessel segmentation in VEM images ( http://arxiv.org/abs/2401.13961v4 )

ライセンス: Link先を確認
Jia Wan, Wanhua Li, Jason Ken Adhinarta, Atmadeep Banerjee, Evelina Sjostedt, Jingpeng Wu, Jeff Lichtman, Hanspeter Pfister, Donglai Wei, (参考訳) マクロおよびメソスケールでのイメージング技術は、かなりの注意とリソースを惹きつける一方で、複雑な血管の細部を明らかにすることができるマイクロスケールのボリューム電子顕微鏡(vEM)イメージングは、必要なベンチマーク基盤を欠いている。 本稿では,VEM画像における皮質血管のセグメンテーションに特化して設計された第1級パブリックベンチマークであるBvEMを導入することにより,この領域における大きなギャップを解消する。 私たちのBvEMベンチマークは、成体マウス、マカク、ヒトの3匹の哺乳類のvEM画像量に基づいています。 半自動,手動,品質管理のプロセスを通じて,高画質の3Dセグメンテーションを保証し,高精細度,高精細度,高精細度,高精細度の血管造影を行った。 さらに,TriSAMと呼ばれる,強力なセグメンテーションモデルSAMを3次元セグメンテーションに用いるゼロショット皮質血管セグメンテーション法を開発した。 SAMを2次元から3次元のボリュームセグメンテーションに拡張するために、TriSAMは、特定の画像平面の信頼性を活用しながら、潜在的旋回点を識別する多種追跡フレームワークを使用している。 このアプローチは,モデルトレーニングや微調整を伴わない長期3次元血管セグメンテーションを効果的に実現する。 実験の結果,TriSAMは3種のBvEMベンチマークにおいて優れた性能を示した。 私たちのデータセット、コード、モデルは、 \url{https://jia-wan.github.io/bvem}でオンラインで公開されています。

While imaging techniques at macro and mesoscales have garnered substantial attention and resources, microscale Volume Electron Microscopy (vEM) imaging, capable of revealing intricate vascular details, has lacked the necessary benchmarking infrastructure. In this paper, we address a significant gap in this field of neuroimaging by introducing the first-in-class public benchmark, BvEM, designed specifically for cortical blood vessel segmentation in vEM images. Our BvEM benchmark is based on vEM image volumes from three mammals: adult mouse, macaque, and human. We standardized the resolution, addressed imaging variations, and meticulously annotated blood vessels through semi-automatic, manual, and quality control processes, ensuring high-quality 3D segmentation. Furthermore, we developed a zero-shot cortical blood vessel segmentation method named TriSAM, which leverages the powerful segmentation model SAM for 3D segmentation. To extend SAM from 2D to 3D volume segmentation, TriSAM employs a multi-seed tracking framework, leveraging the reliability of certain image planes for tracking while using others to identify potential turning points. This approach effectively achieves long-term 3D blood vessel segmentation without model training or fine-tuning. Experimental results show that TriSAM achieved superior performances on the BvEM benchmark across three species. Our dataset, code, and model are available online at \url{https://jia-wan.github.io/bvem}.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# EmoDM:進化的多目的最適化のための拡散モデル

EmoDM: A Diffusion Model for Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2401.15931v2 )

ライセンス: Link先を確認
Xueming Yan, Yaochu Jin, (参考訳) 進化的アルゴリズムは多目的最適化問題(MOP)の解決に成功している。 しかし、人口ベースの探索手法のクラスとして、進化的アルゴリズムは目的関数の多くの評価を必要とするため、広範囲の高価なMOPに適用できない。 この課題に対処するために、EmoDMと呼ばれる進化的多目的探索を学習する拡散モデルを提案する。 これは、進化探索の逆収束過程を前方拡散として扱い、以前に解決された進化最適化タスクから雑音分布を学習することで達成される。 事前学習したEmoDMは、その逆拡散により新しいMOPの非支配的解の集合を、さらなる進化的探索なしに生成し、必要な関数評価を著しく低減することができる。 EmoDMのスケーラビリティを高めるために、目的に最も重要となる決定変数をキャプチャするために、相互エントロピーに基づくアテンション機構を導入している。 実験結果から,探索性能と計算効率の両面でのEmoDMの競合性を示した。 事前学習したEmoDMは、目に見えない問題に対してうまく一般化し、汎用的で効率的なMOP解法としての可能性を明らかにする。

Evolutionary algorithms have been successful in solving multi-objective optimization problems (MOPs). However, as a class of population-based search methodology, evolutionary algorithms require a large number of evaluations of the objective functions, preventing them from being applied to a wide range of expensive MOPs. To tackle the above challenge, this work proposes for the first time a diffusion model that can learn to perform evolutionary multi-objective search, called EmoDM. This is achieved by treating the reversed convergence process of evolutionary search as the forward diffusion and learn the noise distributions from previously solved evolutionary optimization tasks. The pre-trained EmoDM can then generate a set of non-dominated solutions for a new MOP by means of its reverse diffusion without further evolutionary search, thereby significantly reducing the required function evaluations. To enhance the scalability of EmoDM, a mutual entropy-based attention mechanism is introduced to capture the decision variables that are most important for the objectives. Experimental results demonstrate the competitiveness of EmoDM in terms of both the search performance and computational efficiency compared with state-of-the-art evolutionary algorithms in solving MOPs having up to 5000 decision variables. The pre-trained EmoDM is shown to generalize well to unseen problems, revealing its strong potential as a general and efficient MOP solver.
翻訳日:2024-08-16 19:04:55 公開日:2024-08-15
# スリム変圧器で駆動される特別なテンソルコンプリート

Exact Tensor Completion Powered by Slim Transforms ( http://arxiv.org/abs/2402.03468v2 )

ライセンス: Link先を確認
Li Ge, Lin Chen, Yudong Chen, Xue Jiang, (参考訳) 本研究では,部分的な観測からテンソルを完全に復元することを目的としたテンソル完備化問題について検討する。 既存の理論上の保証は、関連する変換が直交的である必要があるため、その応用を妨げている。 本稿では、等方性と自己随伴性の制約から脱却し、任意の線形変換による正確なテンソル完備化の理論的保証を変換領域のテンソルを直接操作することによって確立する。 変換の豊富な選択により、この証明によって得られた新しい分析は、スリム変換が2乗変換よりも理論レベルで優れている理由を明らかにしている。 このモデルと証明はテンソル完成の柔軟性を大幅に向上させ,提案手法の優位性を検証した。

In this work, a tensor completion problem is studied, which aims to perfectly recover the tensor from partial observations. The existing theoretical guarantee requires the involved transform to be orthogonal, which hinders its applications. In this paper, jumping out of the constraints of isotropy and self-adjointness, the theoretical guarantee of exact tensor completion with arbitrary linear transforms is established by directly operating the tensors in the transform domain. With the enriched choices of transforms, a new analysis obtained by the proof discloses why slim transforms outperform their square counterparts from a theoretical level. Our model and proof greatly enhance the flexibility of tensor completion and extensive experiments validate the superiority of the proposed method.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# 射影代数と量子論理

Projection-algebras and quantum logic ( http://arxiv.org/abs/2402.07042v2 )

ライセンス: Link先を確認
Daniel Lehmann, (参考訳) P-代数(P-algebras)は、古典論理においてブール代数が持つ量子論理に対するブール代数の非可換で非連想的な一般化である。 P-代数は <X, 0, ', .> 型を持ち、0 は定数、' はユニタリ、 . バイナリです X の要素は特徴と呼ばれる。 部分順序は x <= y iff によって特徴の集合 X 上で定義される x.y = x. 機能は通勤する、すなわち x.y = y.x iff x.y <= x. 特徴 x と y は直交 iff であると言われる x.y = 0 で直交性は対称関係であり、演算 + は の双対として定義される。 直交的な特徴に 当てはまります 分離可能ヒルベルト空間の閉部分空間は、直交補空間と他の部分空間への部分空間の射影の下で P-代数を形成する。 昇行列に対する最小上界の存在は、ペア直交要素の可算集合に対する最小上界の存在と同値である。 原子代数が定義され、その主な性質が研究される。 P-代数の論理は完全に特徴づけられる。 言語は、操作'に対応する一元接続体と、操作"に対応する二元接続体とを含む。 これは、交換規則が極端に制限されたシークエントのサブ構造論理である。 これは、P-代数に対して健全で完備であることが証明されている。

P-algebras are a non-commutative, non-associative generalization of Boolean algebras that are for quantum logic what Boolean algebras are for classical logic. P-algebras have type <X, 0, ', .> where 0 is a constant, ' is unary and . is binary. Elements of X are called features. A partial order is defined on the set X of features by x <= y iff x.y = x. Features commute, i.e., x.y = y.x iff x.y <= x. Features x and y are said to be orthogonal iff x.y = 0 and orthogonality is a symmetric relation.The operation + is defined as the dual of . and it is commutative on orthogonal features. The closed subspaces of a separable Hilbert space form a P-algebra under orthogonal complementation and projection of a subspace onto another one.P-algebras are complemented orthomodular posets but they are not lattices. Existence of least upper bounds for ascending sequences is equivalent to the existence of least upper bounds for countable sets of pairwise orthogonal elements. Atomic algebras are defined and their main properties are studied. The logic of P-algebras is then completely characterized. The language contains a unary connective corresponding to the operation ' and a binary connective corresponding to the operation ".". It is a substructural logic of sequents where the Exchange rule is extremely limited. It is proved to be sound and complete for P-algebras.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# HQNET: NISQ時代の量子ニューラルネットワークの効果的なトレーニングのための量子ノイズのハーネス化

HQNET: Harnessing Quantum Noise for Effective Training of Quantum Neural Networks in NISQ Era ( http://arxiv.org/abs/2402.08475v3 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique, (参考訳) 本稿では,量子ノイズの複雑なダイナミクスとバレンプラトー(BP)の開始と緩和への影響を考察し,QNNのスケーラビリティを著しく阻害する現象について述べる。 BPは理想的なノイズのない条件に比べてノイズの多い量子環境では早く現れるが、しかしながら、量子ビット測定観測器の戦略的選択はこの問題に効果的に対処できる。 この目的のために,パウリZ,パウリX,パウリYなどの様々な観測可能条件と,コスト関数の要求や量子回路の所望出力に合わせて特別に設計された任意のエルミート観測可能条件を検討する。 分析対象はグローバルおよびローカルなコスト関数の定義であり,前者はQNNフレームワーク内の全量子ビットの計測,後者は単一量子ビットの計測に重点を置いている。 その結果,大域的なコスト関数のシナリオでは,パウリXとパウリYオブザーバブルがより平坦な最適化ランドスケープにつながり,特に雑音条件下でBPが増加することが示唆された。 逆に、パウリZ観測器は最大8キュービットのトレーニング性を維持するが、10キュービットのBPに遭遇する。 特に、任意のHermitianオブザーバブルは、グローバルなコスト関数で使用すると、ノイズの恩恵を受け、最大10キュービットまでの効果的なトレーニングを容易にするというユニークな利点を示す。 さらに、従来の3つの観測装置(PauliX、PauliY、PauliZ)のうち、局所的なコスト関数により、PauliZは最大10キュービットのノイズ条件下でのトレーニング効率を保ちながら、PauliXとPauliYは同様の利点を示しておらず、BPに影響を受けない。 本研究は,QNNトレーニングにおけるノイズ考慮の重要性を強調し,ノイズの多い量子コンピューティング環境におけるQNN性能向上のための観測可能な選択のための戦略的アプローチを提案し,量子機械学習研究の進展に寄与する。

This paper delves into the intricate dynamics of quantum noise and its influence on the onset and mitigation of barren plateaus (BPs) - a phenomenon that critically impedes the scalability of QNNs. We find that BPs appear earlier in noisy quantum environments compared to ideal, noise-free conditions.However, strategic selection of qubit measurement observables can effectively tackle this issue. To this end, we examine a variety of observables, such as PauliZ,PauliX, PauliY, and a specially designed arbitrary Hermitian observable, tailored to the requirements of the cost function and the desired outputs of quantum circuits. Our analysis encompasses both global and local cost function definitions, with the former involving measurements across all qubits and the latter focusing on single-qubit measurements within the QNN framework. Our findings indicate that in a global cost function scenario, PauliX and PauliY observables lead to flatter optimization landscapes, signaling BPs with increasing qubits, especially in noisy conditions. Conversely, the PauliZ observable maintains trainability up to 8 qubits but encounters BPs at 10 qubits. Notably, the arbitrary Hermitian observable, when used with a global cost function, shows a unique advantage as it benefits from noise, facilitating effective training up to 10 qubits. Furthermore, with a local cost function, out of the three conventional observables (PauliX, PauliY and PauliZ), PauliZ is more effective, sustaining training efficiency under noisy conditions for up to 10 qubits, while PauliX and PauliY do not show similar benefits and remain susceptible to BPs. Our results highlight the importance of noise consideration in QNN training and propose a strategic approach to observable selection to improve QNN performance in noisy quantum computing environments thus contributing to the advancement of quantum machine learning research.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# 不確かさと校正が等間隔メンバーシップ推論攻撃に及ぼす影響について

On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks ( http://arxiv.org/abs/2402.10686v2 )

ライセンス: Link先を確認
Meiyi Zhu, Caili Guo, Chunyan Feng, Osvaldo Simeone, (参考訳) メンバーシップ推論攻撃(MIA)では、攻撃者は典型的な機械学習モデルによって提示される過信を利用して、特定のデータポイントを使用してターゲットモデルをトレーニングしたかどうかを判断する。 本稿では, 真のデータ生成プロセスにおけるアレタリック不確実性, 限られたトレーニングデータセットによるてんかん不確実性, ターゲットモデルの校正レベルなどの影響を調査できる情報理論の枠組みを用いて, 最先端度比攻撃(LiRA)の性能を解析する。 我々は、攻撃者がターゲットモデルからの情報的フィードバックを減らし、出力確率ベクトルを解放する信頼ベクトル(CV)開示、真のラベルに割り当てられた確率のみをモデルで得る真のラベル信頼(TLC)開示、適応予測セットを正則予測として生成する決定セット(DS)開示という3つの異なる設定を比較した。 我々は、MIAの有効性に対する不確実性と校正の影響についての洞察を提供することを目的として、MIA敵の利点に基づいて境界を導出する。 シミュレーションの結果, 導出した解析的境界はMIAの有効性をよく予測できることがわかった。

In a membership inference attack (MIA), an attacker exploits the overconfidence exhibited by typical machine learning models to determine whether a specific data point was used to train a target model. In this paper, we analyze the performance of the state-of-the-art likelihood ratio attack (LiRA) within an information-theoretical framework that allows the investigation of the impact of the aleatoric uncertainty in the true data generation process, of the epistemic uncertainty caused by a limited training data set, and of the calibration level of the target model. We compare three different settings, in which the attacker receives decreasingly informative feedback from the target model: confidence vector (CV) disclosure, in which the output probability vector is released; true label confidence (TLC) disclosure, in which only the probability assigned to the true label is made available by the model; and decision set (DS) disclosure, in which an adaptive prediction set is produced as in conformal prediction. We derive bounds on the advantage of an MIA adversary with the aim of offering insights into the impact of uncertainty and calibration on the effectiveness of MIAs. Simulation results demonstrate that the derived analytical bounds predict well the effectiveness of MIAs.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# 自己回帰型プロンプト蒸留による直接大言語モデルアライメント

Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation ( http://arxiv.org/abs/2402.11907v2 )

ライセンス: Link先を確認
Aiwei Liu, Haoping Bai, Zhiyun Lu, Xiang Kong, Simon Wang, Jiulong Shan, Meng Cao, Lijie Wen, (参考訳) 人手による好みデータを持たない大規模言語モデル(LLM)を人間の期待に合わせることは重要な問題である。 本稿では,RLAIFと比較してLLaMA2-7BとLLaMA2-13Bの性能が向上し,応答対の出力確率を用いて応答選好を評価する手法を提案する。 そこで本研究では,DLMA (Direct Large Model Alignment) の自動アライメント手法を提案する。 まず、コントラスト的なプロンプトペアを使用して、好みデータを自動的に生成する。 そして、コントラスト的なプロンプトペアを用いて生成した嗜好データを評価し、自己回帰スコアを算出する。 最後に、この自己回帰スコアを組み合わせることで、DPOアルゴリズムを用いてLLMを効果的に調整する。 実験段階において, DLMA法は人手による好みデータに頼らずに, texttt{RLHF}法を超えることができた。

Aligning large language models (LLMs) with human expectations without human-annotated preference data is an important problem. In this paper, we propose a method to evaluate the response preference by using the output probabilities of response pairs under contrastive prompt pairs, which could achieve better performance on LLaMA2-7B and LLaMA2-13B compared to RLAIF. Based on this, we propose an automatic alignment method, Direct Large Model Alignment (DLMA). First, we use contrastive prompt pairs to automatically generate preference data. Then, we continue to evaluate the generated preference data using contrastive prompt pairs and calculate a self-rewarding score. Finally, we use the DPO algorithm to effectively align LLMs by combining this self-rewarding score. In the experimental stage, our DLMA method could surpass the \texttt{RLHF} method without relying on human-annotated preference data.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# 統合分類学指導によるエンティティ・セット・拡張と分類学・拡張のための授業・チューニング・フレームワーク

A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy Expansion ( http://arxiv.org/abs/2402.13405v4 )

ライセンス: Link先を確認
Yanzhen Shen, Yu Zhang, Yunyi Zhang, Jiawei Han, (参考訳) エンティティセットの拡大、分類学の拡張、およびシード誘導型分類学構築は、既存の分類学を新しい概念で自動的に一般化するために適用可能な3つの代表的なタスクである。 以前の研究ではこれらを3つの異なるタスクと見なしていた。 したがって、それらの手法は一般に1つの特定のタスクに対してのみ機能し、一般化性や全体論的な視点が欠如している。 本稿では,3つの課題を統一的に解決することを目的とする。 具体的には,「兄弟」の発見と「親」の発見という,エンティティセットの拡大,分類拡張,種誘導型分類構築に必要な2つの共通スキルを明らかにした。 本稿では,2つのスキルの相互強化を促進する共同事前学習プロセスにおいて,大規模言語モデルを用いてクエリエンティティの兄弟と両親を生成するための分類誘導型指導訓練フレームワークを提案する。 複数のベンチマークデータセットに対する大規模な実験は、提案したTaxoInstructフレームワークの有効性を示している。

Entity set expansion, taxonomy expansion, and seed-guided taxonomy construction are three representative tasks that can be applied to automatically populate an existing taxonomy with emerging concepts. Previous studies view them as three separate tasks. Therefore, their proposed techniques usually work for one specific task only, lacking generalizability and a holistic perspective. In this paper, we aim at a unified solution to the three tasks. To be specific, we identify two common skills needed for entity set expansion, taxonomy expansion, and seed-guided taxonomy construction: finding "siblings" and finding "parents". We propose a taxonomy-guided instruction tuning framework to teach a large language model to generate siblings and parents for query entities, where the joint pre-training process facilitates the mutual enhancement of the two skills. Extensive experiments on multiple benchmark datasets demonstrate the efficacy of our proposed TaxoInstruct framework, which outperforms task-specific baselines across all three tasks.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# リンドブラッド力学と近似チャネルを用いた誤差補正のモデル化

Modeling error correction with Lindblad dynamics and approximate channels ( http://arxiv.org/abs/2402.16727v2 )

ライセンス: Link先を確認
Zohar Schwartzman-Nowik, Liran Shirizly, Haggai Landa, (参考訳) 我々は、Lindbladマスター方程式によってモデル化された物理的動機付け雑音を受ける量子誤り訂正符号の性能を解析する。 コード・キャパシティ・フレームワーク内での作業では、分散的かつコヒーレントな単一キュービット項と2キュービットのクロストークを考慮し、ノイズの異なる近似が5キュービットのコードの性能をどのように捉えているかを研究する。 各ノイズ項を別々に検討した複合チャネル近似は,多くの物理的事例において,時間スケールがかなり長い場合においてその挙動を捉え,非可換項の効果による最終的な故障を解析する。 対照的に、単一キュービット近似は、短時間であっても2キュービット雑音による誤差補正のダイナミクスを適切に捉えていない。 パウリ近似は単一量子チャネルを超えており、ノイズ、状態、デコーダの詳細に敏感であり、ノイズ強度に対して短時間で成功し、失敗することが多い。 このモデル内で出現する擬似閾値を計算し、より優れたデコーダの設計に量子ビットパラメータと接続性に関する知識をどのように利用できるかを示す。 これらの結果は,現実的な雑音の存在下での誤り訂正符号の性能に光を当て,有用な量子誤り訂正に向けた継続的な取り組みを進めることができる。

We analyze the performance of a quantum error correction code subject to physically-motivated noise modeled by a Lindblad master equation. Working within the code-capacity framework, we consider dissipative and coherent single-qubit terms and two-qubit crosstalk, studying how different approximations of the noise capture the performance of the five-qubit code. A composite-channel approximation where every noise term is considered separately, captures the behavior in many physical cases up to considerably-long timescales, and we analyze its eventual failure due to the effect of noncommuting terms. In contrast, we find that single-qubit approximations do not properly capture the error correction dynamics with two-qubit noise, even for short times. A Pauli approximation going beyond a single-qubit channel, is sensitive to the details of the noise, state, and decoder, and succeeds in many cases at short timescales relative to the noise strength, beyond which it fails. We calculate the code pseudo-threshold emerging within this model, and demonstrate how knowledge of the qubit parameters and connectivity can be used to design better decoders. These results shed light on the performance of error correction codes in the presence of realistic noise and can advance the ongoing efforts toward useful quantum error correction.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# アダプティブレゾリューションSAMを用いたロバストゼロショット集団カウントとローカライゼーション

Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM ( http://arxiv.org/abs/2402.17514v2 )

ライセンス: Link先を確認
Jia Wan, Qiangqiang Wu, Wei Lin, Antoni B. Chan, (参考訳) 既存のクラウドカウントモデルは、アノテートに時間を要する広範なトレーニングデータを必要とする。 この問題に対処するために,Segment-Everything-Everywhere Model (SEEM) を用いて,Segmentation Anything Model (SAM) を適応させ,クラウドカウントモデルを訓練するための擬似ラベルを生成する。 しかし,本研究では,高密度空間におけるSEEMの欠落が主な原因として,密集した群集シーンにおけるSEEMの性能が限られていることが判明した。 この制限を克服するために、群衆シーン内の人々のスケールの変動、閉塞、重複を扱うための適応分解能SEEMを提案する。 これに加えて,ガウス混合モデルに基づくロバストなローカライズ手法を導入し,予測された人物マスクの頭部位置を予測する。 マスクと点の擬似ラベルを考慮し,SEEMの予測に基づいて不確実領域を除外するロバストな損失関数を提案する。 最後に,擬似ラベルを生成する反復的手法を提案する。 本手法は,第1の擬似ラベリング段階においてしばしば見逃される高密度領域において,より小さな人物を特定することにより,セグメンテーションマスクの品質を向上させることを目的とする。 全体として,提案手法は群集カウントにおいて最高の教師なし性能を達成し,また,いくつかの教師付き手法に匹敵する結果を得た。 これにより、特にラベル付きデータが利用できない状況において、群衆カウントのための非常に効果的で汎用的なツールとなる。

The existing crowd counting models require extensive training data, which is time-consuming to annotate. To tackle this issue, we propose a simple yet effective crowd counting method by utilizing the Segment-Everything-Everywhere Model (SEEM), an adaptation of the Segmentation Anything Model (SAM), to generate pseudo-labels for training crowd counting models. However, our initial investigation reveals that SEEM's performance in dense crowd scenes is limited, primarily due to the omission of many persons in high-density areas. To overcome this limitation, we propose an adaptive resolution SEEM to handle the scale variations, occlusions, and overlapping of people within crowd scenes. Alongside this, we introduce a robust localization method, based on Gaussian Mixture Models, for predicting the head positions in the predicted people masks. Given the mask and point pseudo-labels, we propose a robust loss function, which is designed to exclude uncertain regions based on SEEM's predictions, thereby enhancing the training process of the counting networks. Finally, we propose an iterative method for generating pseudo-labels. This method aims at improving the quality of the segmentation masks by identifying more tiny persons in high-density regions, which are often missed in the first pseudo-labeling stage. Overall, our proposed method achieves the best unsupervised performance in crowd counting, while also being comparable results to some supervised methods. This makes it a highly effective and versatile tool for crowd counting, especially in situations where labeled data is not available.
翻訳日:2024-08-16 18:53:22 公開日:2024-08-15
# 項目応答理論モデルのスケーラブル学習

Scalable Learning of Item Response Theory Models ( http://arxiv.org/abs/2403.00680v2 )

ライセンス: Link先を確認
Susanne Frick, Amer Krivošija, Alexander Munteanu, (参考訳) 項目応答理論(IRT)モデルは、応答の質を示す分類データから、$m$テスト項目の潜時難易度特性とともに、$n$試験の潜時能力を評価することを目的としている。 古典的な心理測定評価は、比較的少数の試験員と項目に基づいており、例えば、200ドルの学生が10ドルの問題からなる試験を解く。 PISAやインターネット研究のような近年のグローバルな大規模評価は、参加者を著しく増加させる可能性がある。 さらに、機械学習の文脈では、アルゴリズムが検査やデータ分析の問題を取り上げ、アイテムの役割を果たす場合、$n$と$m$はどちらも非常に大きくなり、計算の効率とスケーラビリティに挑戦する。 IRTモデルの潜伏変数を大規模データから学習するために、これらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。 我々は、IRTトレーニングアルゴリズムを交互に使用するためのコアセットを開発し、大規模データからのスケーラブルな学習を容易にする。

Item Response Theory (IRT) models aim to assess latent abilities of $n$ examinees along with latent difficulty characteristics of $m$ test items from categorical data that indicates the quality of their corresponding answers. Classical psychometric assessments are based on a relatively small number of examinees and items, say a class of $200$ students solving an exam comprising $10$ problems. More recent global large scale assessments such as PISA, or internet studies, may lead to significantly increased numbers of participants. Additionally, in the context of Machine Learning where algorithms take the role of examinees and data analysis problems take the role of items, both $n$ and $m$ may become very large, challenging the efficiency and scalability of computations. To learn the latent variables in IRT models from large data, we leverage the similarity of these models to logistic regression, which can be approximated accurately using small weighted subsets called coresets. We develop coresets for their use in alternating IRT training algorithms, facilitating scalable learning from large data.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# モジュラフローからのリレーショナルバルク再構築

Relational bulk reconstruction from modular flow ( http://arxiv.org/abs/2403.02377v2 )

ライセンス: Link先を確認
Onkar Parrikar, Harshit Rajgadia, Vivek Singh, Jonathan Sorce, (参考訳) AdS/CFT の絡み合いウェッジ再構成パラダイムは、境界部分領域 $\bar{A}$ の絡み合いウェッジ内のバルクキュディットに対して、バルクキュディットに作用する作用素は、$\bar{A}$ 上の CFT 作用素として再構成できると述べている。 これは自然に量子エラー補正の枠組みに適合し、CFT状態は、境界部分領域$A$の消去に対して保護されたコードを形成するバルククーディットを含む。 本稿では,ホログラフィにおけるリレーショナルバルク再構築の枠組みについて検討し,境界領域の消去から保護される2つのコード部分空間について検討した。 これを実現するために、2つのコードサブスペースは、すべて$A$の消去から保護された1パラメータのコードファミリで滑らかに接続され、これらのコード上の最大絡み合った状態はすべてフルランクである、と仮定する。 このような部分空間は「測度に基づく」設定でホログラフィーで自然に構築できると論じる。 この設定では、モジュラー理論を用いて固定符号部分空間演算子の再構成を行うためのフロー方程式を導出する。 我々は,リレーショナルバルク再構成の公式とコンネスコサイクルフローの無限時間限界との間に顕著な類似性を観察し,この接続をより厳密なものにするためにいくつかのステップを踏む。 我々はまた、モジュラリフレクション演算子と呼ぶ正準再構成写像の観点から、再構成公式の代替的導出も提供する。

The entanglement wedge reconstruction paradigm in AdS/CFT states that for a bulk qudit within the entanglement wedge of a boundary subregion $\bar{A}$, operators acting on the bulk qudit can be reconstructed as CFT operators on $\bar{A}$. This naturally fits within the framework of quantum error correction, with the CFT states containing the bulk qudit forming a code protected against the erasure of the boundary subregion $A$. In this paper, we set up and study a framework for relational bulk reconstruction in holography: given two code subspaces both protected against erasure of the boundary region $A$, the goal is to relate the operator reconstructions between the two spaces. To accomplish this, we assume that the two code subspaces are smoothly connected by a one-parameter family of codes all protected against the erasure of $A$, and that the maximally-entangled states on these codes are all full-rank. We argue that such code subspaces can naturally be constructed in holography in a "measurement-based" setting. In this setting, we derive a flow equation for the operator reconstruction of a fixed code subspace operator using modular theory which can, in principle, be integrated to relate the reconstructed operators all along the flow. We observe a striking resemblance between our formulas for relational bulk reconstruction and the infinite-time limit of Connes cocycle flow, and take some steps towards making this connection more rigorous. We also provide alternative derivations of our reconstruction formulas in terms of a canonical reconstruction map we call the modular reflection operator.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# プライバシー保護型大規模言語モデルと多型アノテーションによる胸部X線データセットの強化--分類改善のためのデータ駆動アプローチ

Enhancing chest X-ray datasets with privacy-preserving large language models and multi-type annotations: a data-driven approach for improved classification ( http://arxiv.org/abs/2403.04024v2 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Pritam Mukherjee, Ronald Summers, (参考訳) 胸部X線(CXR)画像解析では、通常、ルールベースのシステムはデータセットリリースのレポートからラベルを抽出するために使用される。 しかし、ラベルの品質を改善する余地はまだ残っている。 これらのラベルは典型的には存在ラベルのみを出力し、時には二元不確実性指標を出力し、その有用性を制限する。 レポートラベリングのための改良されたディープラーニングモデルも開発されているが、ルールベースのシステムと同様、適応性に欠けている。 本研究では, 局所的に実行可能なLarge Language Model (LLM) を利用して, CXRレポートの発見ラベルを抽出し, 拡張する手法であるMAPLEZ(Medical Report Annotations with Privacy-serving Large Language Model using Expeditious Zero shot answer)を提案する。 MAPLEZは、発見の有無を示すバイナリラベルだけでなく、発見に関する場所、重症度、および放射線学者の不確実性を示すラベルを抽出する。 提案手法は,5つのテストセットから8つ以上の異常点を抽出し,マクロF1スコアに3.6ポイント (pp) 増加し,F1スコアに20pp以上増加し,競合するラベル付きアノテーションに比較してF1スコアが増加することを示した。 さらに, 分類管理におけるアノテーションと多型アノテーションの併用により, モデル品質が大幅に向上し, AUROCの1.1ppが最高の代替手法からトレーニングされたモデルよりも向上した。 コードとアノテーションを共有しています。

In chest X-ray (CXR) image analysis, rule-based systems are usually employed to extract labels from reports for dataset releases. However, there is still room for improvement in label quality. These labelers typically output only presence labels, sometimes with binary uncertainty indicators, which limits their usefulness. Supervised deep learning models have also been developed for report labeling but lack adaptability, similar to rule-based systems. In this work, we present MAPLEZ (Medical report Annotations with Privacy-preserving Large language model using Expeditious Zero shot answers), a novel approach leveraging a locally executable Large Language Model (LLM) to extract and enhance findings labels on CXR reports. MAPLEZ extracts not only binary labels indicating the presence or absence of a finding but also the location, severity, and radiologists' uncertainty about the finding. Over eight abnormalities from five test sets, we show that our method can extract these annotations with an increase of 3.6 percentage points (pp) in macro F1 score for categorical presence annotations and more than 20 pp increase in F1 score for the location annotations over competing labelers. Additionally, using the combination of improved annotations and multi-type annotations in classification supervision, we demonstrate substantial advancements in model quality, with an increase of 1.1 pp in AUROC over models trained with annotations from the best alternative approach. We share code and annotations.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 画像分類のためのアクティブジェネレーション

Active Generation for Image Classification ( http://arxiv.org/abs/2403.06517v2 )

ライセンス: Link先を確認
Tao Huang, Jiaqi Liu, Shan You, Chang Xu, (参考訳) 近年, 深部生成モデルの能力向上により, 画像分類精度の向上が図られている。 しかし、既存の手法では、精度が極端に向上しただけで、元のデータセットと比較して、不均等に多くの画像を生成する必要があることが多い。 この計算的コストと時間のかかるプロセスは、そのようなアプローチの実践性を損なう。 本稿では,モデルのニーズと特性に着目し,画像生成の効率性に対処することを提案する。 能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。 それは、現在のモデルで遭遇した困難または分類ミスのサンプルに似たイメージを作成し、これらの生成されたイメージをトレーニングセットに組み込んで、モデルのパフォーマンスを向上させることを目的としている。 ActGenは、拡散モデルの認知過程において、実際のイメージをガイドとして使用する、注意深いイメージガイダンス技術を導入している。 クラスプロンプトに対するモデルの注意は、背景を多様化しつつ、類似した前景オブジェクトの保存を確保するために利用されます。 さらに、より困難なサンプルを生成するために2つの損失を利用する勾配に基づく生成誘導手法を導入し、生成した画像が以前生成されたものと似すぎないようにする。 CIFAR と ImageNet のデータセットを用いた実験結果から,本手法は生成した画像の数を大幅に減らし,性能が向上することが示された。 コードはhttps://github.com/hunto/ActGen.comで入手できる。

Recently, the growing capabilities of deep generative models have underscored their potential in enhancing image classification accuracy. However, existing methods often demand the generation of a disproportionately large number of images compared to the original dataset, while having only marginal improvements in accuracy. This computationally expensive and time-consuming process hampers the practicality of such approaches. In this paper, we propose to address the efficiency of image generation by focusing on the specific needs and characteristics of the model. With a central tenet of active learning, our method, named ActGen, takes a training-aware approach to image generation. It aims to create images akin to the challenging or misclassified samples encountered by the current model and incorporates these generated images into the training set to augment model performance. ActGen introduces an attentive image guidance technique, using real images as guides during the denoising process of a diffusion model. The model's attention on class prompt is leveraged to ensure the preservation of similar foreground object while diversifying the background. Furthermore, we introduce a gradient-based generation guidance method, which employs two losses to generate more challenging samples and prevent the generated images from being too similar to previously generated ones. Experimental results on the CIFAR and ImageNet datasets demonstrate that our method achieves better performance with a significantly reduced number of generated images. Code is available at https://github.com/hunto/ActGen.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# ラベルドロップアウト:ドメインシフトと部分ラベリングを併用した複数データセットを用いた深層学習型心エコー図分割法の改良

Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling ( http://arxiv.org/abs/2403.07818v2 )

ライセンス: Link先を確認
Iman Islam, Esther Puyol-Antón, Bram Ruijsink, Andrew J. Reader, Andrew P. King, (参考訳) 心エコー法(echo)は、心機能を評価する際に用いられる最初の画像モダリティである。 エコーによる機能的バイオマーカーの測定は、心臓構造のセグメンテーションに依存し、深層学習モデルがセグメンテーションプロセスを自動化するために提案されている。 しかし、これらのツールを広く臨床に応用するためには、セグメンテーションモデルが様々な画像に対して堅牢であることが重要である(例えば、異なるスキャナー、異なるレベルの専門知識を持つオペレーターによって取得されるなど)。 このレベルの堅牢性を達成するには、モデルを複数の多様なデータセットでトレーニングする必要がある。 複数の多様なデータセットを使用したトレーニングで直面する重要な課題は、ラベルの存在の変化である。 部分ラベル付きデータを扱うために,クロスエントロピー損失関数の適応法が提案されている。 本稿では,そのような損失関数と多種多様なデータセットを用いた学習が,ラベルの存在とドメイン特性を関連づけたショートカット学習の形式となり,性能の低下につながることを示す。 この問題に対処するために,ドメイン特性とラベルの有無を関連付ける新しいラベルドロップアウト方式を提案する。 ラベルのドロップアウトは,複数の部分ラベル付きデータセットを用いたトレーニングにおいて,2つの心構造に対して62%,25%のエコーセグメンテーションDiceスコアを改善することを実証した。

Echocardiography (echo) is the first imaging modality used when assessing cardiac function. The measurement of functional biomarkers from echo relies upon the segmentation of cardiac structures and deep learning models have been proposed to automate the segmentation process. However, in order to translate these tools to widespread clinical use it is important that the segmentation models are robust to a wide variety of images (e.g. acquired from different scanners, by operators with different levels of expertise etc.). To achieve this level of robustness it is necessary that the models are trained with multiple diverse datasets. A significant challenge faced when training with multiple diverse datasets is the variation in label presence, i.e. the combined data are often partially-labelled. Adaptations of the cross entropy loss function have been proposed to deal with partially labelled data. In this paper we show that training naively with such a loss function and multiple diverse datasets can lead to a form of shortcut learning, where the model associates label presence with domain characteristics, leading to a drop in performance. To address this problem, we propose a novel label dropout scheme to break the link between domain characteristics and the presence or absence of labels. We demonstrate that label dropout improves echo segmentation Dice score by 62% and 25% on two cardiac structures when training using multiple diverse partially labelled datasets.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# SM4Depth:複数のカメラとシーンにまたがるシームレス単眼メートル深さの1モデルによる推定

SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model ( http://arxiv.org/abs/2403.08556v2 )

ライセンス: Link先を確認
Yihao Liu, Feng Xue, Anlong Ming, Mingshuai Zhao, Huadong Ma, Nicu Sebe, (参考訳) 昨年,ビデオや画像編集などのマルチメディアタスクの基盤モデルとして,ユニバーサルモノクル距離深度推定(ユニバーサルMMDE)が注目されている。 それにもかかわらず、現在のアプローチは、シーン固有のパラメータや事前学習を伴わず、様々なシーンで一貫した精度を維持することの難しさに直面し、MMDEの実践性を妨げている。 さらに、これらの手法は、何千万ではなくとも、何千万ものトレーニング用データからなる広範囲なデータセットに依存しており、かなりの時間とハードウェアの費用がかかる。 本稿では,室内と屋外の両方でシームレスに動作するSM$^4$Depthについて,大規模なトレーニングデータやGPUクラスタを必要としないモデルを提案する。 まず,多様な場面にまたがる一貫した深度を得るために,変分に基づく非正規化深度ビンという,新しい計量スケールモデリングを提案する。 従来のメートル法ビンの曖昧さを低減し、トレーニング中のシーンの大きな深さギャップへの適応性を向上する。 第二に、大規模なトレーニングデータへの依存を減らすために、「分割と征服」のソリューションを提案する。 広大な解空間から直接推定する代わりに、計量ビンは複雑さを減らすために複数の解部分空間から推定される。 さらに,室内および屋外の様々なシーンにおける深度精度と整合性を評価するために,未切断深度データセットであるBUPT深度を導入した。 SM$4$Depthは、わずか150KのRGB-Dペアを使用して、コンシューマグレードのGPUでトレーニングされている。 コードはhttps://github.com/mRobotit/SM4Depth.comで見ることができる。

In the last year, universal monocular metric depth estimation (universal MMDE) has gained considerable attention, serving as the foundation model for various multimedia tasks, such as video and image editing. Nonetheless, current approaches face challenges in maintaining consistent accuracy across diverse scenes without scene-specific parameters and pre-training, hindering the practicality of MMDE. Furthermore, these methods rely on extensive datasets comprising millions, if not tens of millions, of data for training, leading to significant time and hardware expenses. This paper presents SM$^4$Depth, a model that seamlessly works for both indoor and outdoor scenes, without needing extensive training data and GPU clusters. Firstly, to obtain consistent depth across diverse scenes, we propose a novel metric scale modeling, i.e., variation-based unnormalized depth bins. It reduces the ambiguity of the conventional metric bins and enables better adaptation to large depth gaps of scenes during training. Secondly, we propose a "divide and conquer" solution to reduce reliance on massive training data. Instead of estimating directly from the vast solution space, the metric bins are estimated from multiple solution sub-spaces to reduce complexity. Additionally, we introduce an uncut depth dataset, BUPT Depth, to evaluate the depth accuracy and consistency across various indoor and outdoor scenes. Trained on a consumer-grade GPU using just 150K RGB-D pairs, SM$^4$Depth achieves outstanding performance on the most never-before-seen datasets, especially maintaining consistent accuracy across indoors and outdoors. The code can be found https://github.com/mRobotit/SM4Depth.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# メモリ拡張正規性による動的グラフの異常検出

Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality ( http://arxiv.org/abs/2403.09039v2 )

ライセンス: Link先を確認
Jie Liu, Xuequn Shang, Xiaolin Han, Kai Zheng, Hongzhi Yin, (参考訳) 動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。 この問題に対処する従来のアプローチは、典型的には教師なしの学習フレームワークを使用し、トレーニング中に排他的正規データで正規性パターンをキャプチャし、テスト中の偏差を異常として識別する。 しかし、これらの手法は、通常のパターンを直接特定することなく、表現のためのプロキシタスクにのみ依存するか、空間的および時間的正規性パターンの区別を無視するか、重大な欠点に直面している。 より最近の手法では、負のサンプリングによる対照的な学習も高い計算コストに直面し、スケーラビリティを大きなグラフに制限している。 これらの課題に対処するために,新しい空間的記憶強調グラフオートエンコーダ(STRIPE)を導入する。 当初、STRIPEはグラフニューラルネットワーク(GNN)を採用し、空間的および時間的特徴を抽出するために時間的畳み込み層をゲートしている。 次に、STRIPEは、それぞれ通常のパターンのプロトタイプをキャプチャして格納するために、空間記憶ネットワークと時間記憶ネットワークを分離する。 これらのストアドパターンを検索し、相互注意機構を通じてエンコードされたグラフ埋め込みと統合する。 最後に、統合された機能はデコーダに入力され、異常検出のプロキシタスクとして機能するグラフストリームを再構築する。 この包括的アプローチは、再構成エラーを最小限に抑えるだけでなく、最も近いメモリプロトタイプの埋め込みのコンパクトさと特異性も強調する。 6つのベンチマークデータセットに対する大規模な実験は、STRIPEの有効性と効率を実証し、STRIPEはAUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法を著しく上回っている。

Anomaly detection in dynamic graphs presents a significant challenge due to the temporal evolution of graph structures and attributes. The conventional approaches that tackle this problem typically employ an unsupervised learning framework, capturing normality patterns with exclusive normal data during training and identifying deviations as anomalies during testing. However, these methods face critical drawbacks: they either only depend on proxy tasks for representation without directly pinpointing normal patterns, or they neglect to differentiate between spatial and temporal normality patterns. More recent methods that use contrastive learning with negative sampling also face high computational costs, limiting their scalability to large graphs. To address these challenges, we introduce a novel Spatial-Temporal memories-enhanced graph autoencoder (STRIPE). Initially, STRIPE employs Graph Neural Networks (GNNs) and gated temporal convolution layers to extract spatial and temporal features. Then STRIPE incorporates separate spatial and temporal memory networks to capture and store prototypes of normal patterns, respectively. These stored patterns are retrieved and integrated with encoded graph embeddings through a mutual attention mechanism. Finally, the integrated features are fed into the decoder to reconstruct the graph streams which serve as the proxy task for anomaly detection. This comprehensive approach not only minimizes reconstruction errors but also emphasizes the compactness and distinctiveness of the embeddings w.r.t. the nearest memory prototypes. Extensive experiments on six benchmark datasets demonstrate the effectiveness and efficiency of STRIPE, where STRIPE significantly outperforms existing methods with 5.8% improvement in AUC scores and 4.62X faster in training time.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 腹腔鏡下手術における自己監督型ビデオ禁煙法

Self-Supervised Video Desmoking for Laparoscopic Surgery ( http://arxiv.org/abs/2403.11192v2 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Shuohao Zhang, Longfei Gou, Haobin Chen, Lei Zhang, Hao Chen, Wangmeng Zuo, (参考訳) 実際のペアデータを集めるのが困難であるため、既存の喫煙法のほとんどは、煙を合成してモデルを訓練し、実際の手術シナリオに不適当に一般化する。 未経験の学習方法で、シングルイメージの現実世界の喫煙を探索する研究はいくつかあるが、密煙を扱う上ではまだ課題に直面している。 本研究では,自己監督型手術ビデオデモーキング(SelfSVD)を導入することで,これらの課題に対処する。 一方、高エネルギー装置の起動前に捕捉したフレームは、一般的には明確であり(前煙フレーム、PSフレーム)、他のスモーキーフレームの監視として機能し、現実の自己監督型ビデオデモーキングを現実的に実現可能である。 一方, デスモーキング性能を向上させるため, マスク戦略と正規化項が提示され, 自明な解決を避けるためにPSフレームからモデルに貴重な情報を与える。 さらに,各種のスモーキーシーンをカバーした,デ喫煙のためのリアルな手術ビデオデータセットを構築した。 データセットの大規模な実験により、私たちのSelfSVDは、最先端の手法よりもよりリアルな詳細を回復しながら、より効率的かつ効率的に煙を除去できることがわかった。 データセット、コード、事前トレーニングされたモデルは、 \url{https://github.com/ZcsrenlongZ/SelfSVD}で利用可能である。

Due to the difficulty of collecting real paired data, most existing desmoking methods train the models by synthesizing smoke, generalizing poorly to real surgical scenarios. Although a few works have explored single-image real-world desmoking in unpaired learning manners, they still encounter challenges in handling dense smoke. In this work, we address these issues together by introducing the self-supervised surgery video desmoking (SelfSVD). On the one hand, we observe that the frame captured before the activation of high-energy devices is generally clear (named pre-smoke frame, PS frame), thus it can serve as supervision for other smoky frames, making real-world self-supervised video desmoking practically feasible. On the other hand, in order to enhance the desmoking performance, we further feed the valuable information from PS frame into models, where a masking strategy and a regularization term are presented to avoid trivial solutions. In addition, we construct a real surgery video dataset for desmoking, which covers a variety of smoky scenes. Extensive experiments on the dataset show that our SelfSVD can remove smoke more effectively and efficiently while recovering more photo-realistic details than the state-of-the-art methods. The dataset, codes, and pre-trained models are available at \url{https://github.com/ZcsrenlongZ/SelfSVD}.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# REFRAME: モバイルデバイスの反射面リアルタイムレンダリング

REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices ( http://arxiv.org/abs/2403.16481v2 )

ライセンス: Link先を確認
Chaojie Ji, Yufeng Li, Yiyi Liao, (参考訳) 本研究は,様々な場面にまたがる反射面に対して,リアルタイムな新規ビュー合成を実現するための課題に取り組む。 既存のリアルタイムレンダリング手法、特にメッシュに基づくレンダリングは、リッチなビュー依存の外観を持つモデリングサーフェスにおいて、サブパーパフォーマンスを持つことが多い。 私たちのキーとなるアイデアは、ビュー依存情報をパラメータ化するための新しいアプローチを取り入れながら、メッシュをレンダリングアクセラレーションに活用することにあります。 色を拡散およびスペクトルに分解し、ニューラル環境マップに基づいて反射方向のスペクトル色をモデル化する。 提案手法は,スマートフォンなどのエッジデバイス上でのリアルタイムレンダリングを効率よく実現しつつ,最先端のオフライン手法と比較して,反射面の再現性が高いことを示す。

This work tackles the challenging task of achieving real-time novel view synthesis for reflective surfaces across various scenes. Existing real-time rendering methods, especially those based on meshes, often have subpar performance in modeling surfaces with rich view-dependent appearances. Our key idea lies in leveraging meshes for rendering acceleration while incorporating a novel approach to parameterize view-dependent information. We decompose the color into diffuse and specular, and model the specular color in the reflected direction based on a neural environment map. Our experiments demonstrate that our method achieves comparable reconstruction quality for highly reflective surfaces compared to state-of-the-art offline methods, while also efficiently enabling real-time rendering on edge devices such as smartphones.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 属2曲線のモジュライ空間の機械学習と等質暗号への応用

Machine learning for moduli space of genus two curves and an application to isogeny based cryptography ( http://arxiv.org/abs/2403.17250v2 )

ライセンス: Link先を確認
Elira Shaska, Tony Shaska, (参考訳) 機械学習を用いて、属2曲線のモジュライ空間とより具体的には細いモジュライ点の分布を研究し、属2曲線が$(n, n)$-スプリットヤコビアンを持つかどうかを検出する。 小さい重み付き高さと$(n, n)$-split Jacobian for $n=2, 3, 5$ の有理モジュライ点が非常に少ないことを示す。 さらに、K-Neighbors分類器を使用して、99.9\%の精度で分割を検出することができる。 これは、人工ニューラルネットワークと機械学習技術が、属2曲線のモジュライ空間における算術的問題にかなり信頼でき、等質暗号の応用に使用できることを示している。

We use machine learning to study the moduli space of genus two curves and more specifically distribution of fine moduli points and detecting if a genus two curve has $(n, n)$-split Jacobian. We show that there are very few rational moduli points with small weighted height and $(n, n)$-split Jacobian for $n=2, 3, 5$. Moreover, using a K-Neighbors Classifier we are able to detect splitting with an accuracy of 99.9\%. This shows that artificial neural networks and machine learning techniques could be quite reliable on arithmetic questions in the moduli space of genus two curves and can possibly be used to applications in isogeny based cryptography.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# プレーンマンバ:視覚認識における非階層型マンバの改善

PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition ( http://arxiv.org/abs/2403.17695v2 )

ライセンス: Link先を確認
Chenhongyi Yang, Zehui Chen, Miguel Espinosa, Linus Ericsson, Zhenyu Wang, Jiaming Liu, Elliot J. Crowley, (参考訳) 一般的な視覚認識のために設計された単純な非階層状態空間モデル(SSM)であるPlainMambaを提案する。 最近のMambaモデルでは、SSMがシーケンシャルデータ上で他のアーキテクチャと非常に競合する可能性を示しており、画像に適用するための最初の試みがなされている。 本稿では,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を向上する。 一 スキャンシーケンスにおけるトークンの隣接性を確保することにより空間連続性を向上させる連続した2次元走査プロセス 二 方向対応更新により、方向情報を符号化してトークンの空間的関係を識別することができる。 私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使用が容易でスケールしやすいように設計されています。 特別なトークンの必要性を取り除くことで、アーキテクチャはさらに単純化される。 我々はPlainMambaを様々な視覚認識タスクで評価し、従来の非階層モデルよりも性能向上を実現し、階層的な代替品と競合する。 高精細な入力を必要とするタスク、特にPlainMambaはハイパフォーマンスを維持しながら、はるかに少ない計算を必要とする。 コードとモデルは、https://github.com/ChenhongyiYang/PlainMamba で入手できる。

We present PlainMamba: a simple non-hierarchical state space model (SSM) designed for general visual recognition. The recent Mamba model has shown how SSMs can be highly competitive with other architectures on sequential data and initial attempts have been made to apply it to images. In this paper, we further adapt the selective scanning process of Mamba to the visual domain, enhancing its ability to learn features from two-dimensional images by (i) a continuous 2D scanning process that improves spatial continuity by ensuring adjacency of tokens in the scanning sequence, and (ii) direction-aware updating which enables the model to discern the spatial relations of tokens by encoding directional information. Our architecture is designed to be easy to use and easy to scale, formed by stacking identical PlainMamba blocks, resulting in a model with constant width throughout all layers. The architecture is further simplified by removing the need for special tokens. We evaluate PlainMamba on a variety of visual recognition tasks, achieving performance gains over previous non-hierarchical models and is competitive with hierarchical alternatives. For tasks requiring high-resolution inputs, in particular, PlainMamba requires much less computing while maintaining high performance. Code and models are available at: https://github.com/ChenhongyiYang/PlainMamba .
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# EgoPoseFormer: ステレオ・エゴセントリックな3次元姿勢推定のためのシンプルなベースライン

EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation ( http://arxiv.org/abs/2403.18080v2 )

ライセンス: Link先を確認
Chenhongyi Yang, Anastasia Tkach, Shreyas Hampali, Linguang Zhang, Elliot J. Crowley, Cem Keskin, (参考訳) EgoPoseFormerは、ステレオ・エゴセントリックな人間のポーズ推定のための、シンプルだが効果的なトランスフォーマーベースモデルである。 自己中心型ポーズ推定における主な課題は、自己隠蔽や頭部搭載カメラの視野制限(FOV)に起因する関節視認性を克服することである。 提案手法は,2段階のポーズ推定パラダイムを取り入れることで,この課題を克服する。第1段階では,大域的な情報を活用して各関節の粗い位置を推定し,第2段階では,細粒な立体視覚特徴を利用して粗い位置を洗練させるDETR方式のトランスフォーマーを用いる。 さらに,変形可能なステレオアテンション操作により,トランスフォーマーがマルチビュー機能を効果的に処理し,各関節を正確に3次元世界へローカライズすることができる。 提案手法をステレオUnrealEgoデータセット上で評価し,計算効率が良く,MPJPEを27.4mm(45%改善),モデルパラメータが7.9%,FLOPが13.1%に改善した。 驚くべきことに、適切なトレーニング設定を行うことで、私たちの第一段階のポーズ提案ネットワークでさえ、従来の技術よりも優れたパフォーマンスを達成できることがわかりました。 また,SceneEgoデータセット上での最先端性能を実現し,60.7%のモデルパラメータと36.4%のFLOPを持つ既存手法と比較して,MPJPEを25.5mm(21%改善)改善した。 コードは、https://github.com/ChenhongyiYang/egoposeformer.comで入手できる。

We present EgoPoseFormer, a simple yet effective transformer-based model for stereo egocentric human pose estimation. The main challenge in egocentric pose estimation is overcoming joint invisibility, which is caused by self-occlusion or a limited field of view (FOV) of head-mounted cameras. Our approach overcomes this challenge by incorporating a two-stage pose estimation paradigm: in the first stage, our model leverages the global information to estimate each joint's coarse location, then in the second stage, it employs a DETR style transformer to refine the coarse locations by exploiting fine-grained stereo visual features. In addition, we present a Deformable Stereo Attention operation to enable our transformer to effectively process multi-view features, which enables it to accurately localize each joint in the 3D world. We evaluate our method on the stereo UnrealEgo dataset and show it significantly outperforms previous approaches while being computationally efficient: it improves MPJPE by 27.4mm (45% improvement) with only 7.9% model parameters and 13.1% FLOPs compared to the state-of-the-art. Surprisingly, with proper training settings, we find that even our first-stage pose proposal network can achieve superior performance compared to previous arts. We also show that our method can be seamlessly extended to monocular settings, which achieves state-of-the-art performance on the SceneEgo dataset, improving MPJPE by 25.5mm (21% improvement) compared to the best existing method with only 60.7% model parameters and 36.4% FLOPs. Code is available at: https://github.com/ChenhongyiYang/egoposeformer .
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 実データにおけるトピックAPIの公開と再現性評価

A Public and Reproducible Assessment of the Topics API on Real Data ( http://arxiv.org/abs/2403.19577v3 )

ライセンス: Link先を確認
Yohan Beugin, Patrick McDaniel, (参考訳) Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。 以前の作業の結果、Googleと研究コミュニティの間で、ユーティリティとプライバシの両方をトレードオフするTopicsの能力に関する議論が続いている。 競合の中心は、これらの分析で使用されるデータセットのリアリズムとその再現性である。少数のユーザサンプルで収集されたデータを使用したり、合成データセットを生成する研究者が、Googleの結果はプライベートデータセットから推測される。 本稿では,リアルタイム閲覧履歴の最大かつ一般公開されたデータセット上で,最新のトピックスAPIの再現可能な評価を行うことにより,先行研究を補完する。 まず、時間とともに実際のユーザの興味がいかにユニークで安定したかを測定する。 そこで,従来のプライバシ研究の方法論を応用して,これらの実際のブラウジングトレースからユーザをフィンガープリントできるかどうかを評価する。 最後に,Webアクターに,匿名分布を公開して再現可能な評価を行うよう呼びかける。 このデータセットの実際のユーザ1207人に対して、広告主がトピックを調査した結果、ウェブサイト間で再識別される確率はそれぞれ2%、3%、4%であることがわかった。 本稿では,Topicsがすべてのユーザに対して同一のプライバシ保証を提供していないこと,情報漏洩が時間とともに悪化していること,さらに新たなWeb提案によるクレームの公開および再現可能な評価の必要性を強調した実データについて述べる。

The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that for the 1207 real users in this dataset, the probability of being re-identified across websites is of 2%, 3%, and 4% after 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users and that the information leakage worsens over time, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 古典的画像アップサンプリングのための最寄りの分類法

Nearest Neighbor Classification for Classical Image Upsampling ( http://arxiv.org/abs/2403.19611v2 )

ライセンス: Link先を確認
Evan Matthews, Nicolas Prate, (参考訳) 画像の形式で順序付けられたピクセルデータの集合が与えられた場合、我々のゴールは、何らかの要因によって結果の解像度が向上し、最終的な結果が人間のテストに合格し、画像に新しく、信頼性があり、現実的な情報と詳細を加えて、アップスケーリングの時間的複雑さは、失われたアップスケーリング実装に比較的近い、というように、データのアップサンプリングを行うことである。

Given a set of ordered pixel data in the form of an image, our goal is to perform upsampling on the data such that: the resulting resolution is improved by some factor, the final result passes the human test, having added new, believable, and realistic information and detail to the image, the time complexity for upscaling is relatively close to that of lossy upscaling implementations.
翻訳日:2024-08-16 18:41:00 公開日:2024-08-15
# 携帯電話でのデュアルカメラスムースズーム

Dual-Camera Smooth Zoom on Mobile Phones ( http://arxiv.org/abs/2404.04908v2 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Yu Yang, Wangmeng Zuo, (参考訳) モバイルでのデュアルカメラ間のズームでは、幾何学的内容や画像の色がプレビューで顕著に変化し、ユーザのズーム体験に必然的に影響を及ぼす。 本研究では,スムーズなズームプレビューを実現するために,新しいタスクであるデュアルカメラスムーズズーム(DCSZ)を導入する。 フレーム補間 (FI) 技術は潜在的な解決法であるが、地道収集に苦慮している。 そこで本研究では,連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成3DモデルをレンダリングしてDCSZデータを生成する。 具体的には、カメラ固有の符号化を導入し、仮想カメラごとに特定の3Dモデルを構築する、新しいデュアルカメラスムーズ・ズーム・ガウス・スプレイティング(ZoomGS)を提案する。 提案するデータファクトリでは,DCSZのための合成データセットを構築し,それを微細なFIモデルに活用する。 また,実世界における地絡みのないデュアルズーム画像を収集し,評価を行った。 複数のFI法を用いて大規模な実験を行った。 その結果, 微調整FIモデルでは, DCSZタスクにおける元のモデルに比べて, 大幅な性能向上が達成された。 データセット、コード、事前トレーニングされたモデルは、https://github.com/ZcsrenlongZ/ZoomGS.comから入手できる。

When zooming between dual cameras on a mobile, noticeable jumps in geometric content and image color occur in the preview, inevitably affecting the user's zoom experience. In this work, we introduce a new task, ie, dual-camera smooth zoom (DCSZ) to achieve a smooth zoom preview. The frame interpolation (FI) technique is a potential solution but struggles with ground-truth collection. To address the issue, we suggest a data factory solution where continuous virtual cameras are assembled to generate DCSZ data by rendering reconstructed 3D models of the scene. In particular, we propose a novel dual-camera smooth zoom Gaussian Splatting (ZoomGS), where a camera-specific encoding is introduced to construct a specific 3D model for each virtual camera. With the proposed data factory, we construct a synthetic dataset for DCSZ, and we utilize it to fine-tune FI models. In addition, we collect real-world dual-zoom images without ground-truth for evaluation. Extensive experiments are conducted with multiple FI methods. The results show that the fine-tuned FI models achieve a significant performance improvement over the original ones on DCSZ task. The datasets, codes, and pre-trained models will are available at https://github.com/ZcsrenlongZ/ZoomGS.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# マルチモーダルロングフォーム要約の特徴付け:財務報告を事例として

Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports ( http://arxiv.org/abs/2404.06162v3 )

ライセンス: Link先を確認
Tianyu Cao, Natraj Raman, Danial Dervovic, Chenhao Tan, (参考訳) 大規模言語モデル(LLM)が長い入力を処理するために自然言語処理の能力を拡大するにつれ、その能力や振る舞いを理解するためには厳密で体系的な分析が必要である。 健全な応用は要約であり、その普遍性と論争のためである(例えば、研究者は要約の死を宣言している)。 本稿では,財務報告書の要約をケーススタディとして用いた。 マルチモーダルな長文要約を特徴付けるための計算フレームワークを提案し,Claude 2.0/2.1, GPT-4/3.5, Cohereの挙動について検討する。 GPT-3.5とCohereは、この要約タスクを有意に実行できない。 クロード2, GPT-4では, 要約の抽出性を分析し, LLMにおける位置バイアスを同定する。 この位置バイアスは、クロードの入力をシャッフルした後で消失し、クロードが重要な情報を認識することを示唆している。 また,LSM生成サマリーにおける数値データの利用に関する包括的調査を行い,数値幻覚の分類を提供する。 我々は、GPT-4の数値使用率の向上のために、限られた成功率で即時エンジニアリングを採用する。 GPT-4と比較して,長時間のマルチモーダル入力処理におけるClaude 2の強みを概説した。 生成された要約と評価コードはhttps://github.com/ChicagoHAI/characterizing-multimodal-long-form-summarizationで公開されている。

As large language models (LLMs) expand the power of natural language processing to handle long inputs, rigorous and systematic analyses are necessary to understand their abilities and behavior. A salient application is summarization, due to its ubiquity and controversy (e.g., researchers have declared the death of summarization). In this paper, we use financial report summarization as a case study because financial reports are not only long but also use numbers and tables extensively. We propose a computational framework for characterizing multimodal long-form summarization and investigate the behavior of Claude 2.0/2.1, GPT-4/3.5, and Cohere. We find that GPT-3.5 and Cohere fail to perform this summarization task meaningfully. For Claude 2 and GPT-4, we analyze the extractiveness of the summary and identify a position bias in LLMs. This position bias disappears after shuffling the input for Claude, which suggests that Claude seems to recognize important information. We also conduct a comprehensive investigation on the use of numeric data in LLM-generated summaries and offer a taxonomy of numeric hallucination. We employ prompt engineering to improve GPT-4's use of numbers with limited success. Overall, our analyses highlight the strong capability of Claude 2 in handling long multimodal inputs compared to GPT-4. The generated summaries and evaluation code are available at https://github.com/ChicagoHAI/characterizing-multimodal-long-form-summarization.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 強化学習支援量子アーキテクチャ探索の量子情報理論解析

A quantum information theoretic analysis of reinforcement learning-assisted quantum architecture search ( http://arxiv.org/abs/2404.06174v3 )

ライセンス: Link先を確認
Abhishek Sadhu, Aritra Sarkar, Akash Kundu, (参考訳) 量子コンピューティングの分野では、変分量子アルゴリズム (VQA) は幅広い応用範囲にわたる量子解の重要なカテゴリを表す。 これらのアルゴリズムは、量子計算の優位性を実現するための大きな可能性を示している。 VQAの基本的な側面は、表現的で効率的な量子回路(すなわち、アンザッツ)を定式化することであり、そのようなアンザッツの探索を自動化することは量子アーキテクチャサーチ(QAS)として知られている。 近年、強化学習(RL)技術を用いて、RL-QASとして知られるアンサーゼの探索を自動化する。 本研究では, 変分量子状態対角化問題に合わせたアンサッツ製造のためのRL-QASについて検討した。 本研究は, 得られた状態の絡み合い閾値, 初期条件がRL-エージェントの性能に及ぼす影響, 相関関係の位相遷移挙動, および条件エントロピー指標による固有値の導出におけるキュービットの離散的寄与など, 様々な次元の包括的分析を含む。 我々はこれらの知見を活用して、最適な資源を用いてランダムな量子状態と対角化するために、QASの絡み合った許容アンサッツを考案する。 さらに、本論文では、変分量子アルゴリズムに適用可能なRL-QAS内の報酬関数を構築するための一般化されたフレームワークを提供する。

In the field of quantum computing, variational quantum algorithms (VQAs) represent a pivotal category of quantum solutions across a broad spectrum of applications. These algorithms demonstrate significant potential for realising quantum computational advantage. A fundamental aspect of VQAs involves formulating expressive and efficient quantum circuits (namely ansatz), and automating the search of such ansatz is known as quantum architecture search (QAS). Recently, reinforcement learning (RL) techniques is utilized to automate the search for ansatzes, known as RL-QAS. This study investigates RL-QAS for crafting ansatz tailored to the variational quantum state diagonalisation problem. Our investigation includes a comprehensive analysis of various dimensions, such as the entanglement thresholds of the resultant states, the impact of initial conditions on the performance of RL-agent, the phase transition behaviour of correlation in concurrence bounds, and the discrete contributions of qubits in deducing eigenvalues through conditional entropy metrics. We leverage these insights to devise an entanglement-guided admissible ansatz in QAS to diagonalise random quantum states using optimal resources. Furthermore, the methodologies presented herein offer a generalised framework for constructing reward functions within RL-QAS applicable to variational quantum algorithms.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 拡散に基づく視覚知覚のための暗黙的・明示的言語指導

Implicit and Explicit Language Guidance for Diffusion-based Visual Perception ( http://arxiv.org/abs/2404.07600v3 )

ライセンス: Link先を確認
Hefeng Wang, Jiale Cao, Jin Xie, Aiping Yang, Yanwei Pang, (参考訳) テキストと画像の拡散モデルは条件付き画像合成に強力な能力を示している。 大規模視覚言語による事前学習により、拡散モデルは、異なるテキストプロンプトの下で、リッチなテクスチャと合理的な構造を持つ高品質な画像を生成することができる。 しかし、事前学習した拡散モデルを視覚知覚に適用することは、オープンな問題である。 本稿では,拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。 当社のIEDPは暗黙の言語ガイダンスブランチと明示的な言語ガイダンスブランチで構成されています。 暗黙のブランチは凍結したCLIPイメージエンコーダを使用して、明示的なテキストプロンプトを使わずに拡散モデルに供給される暗黙のテキスト埋め込みを直接生成する。 明示分岐は、拡散モデルの条件特徴抽出にテキストプロンプトとして、対応する画像の接地木ラベルを利用する。 トレーニング中、これらの2つのブランチのモデル重みを共有することで、拡散モデルを共同で訓練する。 その結果、暗黙の枝と明示的な枝は、特徴学習を共同でガイドすることができる。 推測では,最終予測には暗黙の分岐のみを用いる。 セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクで実験を行う。 当社のIEDPは両タスクで有望なパフォーマンスを実現しています。 セマンティックセグメンテーションのために、我々のIEDPは、AD20K検証セットのmIoU$^\text{ss}$スコア55.9%を持ち、ベースラインメソッドVPDを2.2%上回る。 深度推定では, ベースライン法VPDの相対利得が11.0%であった。

Text-to-image diffusion models have shown powerful ability on conditional image synthesis. With large-scale vision-language pre-training, diffusion models are able to generate high-quality images with rich texture and reasonable structure under different text prompts. However, it is an open problem to adapt the pre-trained diffusion model for visual perception. In this paper, we propose an implicit and explicit language guidance framework for diffusion-based perception, named IEDP. Our IEDP comprises an implicit language guidance branch and an explicit language guidance branch. The implicit branch employs frozen CLIP image encoder to directly generate implicit text embeddings that are fed to diffusion model, without using explicit text prompts. The explicit branch utilizes the ground-truth labels of corresponding images as text prompts to condition feature extraction of diffusion model. During training, we jointly train diffusion model by sharing the model weights of these two branches. As a result, implicit and explicit branches can jointly guide feature learning. During inference, we only employ implicit branch for final prediction, which does not require any ground-truth labels. Experiments are performed on two typical perception tasks, including semantic segmentation and depth estimation. Our IEDP achieves promising performance on both tasks. For semantic segmentation, our IEDP has the mIoU$^\text{ss}$ score of 55.9% on AD20K validation set, which outperforms the baseline method VPD by 2.2%. For depth estimation, our IEDP outperforms the baseline method VPD with a relative gain of 11.0%.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 適応的思考を伴う大規模言語モデルからの蒸留推論能力

Distilling Reasoning Ability from Large Language Models with Adaptive Thinking ( http://arxiv.org/abs/2404.09170v4 )

ライセンス: Link先を確認
Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu, (参考訳) 思考微調整の連鎖 (cot-finetuning) は、単に答えを予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対してパフォーマンスを改善する推論能力を持つ小さな言語モデル (SLM) を育むことを目的としている。 既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。 このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。 そこで本稿では,理性よりも先に回答を生成するための頑健なポスト思考機構を提案する。 この回答ファースト設定のおかげです。 1) 答は,理性上のミスによる悪影響から逃れることができる。 2 理性は、答の誤り増幅器として機能し、SLM は、ハードサンプルの学習に重点を置いている。 3)推論効率は、推論を行う際に回答が出力された直後に、ユーザが生成を停止できるので、設定の恩恵を受けることができる。 しかし、ポスト思考メカニズムは多くの利点をもたらし、特定のタスクにおけるSLMの全体的な性能を向上させるが、質問について考え、複雑な質問を事前思考メカニズムと比較して単純なサブクエストに分解する能力を失う可能性がある。 そこで,事前思考機構と後思考機構の利点を統合するためのソフト・プロンプト・チューニングによるプラグアンドプレイ適応思考機構を提案する。 提案手法の有効性を実証するため,12の推論課題と2つの代表言語モデルに対して大規模な実験を行った。

Chain of thought finetuning (cot-finetuning) aims to endow small language models (SLM) with reasoning ability to improve their performance towards specific tasks by allowing them to imitate the reasoning procedure of large language models (LLM) beyond simply predicting the answers. Most existing cot-finetuning methods adopt a pre-thinking mechanism, allowing the SLM to generate a rationale before providing an answer. This mechanism enables SLM to analyze and think about complex questions, but it also makes answer correctness highly sensitive to minor errors in rationale. Therefore, we propose a robust post-thinking mechanism to generate answers before rationale. Thanks to this answer-first setting, 1) the answer can escape from the adverse effects caused by minor errors in the rationale; 2) the rationale serves as an error amplifier to the answer, which makes the SLM focus on learning hard samples; 3) the inferring efficiency can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. However, although the post-thinking mechanism brings many advantages and improves the overall performance of SLM on specific tasks, it may lose the ability to think about the questions and decompose complex questions into simple sub-questions compared to pre-thinking mechanism. Therefore, a plug-and-play adaptive-thinking mechanism is proposed with the aid of the soft prompt tuning to integrate the merits of the pre-thinking mechanism and post-thinking mechanism, in which a perception module is introduced to adaptively prompt SLM answer or think first based on perceiving the complexity of the questions. Extensive experiments are conducted across 12 reasoning tasks and 2 representative language models to demonstrate the effectiveness of the proposed mechanism.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# ビーブル誘導測定理論

Beable-guided measurement theory ( http://arxiv.org/abs/2404.09934v2 )

ライセンス: Link先を確認
Aleksei M. Aleshin, Vladimir V. Nikitin, Petr I. Pronin, (参考訳) 量子力学では、ランダム性は別の公理として仮定される。 デ・ブロイの理論は、完全に決定論的形式主義から量子現象を再現することを可能にする。 しかし、デ・ブロイ=ボーム理論における量子ランダム性緊急性の問題には特別な注意が必要である。 作品[G]で。 タステヴィン(Tastevin, F. Lalo\e, Comptes Rendus)。 2021, 22, 1, pp. 99-116] で測定結果に顕微鏡的影響が認められた。 本研究では、ド・ブロイ理論における量子ランダム性の生成について、より詳細に研究する。 具体的には,デコヒーレンスプロセスにおけるターゲットシステムとデバイス動作について検討し,標準共役オブザーバブルの測定をモデル化する。 本研究では,不確実性関係に違反するビーブルパラメータを用いて,情報遷移の機会をテストする思考実験を提案する。 本研究では, 測定過程において, 不確実性の関係に応じて, 可算パラメータの強い確率的ゆらぎが系をランダム化することを示す。 それにもかかわらず、これらの変動を無視できる異常な測定モデルが見つかる。 これらの特別モデルはさらなる調査を必要とする。

In quantum mechanics, randomness is postulated as a separate axiom. De Broglie's theory allows one to reproduce quantum phenomena from completely deterministic formalism. But the question of the quantum randomness emergency in the de Broglie-Bohm theory needs special attention. In the work [G. Tastevin, F. Lalo\"e, Comptes Rendus. Physique, 2021, 22, 1, pp. 99-116], it was shown that it arises as a result of the device microscopic state influence on the measurement result. In our work, we investigate the genesis of the quantum randomness in the de Broglie's theory in more details. Namely, we investigate the target system and the device behaviour in the decoherence process and model the measurement of canonical-conjugate observables. We propose a thought experiment which tests the opportunity of the information transition using beable-parameters violating the uncertainty relation. We show that in the measurement process, the strong stochastic fluctuations of beable parameters arise randomising the system in accordance with the uncertainty relation. Nevertheless, we find anomalous models of measurement in which these fluctuations can be neglected. These special models require further investigation.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 生成モデルを用いた圧縮強化学習

Compressed Federated Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2404.10635v3 )

ライセンス: Link先を確認
Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, (参考訳) 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。 この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。 しかし、この集約ステップは、かなりの通信コストを発生させる。 本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。 具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。 提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。 我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。 我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。

Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 検知器の崩壊: 自律運転における破滅的過負荷や盲点に対する物理世界バックドア検出

Detector Collapse: Physical-World Backdooring Object Detection to Catastrophic Overload or Blindness in Autonomous Driving ( http://arxiv.org/abs/2404.11357v2 )

ライセンス: Link先を確認
Hangtao Zhang, Shengshan Hu, Yichen Wang, Leo Yu Zhang, Ziqi Zhou, Xianlong Wang, Yanjun Zhang, Chao Chen, (参考訳) オブジェクト検出タスクは、自律運転のような安全に重要なシステムにおいて重要であり、オブジェクトの位置をピンポイントすることに集中する。 これらの検出器は、バックドア攻撃の影響を受けやすいことが知られている。 しかし、既存のバックドア技術は、主に分類タスクから適応しており、オブジェクト検出に特有のより深い脆弱性を見下ろしている。 本稿では,物体検出に適した新たなバックドアアタックパラダイムであるインテグレータ・コラプス(DC)を導入することで,このギャップを埋めることを目的としている。 DCは、検出器を瞬時に無力化するように設計されている(つまり、検出器の性能が著しく損なわれ、サービス停止で終了する)。 この目的のために,広汎な誤識別を誘発するスポンジと,見えない物体をレンダリングするブラインドという2つの革新的な攻撃手法を開発した。 特筆すべきは、本研究では、自然物を利用した新たな中毒対策を導入し、実環境における実践的なバックドアとして機能させることである。 いくつかのベンチマークで異なる検出器を実験したところ、最先端の攻撃に対する攻撃効果において、大幅な改善($\sim$10\%-60\%、$\sim$2-7$\times$ relative)が見られた。

Object detection tasks, crucial in safety-critical systems like autonomous driving, focus on pinpointing object locations. These detectors are known to be susceptible to backdoor attacks. However, existing backdoor techniques have primarily been adapted from classification tasks, overlooking deeper vulnerabilities specific to object detection. This paper is dedicated to bridging this gap by introducing Detector Collapse} (DC), a brand-new backdoor attack paradigm tailored for object detection. DC is designed to instantly incapacitate detectors (i.e., severely impairing detector's performance and culminating in a denial-of-service). To this end, we develop two innovative attack schemes: Sponge for triggering widespread misidentifications and Blinding for rendering objects invisible. Remarkably, we introduce a novel poisoning strategy exploiting natural objects, enabling DC to act as a practical backdoor in real-world environments. Our experiments on different detectors across several benchmarks show a significant improvement ($\sim$10\%-60\% absolute and $\sim$2-7$\times$ relative) in attack efficacy over state-of-the-art attacks.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 生成AIの条件フェアネス

Conditional Fairness for Generative AIs ( http://arxiv.org/abs/2404.16663v4 )

ライセンス: Link先を確認
Chih-Hong Cheng, Harald Ruess, Changshun Wu, Xingyu Zhao, (参考訳) 生成型AI(GenAI)モデルの展開は、GenAI特有の新しい特徴付けと実施技術を通じて、重要な公正性に関する懸念を提起する。 特定のタスクを実行する標準的なAIとは違って、GenAIの幅広い機能は、貧しい人々のイメージを生成する際の人口的公平さやビジネスリーダーの成功など、生成されるコンテキストに合わせて"条件的公正性"を必要とする。 まず、生成した出力の公平さを、プロンプトとモデルとは独立に評価し、第二は中立なプロンプトで固有のフェアネスを評価する。 GenAIの複雑さとフェアネス仕様の課題を考えると、特定のグループの外観間の距離が予め設定された閾値を超えた場合、GenAIシステムの不公平さを考慮して、最悪のケースの境界に焦点をあてる。 また、交差フェアネスにおける相対完全性へのアクセスのための組合せテストについても検討する。 最悪の場合をバウンドすることで、エージェントベースのフレームワーク内で、最小限の介入で条件フェアネスを強制するための即時注入方式を開発し、最先端のGenAIシステムで検証する。

The deployment of generative AI (GenAI) models raises significant fairness concerns, addressed in this paper through novel characterization and enforcement techniques specific to GenAI. Unlike standard AI performing specific tasks, GenAI's broad functionality requires "conditional fairness" tailored to the context being generated, such as demographic fairness in generating images of poor people versus successful business leaders. We define two fairness levels: the first evaluates fairness in generated outputs, independent of prompts and models; the second assesses inherent fairness with neutral prompts. Given the complexity of GenAI and challenges in fairness specifications, we focus on bounding the worst case, considering a GenAI system unfair if the distance between appearances of a specific group exceeds preset thresholds. We also explore combinatorial testing for accessing relative completeness in intersectional fairness. By bounding the worst case, we develop a prompt injection scheme within an agent-based framework to enforce conditional fairness with minimal intervention, validated on state-of-the-art GenAI systems.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 日本語新聞を用いた事前学習言語モデルの記憶・学習データの定量化と検出

Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper ( http://arxiv.org/abs/2404.17143v2 )

ライセンス: Link先を確認
Shotaro Ishihara, Hiromu Takahashi, (参考訳) 支配的な事前学習言語モデル(PLM)は、トレーニングデータの記憶と出力の潜在的なリスクを実証している。 この懸念は主に英語で論じられているが、ドメイン固有のPLMに焦点を当てることも事実上重要である。 本研究では,日本語新聞記事の限定コーパスを用いて,ドメイン固有GPT-2モデルを事前学習し,その振る舞いを評価した。 実験では, PLMの記憶が, トレーニングデータ, モデルサイズ, 即時長の重複と関係しているという経験的知見を再現した。 さらに,日本語でもトレーニングデータが検出可能であることを示すため,会員推論攻撃を試みたが,これは英語と同じ傾向である。 この研究は、ドメイン固有のPLMは、時には貴重なプライベートデータで訓練され、大規模に「コピー&ペースト」できると警告している。

Dominant pre-trained language models (PLMs) have demonstrated the potential risk of memorizing and outputting the training data. While this concern has been discussed mainly in English, it is also practically important to focus on domain-specific PLMs. In this study, we pre-trained domain-specific GPT-2 models using a limited corpus of Japanese newspaper articles and evaluated their behavior. Experiments replicated the empirical finding that memorization of PLMs is related to the duplication in the training data, model size, and prompt length, in Japanese the same as in previous English studies. Furthermore, we attempted membership inference attacks, demonstrating that the training data can be detected even in Japanese, which is the same trend as in English. The study warns that domain-specific PLMs, sometimes trained with valuable private data, can ''copy and paste'' on a large scale.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 学習不要グラフニューラルネットワークとラベルのパワー

Training-free Graph Neural Networks and the Power of Labels as Features ( http://arxiv.org/abs/2404.19288v2 )

ライセンス: Link先を確認
Ryoma Sato, (参考訳) トレーニング不要なグラフニューラルネットワーク (TFGNN) を提案する。 まずラベル・アズ・ア・フィーチャー(LaF)を提唱する。 グラフニューラルネットワークの表現力をLaFが向上することを示す。 この分析に基づいてTFGNNを設計する。 実験では、TFGNNがトレーニングフリー設定において既存のGNNよりも優れており、従来のGNNよりもはるかに少ないトレーニングイテレーションで収束していることを確認した。

We propose training-free graph neural networks (TFGNNs), which can be used without training and can also be improved with optional training, for transductive node classification. We first advocate labels as features (LaF), which is an admissible but not explored technique. We show that LaF provably enhances the expressive power of graph neural networks. We design TFGNNs based on this analysis. In the experiments, we confirm that TFGNNs outperform existing GNNs in the training-free setting and converge with much fewer training iterations than traditional GNNs.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 埋め込みスペースを順番に取得する: 森林モニタリングのためのドメイン適応型回帰

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring ( http://arxiv.org/abs/2405.00514v2 )

ライセンス: Link先を確認
Sizhuo Li, Dimitri Gominski, Martin Brandt, Xiaoye Tong, Philippe Ciais, (参考訳) 画像レベルの回帰は、視覚領域とラベルシフトが一般化を妨げる中核的な課題である地球観測において重要な課題である。 しかし、適切なデータセットがないため、リモートセンシングデータ内のドメイン間の回帰は未検討のままである。 我々は,3つの森林関連回帰タスクを持つ5カ国で,航空・衛星画像を用いた新しいデータセットを導入した。 実世界の応用的関心に合わせるために、トレーニング中に対象ドメインの事前情報が得られず、テスト中に限られた情報でモデルが適応されるような制限的な設定による手法を比較する。 順序関係がより一般化されるという仮定に基づいて、低データ状態におけるトランスダクションの強力なベースラインとして回帰のための多様体拡散を提案する。 我々の比較では、ドメイン間の回帰における帰納的手法と帰納的手法の比較の利点を強調した。

Image-level regression is an important task in Earth observation, where visual domain and label shifts are a core challenge hampering generalization. However, cross-domain regression within remote sensing data remains understudied due to the absence of suited datasets. We introduce a new dataset with aerial and satellite imagery in five countries with three forest-related regression tasks. To match real-world applicative interests, we compare methods through a restrictive setup where no prior on the target domain is available during training, and models are adapted with limited information during testing. Building on the assumption that ordered relationships generalize better, we propose manifold diffusion for regression as a strong baseline for transduction in low-data regimes. Our comparison highlights the comparative advantages of inductive and transductive methods in cross-domain regression.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# 視覚言語モデルを用いたショット・インクリメンタル・ラーニング

Few Shot Class Incremental Learning using Vision-Language models ( http://arxiv.org/abs/2405.01040v2 )

ライセンス: Link先を確認
Anurag Kumar, Chinmay Bharti, Saikat Dutta, Srikrishna Karanam, Biplab Banerjee, (参考訳) 近年のディープラーニングの進歩は、様々な教師付きコンピュータビジョンタスクにおける人間の能力に匹敵する顕著な性能を示している。 しかしながら、モデルトレーニングに先立って、すべてのクラスを包含する広範なトレーニングデータを持つという前提は、新しいクラスの限られたデータ可用性が一般的である現実のシナリオとは相容れないことが多い。 この課題は、トレーニングデータに少数のサンプルを含む新しいクラスをシームレスに統合し、ベースクラスのパフォーマンスを損なうことなく、モデルがこれらの追加を順応的に適応するように要求することにある。 この緊急性に対処するため、研究コミュニティは数発のクラスインクリメンタルラーニング(FSCIL)の領域でいくつかのソリューションを導入している。 本研究では,言語正規化器と部分空間正規化器を利用した革新的なFSCILフレームワークを提案する。 ベーストレーニング中、言語正規化器はビジョンランゲージモデルから抽出された意味情報を組み込むのに役立つ。 サブスペース正規化器は、インクリメンタルトレーニング中にベースクラス固有の画像とテキストセマンティクス間のニュアンスド接続の取得を容易にする。 提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。 提案手法の有効性を確認するため,我々は3つの異なるFSCILベンチマークの総合的な実験を行い,そのフレームワークが最先端の性能を達成した。

Recent advancements in deep learning have demonstrated remarkable performance comparable to human capabilities across various supervised computer vision tasks. However, the prevalent assumption of having an extensive pool of training data encompassing all classes prior to model training often diverges from real-world scenarios, where limited data availability for novel classes is the norm. The challenge emerges in seamlessly integrating new classes with few samples into the training data, demanding the model to adeptly accommodate these additions without compromising its performance on base classes. To address this exigency, the research community has introduced several solutions under the realm of few-shot class incremental learning (FSCIL). In this study, we introduce an innovative FSCIL framework that utilizes language regularizer and subspace regularizer. During base training, the language regularizer helps incorporate semantic information extracted from a Vision-Language model. The subspace regularizer helps in facilitating the model's acquisition of nuanced connections between image and text semantics inherent to base classes during incremental training. Our proposed framework not only empowers the model to embrace novel classes with limited data, but also ensures the preservation of performance on base classes. To substantiate the efficacy of our approach, we conduct comprehensive experiments on three distinct FSCIL benchmarks, where our framework attains state-of-the-art performance.
翻訳日:2024-08-16 18:28:05 公開日:2024-08-15
# Themis: 強い故障検出機能を備えた自動かつ効率的なディープラーニングシステムテスト

Themis: Automatic and Efficient Deep Learning System Testing with Strong Fault Detection Capability ( http://arxiv.org/abs/2405.09314v3 )

ライセンス: Link先を確認
Dong Huang, Tsz On Li, Xiaofei Xie, Heming Cui, (参考訳) 深層学習システム(DLS)はオートパイロットのような安全クリティカルなタスクに広く応用されている。 しかし、摂動入力が推論のためにDLSに入力されると、DLSはしばしば誤った出力(すなわち障害)を持つ。 DLSテスト技術(例:DeepXplore)は、障害を引き起こすデータフローを探索するために摂動入力を生成することによって、そのような障害を検出する。 DLSは無限に多くのデータフローを持つことが多いため、既存の技術では、開発者は障害を引き起こすデータフローを探索するために、DLSのニューロンにアクティベーション値のセットを手動で指定する必要がある。 残念なことに、最近の研究では、このような手作業は面倒で、少数のフォールトインジェクションデータフローしか検出できないことが示されている。 本稿では,障害発生データフローのフルカバレッジを高い確率で確保することにより,強い障害検出能力を実現する,最初の自動DLSテストシステムであるThemisを提案する。 Themisは新しいワークフローを持ち、内部のニューロンの出力がわずかに乱れたときに大きく変化するデータフローを自動的に体系的に明らかにする。 Themisを10種類のDLSで評価したところ,テミスによって検出された断層の数は,4種類のDLS試験法より平均3.78倍多かった。 測定された全てのDLSを検出された断層で再訓練することで、テミスは全ての基準線よりも平均14.7倍高い精度でこれらのDLSの加速度を上昇させた(再確認)。

Deep Learning Systems (DLSs) have been widely applied in safety-critical tasks such as autopilot. However, when a perturbed input is fed into a DLS for inference, the DLS often has incorrect outputs (i.e., faults). DLS testing techniques (e.g., DeepXplore) detect such faults by generating perturbed inputs to explore data flows that induce faults. Since a DLS often has infinitely many data flows, existing techniques require developers to manually specify a set of activation values in a DLS's neurons for exploring fault-inducing data flows. Unfortunately, recent studies show that such manual effort is tedious and can detect only a tiny proportion of fault-inducing data flows. In this paper, we present Themis, the first automatic DLS testing system, which attains strong fault detection capability by ensuring a full coverage of fault-inducing data flows at a high probability. Themis carries a new workflow for automatically and systematically revealing data flows whose internal neurons' outputs vary substantially when the inputs are slightly perturbed, as these data flows are likely fault-inducing. We evaluated Themis on ten different DLSs and found that on average the number of faults detected by Themis was 3.78X more than four notable DLS testing techniques. By retraining all evaluated DLSs with the detected faults, Themis also increased (regained) these DLSs' accuracies on average 14.7X higher than all baselines.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 香港・奥羽-マンデルディップからの単一光子位相スペクトルの回復

Single-photon phase spectrum recovery from the Hong-Ou-Mandel dip ( http://arxiv.org/abs/2405.09808v2 )

ライセンス: Link先を確認
Yuhang Lei, Wen Zhao, Liang Cui, Xiaoying Li, (参考訳) 符号化のための時間モードを利用した量子情報プロトコルでは, 単一光子の時間スペクトルプロファイルのキャラクタリゼーションが不可欠である。 位相探索アルゴリズムを用いて,香港-奥羽-マンデルディップと強度スペクトルの位相スペクトル差を再構成する手法を提案する。 弱コヒーレントウェーブパケットによる確認実験では、再構成した位相スペクトルの差がプラスまたは0.1半径の範囲内での精度を示した。 この方法は、参照波パケットの助けを借りて未知の単一光子波パケットの測定に一般化可能であり、1次元データの収集のみを必要とする。

Characterizing the temporal-spectral profile of single photons is essential for quantum information protocol utilizing temporal mode for encoding. Based on the phase retrieval algorithm, we present a method to reconstruct the phase spectrum difference between two wave packets from their Hong-Ou-Mandel dip, and intensity spectra. Our confirmatory experiment with weak coherent wave packets demonstrated the accuracy of the reconstructed phase spectrum difference to within plus or minus 0.1 rad. This method is generalizable to the measurement of unknown single-photon wave packets with the aid of a reference wave packet, requiring only the collection of one-dimensional data, which simplifies and expedites the process.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 水中廃棄物検出のための深層学習技術:深部分析

Deep Learning Innovations for Underwater Waste Detection: An In-Depth Analysis ( http://arxiv.org/abs/2405.18299v2 )

ライセンス: Link先を確認
Jaskaran Singh Walia, Pavithra L K, (参考訳) 水没した水中ゴミの問題は、水生生態系の保護と海洋生物の保全に不可欠である。 水面に存在する破片の識別は簡単であるが, 光屈折, 吸収, 懸濁粒子, 色変化, 閉塞などの要因による画像歪みが原因で, 水中下水廃物の評価は困難である。 本稿では, 埋立廃棄物処理とごみ処理の基盤となるため, 最先端のアーキテクチャと既存のデータセットを網羅的に検討する。 第一の目的は、高度な水中センサーと自律型水中車両によって活用される物体の局所化手法のベンチマークを確立することである。 最終的な目的は、水中環境を探索し、水中の破片を特定し、除去することである。 多くの研究におけるベンチマーク(データセットやアルゴリズム)の欠如は、より堅牢なアルゴリズムソリューションの必要性を強調している。 本研究は, 水中ゴミ検出アルゴリズムの性能比較分析を行うことを目的とする。

Addressing the issue of submerged underwater trash is crucial for safeguarding aquatic ecosystems and preserving marine life. While identifying debris present on the surface of water bodies is straightforward, assessing the underwater submerged waste is a challenge due to the image distortions caused by factors such as light refraction, absorption, suspended particles, color shifts, and occlusion. This paper conducts a comprehensive review of state-of-the-art architectures and on the existing datasets to establish a baseline for submerged waste and trash detection. The primary goal remains to establish the benchmark of the object localization techniques to be leveraged by advanced underwater sensors and autonomous underwater vehicles. The ultimate objective is to explore the underwater environment, to identify, and remove underwater debris. The absence of benchmarks (dataset or algorithm) in many researches emphasizes the need for a more robust algorithmic solution. Through this research, we aim to give performance comparative analysis of various underwater trash detection algorithms.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 深部フォトニックニューラルネットワークの訓練のための非対称推定器

Asymmetrical estimator for training encapsulated deep photonic neural networks ( http://arxiv.org/abs/2405.18458v2 )

ライセンス: Link先を確認
Yizhi Wang, Minjia Chen, Chunhui Yao, Jie Ma, Ting Yan, Richard Penty, Qixiang Cheng, (参考訳) スケーラブルな同型物理ニューラルネットワーク(PNN)は、その高帯域幅インプロパゲーション計算のために、NNアクセラレーションパラダイムを生み出している。 バックプロパゲーション(BP)ベースのトレーニングは、その堅牢性と高速な勾配収束の業界標準であることが多いが、既存のBP-PNNトレーニング手法では、各層でのアナログ信号の伝播を切断し、ディープネットワークの正確な隠れニューロン読み取りを取得する必要がある。 これにより、高速なインプロパゲーション処理のためのPNNのインセンティブが損なわれる。 さらに、必要な読み出しはアナログ・デジタル・インタフェース間の変換によって情報を移動させるため、大きなボトルネックをもたらす。 これらの要因は、トレーニング中の時間とエネルギー効率の両方を制限する。 本稿では,非対称訓練(AT)法,BPに基づく深層ネットワーク上での訓練を行い,情報伝達をアナログ領域内で出力層まで維持する手法を紹介する。 ATの最小情報アクセスバイパスアナログ-デジタルインターフェースボトルネックは、可能であればどこでも発生します。 あらゆる深いネットワーク構造に対して、ATは既存のBP-PNN法に比べて時間とエネルギー効率が大幅に改善され、大規模なネットワークサイズに対して十分にスケールできる。 我々は, ほぼ理想的なBP性能を実現するために, 集積フォトニックディープネットワークをカプセル化するためのATの耐エラー性と校正不要なトレーニングを実演した。 ATの順調なトレーニングは、異なるデータセットとネットワーク構造間で繰り返し実施される

Scalable isomorphic physical neural networks (PNNs) are emerging NN acceleration paradigms for their high-bandwidth, in-propagation computation. Despite backpropagation (BP)-based training is often the industry standard for its robustness and fast gradient convergences, existing BP-PNN training methods need to truncate the propagation of analogue signal at each layer and acquire accurate hidden neuron readouts for deep networks. This compromises the incentive of PNN for fast in-propagation processing. In addition, the required readouts introduce massive bottlenecks due to the conversions between the analogue-digital interfaces to shuttle information across. These factors limit both the time and energy efficiency during training. Here we introduce the asymmetrical training (AT) method, a BP-based method that can perform training on an encapsulated deep network, where the information propagation is maintained within the analogue domain until the output layer. AT's minimum information access bypass analogue-digital interface bottleneck wherever possible. For any deep network structure, AT offers significantly improved time and energy efficiency compared to existing BP-PNN methods, and scales well for large network sizes. We demonstrated AT's error-tolerant and calibration-free training for encapsulated integrated photonic deep networks to achieve near ideal BP performances. AT's well-behaved training is demonstrated repeatably across different datasets and network structures
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 空間データ知能大モデルに関する研究

Research on the Spatial Data Intelligent Large Model ( http://arxiv.org/abs/2405.19730v3 )

ライセンス: Link先を確認
Shaohua Wang, Xing Xie, Yong Li, Danhuai Guo, Zhi Cai, Yu Liu, Yang Yue, Xiao Pan, Feng Lu, Huayi Wu, Zhipeng Gui, Zhiming Ding, Bolong Zheng, Fuzheng Zhang, Jingyuan Wang, Zhengchao Chen, Hao Lu, Jiayi Li, Peng Yue, Wenhao Yu, Yao Yao, Leilei Sun, Yong Zhang, Longbiao Chen, Xiaoping Du, Xiang Li, Xueying Zhang, Kun Qin, Zhaoya Gong, Weihua Dong, Xiaofeng Meng, (参考訳) 本報告では、これらのモデルの原理、手法、最先端の応用を探求する、空間データインテリジェントな大規模モデルに焦点を当てる。 これは、空間データインテリジェントな大規模モデルの定義、開発履歴、現状、トレンド、そしてそれらが直面する課題について、詳細な議論を提供する。 本報告では, 都市環境, 航空宇宙リモートセンシング, 地理, 交通, その他のシナリオにおける空間データ知能大規模モデルの重要技術とその応用を体系的に解明する。 さらに,都市開発,マルチモーダルシステム,リモートセンシング,スマートトランスポート,資源環境といったテーマにおける空間データインテリジェントな大規模モデルの適用事例をまとめた。 最後に、このレポートは、空間データインテリジェントな大規模モデルの開発展望の概要と展望をまとめて締めくくっている。

This report focuses on spatial data intelligent large models, delving into the principles, methods, and cutting-edge applications of these models. It provides an in-depth discussion on the definition, development history, current status, and trends of spatial data intelligent large models, as well as the challenges they face. The report systematically elucidates the key technologies of spatial data intelligent large models and their applications in urban environments, aerospace remote sensing, geography, transportation, and other scenarios. Additionally, it summarizes the latest application cases of spatial data intelligent large models in themes such as urban development, multimodal systems, remote sensing, smart transportation, and resource environments. Finally, the report concludes with an overview and outlook on the development prospects of spatial data intelligent large models.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 大規模言語モデルセンチネル:副次的浄化のためのLLMエージェント

Large Language Model Sentinel: LLM Agent for Adversarial Purification ( http://arxiv.org/abs/2405.20770v2 )

ライセンス: Link先を確認
Guang Lin, Qibin Zhao, (参考訳) 過去2年間で、大規模言語モデル(LLM)の使用は急速に進歩した。 これらのLSMは、かなりの利便性を提供するが、LSMは、よく設計されたテキストの摂動による敵の攻撃に弱いため、セキュリティ上の懸念も引き起こす。 本稿では,Large LAnguage Model Sentinel (LLAMOS) という新しい防御技術を紹介する。 本手法は2つの主成分から構成される。 イ 敵防衛のための新しいエージェントをシミュレートし、最小限の文字を変更して、攻撃に対して防御しながら、文の本来の意味を維持することができる代理人指示 ロ 目標LLMの効果的な防衛及び正確な出力を確保するため、清潔又は敵の事例を変更するための戦略を提供する防衛指針 注目すべきは、敵の例から学ばなくても、防御剤は堅牢な防御能力を示すことである。 さらに,防衛のためのエージェントと攻撃のためのエージェントを2つ開発し,相互に対立するエージェントを連携させる,興味深い対人実験を実施している。 敵対的相互作用の間、どちらのエージェントも互いに完全に打ち負かした。 オープンソース LLM およびクローズドソース LLM の広範な実験により,本手法は敵攻撃に対して効果的に防御し,敵の堅牢性を向上することを示した。

Over the past two years, the use of large language models (LLMs) has advanced rapidly. While these LLMs offer considerable convenience, they also raise security concerns, as LLMs are vulnerable to adversarial attacks by some well-designed textual perturbations. In this paper, we introduce a novel defense technique named Large LAnguage MOdel Sentinel (LLAMOS), which is designed to enhance the adversarial robustness of LLMs by purifying the adversarial textual examples before feeding them into the target LLM. Our method comprises two main components: a) Agent instruction, which can simulate a new agent for adversarial defense, altering minimal characters to maintain the original meaning of the sentence while defending against attacks; b) Defense guidance, which provides strategies for modifying clean or adversarial examples to ensure effective defense and accurate outputs from the target LLMs. Remarkably, the defense agent demonstrates robust defensive capabilities even without learning from adversarial examples. Additionally, we conduct an intriguing adversarial experiment where we develop two agents, one for defense and one for attack, and engage them in mutual confrontation. During the adversarial interactions, neither agent completely beat the other. Extensive experiments on both open-source and closed-source LLMs demonstrate that our method effectively defends against adversarial attacks, thereby enhancing adversarial robustness.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# 文脈的類似性を用いた判断行動検索

Judgement Citation Retrieval using Contextual Similarity ( http://arxiv.org/abs/2406.01609v2 )

ライセンス: Link先を確認
Akshat Mohan Dasula, Hrushitha Tigulla, Preethika Bhukya, (参考訳) 伝統的に、法律研究の分野では、複雑な事例記述からの関連する引用の検索は、法的用語を理解する専門知識を委任する手作業やキーワードベースの検索アプリケーションを必要としている。 法的ケース記述は、法律専門家や研究者にとって重要な情報を保持し、より効率的で自動化されたアプローチを必要とする。 本稿では,自然言語処理(NLP)と機械学習技術を組み合わせて,訴訟記述の組織化と活用を促進する手法を提案する。 このアプローチは、最先端の埋め込みモデルの助けを借りて、テキスト埋め込みの作成を中心に展開される。 提案手法は,非教師付きクラスタリングと教師付き引用検索の2つの主要な目的に対処する。 提案手法は任意のデータセットに使用することができるが,米国最高裁判所(SCOTUS)データセットを用い,顕著な結果を得た。 我々の手法は90.9%という驚くべき精度を達成した。 労働集約的なプロセスを自動化することによって、法律研究においてより効率的で時間節約し、アクセスしやすくする方法を開拓し、法律専門家、学者、研究者に恩恵を与えます。

Traditionally in the domain of legal research, the retrieval of pertinent citations from intricate case descriptions has demanded manual effort and keyword-based search applications that mandate expertise in understanding legal jargon. Legal case descriptions hold pivotal information for legal professionals and researchers, necessitating more efficient and automated approaches. We propose a methodology that combines natural language processing (NLP) and machine learning techniques to enhance the organization and utilization of legal case descriptions. This approach revolves around the creation of textual embeddings with the help of state-of-art embedding models. Our methodology addresses two primary objectives: unsupervised clustering and supervised citation retrieval, both designed to automate the citation extraction process. Although the proposed methodology can be used for any dataset, we employed the Supreme Court of The United States (SCOTUS) dataset, yielding remarkable results. Our methodology achieved an impressive accuracy rate of 90.9%. By automating labor-intensive processes, we pave the way for a more efficient, time-saving, and accessible landscape in legal research, benefiting legal professionals, academics, and researchers.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# MS-HuBERT:音声表現学習のためのマスケ言語モデルにおける事前学習と推論ミスマッチの軽減

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations ( http://arxiv.org/abs/2406.05661v2 )

ライセンス: Link先を確認
Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah, (参考訳) 近年, 自己指導型事前学習法は, 生音声から高次情報を学習する上で大きな牽引力となっている。 これらの手法の中で,HuBERTは自動音声認識(ASR)におけるSOTA性能を実証した。 しかし、HuBERTのパフォーマンスは、事前トレーニング戦略の相違により、Data2vecに遅れている。 本稿では,本稿で提案する。 i) HuBERT および HuBERT で観測された事前学習及び推論ミスマッチに対処するスワップ法 (II)モデルキャパシティをより効果的に活用するために、マルチクラスタマスクによる予測損失を組み込んだ。 結果として得られたMS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。 ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。 さらに,ASRなどのコンテンツベースタスクの性能向上のために,事前学習中に得られた学習した埋め込みが必須情報をエンコードしていることを示す。

In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, HuBERT has demonstrated SOTA performance in automatic speech recognition (ASR). However, HuBERT's performance lags behind data2vec due to disparities in pre-training strategies. In this paper, we propose (i) a Swap method to address pre-training and inference mismatch observed in HuBERT and (ii) incorporates Multicluster masked prediction loss for more effective utilization of the models capacity. The resulting method is, MS-HuBERT, an end-to-end self-supervised pre-training method for learning robust speech representations. It beats vanilla HuBERT on the ASR Librispeech benchmark on average by a 5% margin when evaluated on different finetuning splits. Additionally, we demonstrate that the learned embeddings obtained during pre-training encode essential information for improving performance of content based tasks such as ASR.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# テキスト生成のためのコントラスト学習による論理的比較関係のモデル化

Modeling Comparative Logical Relation with Contrastive Learning for Text Generation ( http://arxiv.org/abs/2406.09095v2 )

ライセンス: Link先を確認
Yuhao Dan, Junfeng Tian, Jie Zhou, Ming Yan, Ji Zhang, Qin Chen, Liang He, (参考訳) 古典的な自然言語生成問題であるData-to-Text Generation (D2T) は,テーブルなどの構造化された入力データに対して,流動的な記述を生成することを目的としている。 既存のD2Tは主に、エンティティ間の表面的な連想関係を記述することに焦点を当て、Aのような深い論理的関係を無視することは、私たちの日常生活において非常に一般的な、対応する意見を持つある面において、Bよりも優れている。 本稿では,比較論理関係生成(CLRG)と呼ばれる新しいD2Tタスクを提案する。 さらに,比較論理(CoLo)に基づくテキスト生成手法を提案する。 具体的には, 様々な正・負のサンプルを, 実体, 側面, 意見の微細な摂動によって構築する。 そこで,我々は,エンコーダ層において,比較論理関係をよりよく理解するためにコントラスト学習を行い,それをデコーダ層に統合してモデルを誘導し,関係を正しく生成する。 データ不足の問題に言及し、高品質な人間アノテーション付きデータセットである中国比較論理関係データセット(CLRD)を構築し、その比較論理関係について複数のエンティティやアノテーションを記述したテキスト生成に挑戦する。 大規模な実験により, 自動評価と人的評価の両方において, 優れた性能が得られた。

Data-to-Text Generation (D2T), a classic natural language generation problem, aims at producing fluent descriptions for structured input data, such as a table. Existing D2T works mainly focus on describing the superficial associative relations among entities, while ignoring the deep comparative logical relations, such as A is better than B in a certain aspect with a corresponding opinion, which is quite common in our daily life. In this paper, we introduce a new D2T task named comparative logical relation generation (CLRG). Additionally, we propose a Comparative Logic (CoLo) based text generation method, which generates texts following specific comparative logical relations with contrastive learning. Specifically, we first construct various positive and negative samples by fine-grained perturbations in entities, aspects and opinions. Then, we perform contrastive learning in the encoder layer to have a better understanding of the comparative logical relations, and integrate it in the decoder layer to guide the model to correctly generate the relations. Noting the data scarcity problem, we construct a Chinese Comparative Logical Relation Dataset (CLRD), which is a high-quality human-annotated dataset and challenging for text generation with descriptions of multiple entities and annotations on their comparative logical relations. Extensive experiments show that our method achieves impressive performance in both automatic and human evaluations.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# ダウンサンプリングKLダイバージェンスによる直接選好最適化のバイアス長依存性の除去

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence ( http://arxiv.org/abs/2406.10957v2 )

ライセンス: Link先を確認
Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He, Di Yin, Xing Sun, (参考訳) 直接選好最適化(DPO)は、大規模言語モデル(LLM)と人間の嗜好を直接的かつ堅牢にアライメントするための顕著なアルゴリズムとして登場し、複雑な強化学習(RLHF)の代替となる。 有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。 過去の研究は、主にデータ内のバイアス付きラベルによる冗長性に起因していたが、この問題はDPOに固有のアルゴリズム長依存にも起因していると提案する。 具体的には、DPOで使用される選択されたシーケンスと拒否されたシーケンス間のシーケンスレベルのKullback-Leibler(KL)の相違が、トークン長の変化による過大評価または過小評価の報奨をもたらすことを示唆する。 実験では,ラベルの長さの異なるデータセットを用いて,偏りのある報酬の存在を実証する。 次に、SamPOと呼ばれる効果的なダウンサンプリング手法を導入し、潜在的長さ依存を排除した。 評価実験では,DPOよりも5%から12%の改善が達成され,条件付きおよびオープンなベンチマークが多岐にわたって実施され,冗長性を緩和するSamPOの有効性が示された。 私たちのコードは、https://github.com/LuJunru/SamPO/.comでアクセスできます。

Direct Preference Optimization (DPO) has emerged as a prominent algorithm for the direct and robust alignment of Large Language Models (LLMs) with human preferences, offering a more straightforward alternative to the complex Reinforcement Learning from Human Feedback (RLHF). Despite its promising efficacy, DPO faces a notable drawback: "verbosity", a common over-optimization phenomenon also observed in RLHF. While previous studies mainly attributed verbosity to biased labels within the data, we propose that the issue also stems from an inherent algorithmic length reliance in DPO. Specifically, we suggest that the discrepancy between sequence-level Kullback-Leibler (KL) divergences between chosen and rejected sequences, used in DPO, results in overestimated or underestimated rewards due to varying token lengths. Empirically, we utilize datasets with different label lengths to demonstrate the presence of biased rewards. We then introduce an effective downsampling approach, named SamPO, to eliminate potential length reliance. Our experimental evaluations, conducted across three LLMs of varying scales and a diverse array of conditional and open-ended benchmarks, highlight the efficacy of SamPO in mitigating verbosity, achieving improvements of 5% to 12% over DPO through debaised rewards. Our codes can be accessed at: https://github.com/LuJunru/SamPO/.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット

EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles ( http://arxiv.org/abs/2406.12614v2 )

ライセンス: Link先を確認
João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton, (参考訳) この研究は、EUvsDisinfoという、親クレムリンのテーマに関連する信頼に値する、偽情報の多言語データセットを紹介している。 EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。 我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。 また、最大の話題や時間的報道も提供している。 本データセットを用いて,各言語にまたがるプロクレムリン情報の拡散について検討し,特定の偽情報トピックを対象とする言語固有のパターンを明らかにする。 さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。 最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。

This work introduces EUvsDisinfo, a multilingual dataset of trustworthy and disinformation articles related to pro-Kremlin themes. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting specific disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.
翻訳日:2024-08-16 18:17:13 公開日:2024-08-15
# オーディオ・ビジュアル・ディープフェイク検出のための一級学習を用いたマルチストリーム融合手法

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2406.14176v2 )

ライセンス: Link先を確認
Kyungbok Lee, You Zhang, Zhiyao Duan, (参考訳) 本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。 実用的なユースケースでは、新しい世代アルゴリズムが絶えず出現し、検出方法の開発中にこれらのアルゴリズムは遭遇しない。 これにより、メソッドの一般化能力が要求される。 さらに,検出手法の信頼性を確保するため,ビデオからの手がかりが偽であることを示すかをモデルで解釈することが有用である。 そこで我々は,表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。 本研究では、既存のFakeAVCelebデータセットを拡張して再分割することで、新しいベンチマークを作成することで、オーディオ・ビジュアル・ディープフェイク検出の一般化問題について検討する。 このベンチマークには、フェイクビデオの4つのカテゴリが含まれている(Real Audio-Fake Visual、Fake Audio-Fake Visual、Fake Audio-Real Visual、Unsynchronized Video)。 実験の結果,提案手法は従来のモデルよりも大きなマージンで優れていることが示された。 さらに,本提案フレームワークは解釈可能性を提供し,モデルがどのモダリティを偽である可能性が高いかを示す。 ソースコードはhttps://github.com/bok-bok/MSOCで公開されている。

This paper addresses the challenge of developing a robust audio-visual deepfake detection model. In practical use cases, new generation algorithms are continually emerging, and these algorithms are not encountered during the development of detection methods. This calls for the generalization ability of the method. Additionally, to ensure the credibility of detection methods, it is beneficial for the model to interpret which cues from the video indicate it is fake. Motivated by these considerations, we then propose a multi-stream fusion approach with one-class learning as a representation-level regularization technique. We study the generalization problem of audio-visual deepfake detection by creating a new benchmark by extending and re-splitting the existing FakeAVCeleb dataset. The benchmark contains four categories of fake videos (Real Audio-Fake Visual, Fake Audio-Fake Visual, Fake Audio-Real Visual, and Unsynchronized videos). The experimental results demonstrate that our approach surpasses the previous models by a large margin. Furthermore, our proposed framework offers interpretability, indicating which modality the model identifies as more likely to be fake. The source code is released at https://github.com/bok-bok/MSOC.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ

MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network ( http://arxiv.org/abs/2406.16633v4 )

ライセンス: Link先を確認
Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Junhao Su, Jiabin Liu, Changpeng Cai, (参考訳) ディープニューラルネットワーク(DNN)は通常、エンドツーエンド(E2E)のトレーニングパラダイムを採用しており、高いGPUメモリ消費、非効率性、トレーニング中のモデルの並列化の難しさなど、いくつかの課題を提示している。 最近の研究はこれらの問題に対処しようとしており、ある有望なアプローチは局所的な学習である。 この方法は、バックボーンネットワークを勾配分離モジュールに分割し、これらのローカルモジュールをトレーニングするための補助ネットワークを手動で設計することを含む。 既存の手法では、ローカルモジュール間の情報交換を無視することが多く、筋電図上の問題や、E2Eトレーニングと比較してパフォーマンスの差が生じる。 これらの制約に対処するため,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を提案する。 具体的には、MLAAN は Multilaminar Local Modules (MLM) と Leap Augmented Modules (LAM) から構成される。 MLMは、独立およびカスケードされた補助ネットワークを通じて、ローカルおよびグローバル両方の機能をキャプチャし、グローバル機能不足によるパフォーマンス上の問題を緩和する。 しかし、過度に単純化された補助ネットワークは、MLMがグローバル情報をキャプチャする能力を阻害する可能性がある。 そこで我々は,ローカルモジュール間の情報交換を容易にするために,指数移動平均 (EMA) 法を用いた拡張補助ネットワーク LAM をさらに設計する。 MLMとLAMの相乗効果は優れた性能を示した。 CIFAR-10, STL-10, SVHN, ImageNetデータセットを用いた実験により, MLAANは既存のローカル学習フレームワークにシームレスに統合され, 性能を大幅に向上し, エンド・ツー・エンド(E2E)トレーニング手法を超越し,GPUメモリ消費の削減も図っている。

Deep neural networks (DNNs) typically employ an end-to-end (E2E) training paradigm which presents several challenges, including high GPU memory consumption, inefficiency, and difficulties in model parallelization during training. Recent research has sought to address these issues, with one promising approach being local learning. This method involves partitioning the backbone network into gradient-isolated modules and manually designing auxiliary networks to train these local modules. Existing methods often neglect the interaction of information between local modules, leading to myopic issues and a performance gap compared to E2E training. To address these limitations, we propose the Multilaminar Leap Augmented Auxiliary Network (MLAAN). Specifically, MLAAN comprises Multilaminar Local Modules (MLM) and Leap Augmented Modules (LAM). MLM captures both local and global features through independent and cascaded auxiliary networks, alleviating performance issues caused by insufficient global features. However, overly simplistic auxiliary networks can impede MLM's ability to capture global information. To address this, we further design LAM, an enhanced auxiliary network that uses the Exponential Moving Average (EMA) method to facilitate information exchange between local modules, thereby mitigating the shortsightedness resulting from inadequate interaction. The synergy between MLM and LAM has demonstrated excellent performance. Our experiments on the CIFAR-10, STL-10, SVHN, and ImageNet datasets show that MLAAN can be seamlessly integrated into existing local learning frameworks, significantly enhancing their performance and even surpassing end-to-end (E2E) training methods, while also reducing GPU memory consumption.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 相乗的表現と点雲の3次元生成のためのマスク付き生成エクストラクタ

Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds ( http://arxiv.org/abs/2406.17342v2 )

ライセンス: Link先を確認
Hongliang Zeng, Ping Zhang, Fang Li, Jiahua Wang, Tingyu Ye, Pengteng Guo, (参考訳) 表現と生成学習は、再構築に基づく手法として、様々な領域にまたがる相互強化の可能性を示している。 ポイントクラウド処理の分野では、既存の研究では、表現能力を高めるために生成モデルからのトレーニング戦略を採用しているが、3次元形状を真に生成できないため、これらの手法は制限されている。 本稿では,3次元表現学習と生成学習を深く統合することのメリットを探るため,「textit{Point-MGE}」と呼ばれる革新的なフレームワークを提案する。 具体的には,まずベクトル量子化変分オートエンコーダを用いて3次元形状の神経場表現を再構成し,点パッチの個々の意味的特徴を学習する。 その後、表現学習から生成学習への移行を円滑にするためのスライディングマスキング比を設計する。 さらに,本手法は,複数のダウンストリームタスクにまたがる新しい最先端性能を実現するために,高容量モデル学習における強力な一般化能力を示す。 形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。 また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。

Representation and generative learning, as reconstruction-based methods, have demonstrated their potential for mutual reinforcement across various domains. In the field of point cloud processing, although existing studies have adopted training strategies from generative models to enhance representational capabilities, these methods are limited by their inability to genuinely generate 3D shapes. To explore the benefits of deeply integrating 3D representation learning and generative learning, we propose an innovative framework called \textit{Point-MGE}. Specifically, this framework first utilizes a vector quantized variational autoencoder to reconstruct a neural field representation of 3D shapes, thereby learning discrete semantic features of point patches. Subsequently, we design a sliding masking ratios to smooth the transition from representation learning to generative learning. Moreover, our method demonstrates strong generalization capability in learning high-capacity models, achieving new state-of-the-art performance across multiple downstream tasks. In shape classification, Point-MGE achieved an accuracy of 94.2% (+1.0%) on the ModelNet40 dataset and 92.9% (+5.5%) on the ScanObjectNN dataset. Experimental results also confirmed that Point-MGE can generate high-quality 3D shapes in both unconditional and conditional settings.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 科学のエクソテックスを目指して

Towards a Science Exocortex ( http://arxiv.org/abs/2406.17809v2 )

ライセンス: Link先を確認
Kevin G. Yager, (参考訳) 人工知能(AI)メソッドは、テキスト分析、テキスト生成、簡単な意思決定や推論の自動化を可能にする生成AIによって、知的作業に革命をもたらす。 科学への影響は始まったばかりであるが、科学的研究は認知作業の連鎖の延長に基本的に依存しているため、この機会は重要である。 ここではエージェントAIシステムの現状を概観し、これらの手法が科学にさらに大きな影響を及ぼすようどのように拡張できるかについて議論する。 本研究では,人の認知を総合的に拡張したエキソクロテックスの開発を提案する。 科学の外食はAIエージェントの群れとして設計することができ、各エージェントは個々の研究者のタスクを個別に合理化し、そのコミュニケーションは研究者の認知と意志を著しく拡張する創発的な行動をもたらす。

Artificial intelligence (AI) methods are poised to revolutionize intellectual work, with generative AI enabling automation of text analysis, text generation, and simple decision making or reasoning. The impact to science is only just beginning, but the opportunity is significant since scientific research relies fundamentally on extended chains of cognitive work. Here, we review the state of the art in agentic AI systems, and discuss how these methods could be extended to have even greater impact on science. We propose the development of an exocortex, a synthetic extension of a person's cognition. A science exocortex could be designed as a swarm of AI agents, with each agent individually streamlining specific researcher tasks, and whose inter-communication leads to emergent behavior that greatly extend the researcher's cognition and volition.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 自動およびモデルに依存しないルール抽出による地域説明可能性の実現

Enabling Regional Explainability by Automatic and Model-agnostic Rule Extraction ( http://arxiv.org/abs/2406.17885v3 )

ライセンス: Link先を確認
Yu Chen, Tianyu Cui, Alexander Capstick, Nan Fletcher-Loyd, Payam Barnaghi, (参考訳) 説明可能なAIでは、ルール抽出はモデル知識をIF-THEN文のような論理ルールに変換する。 これは、疾患の診断、疾患の進行予測、薬物発見などの分野に大きく貢献する可能性がある。 しかしながら、そのようなアプリケーションドメインは、しばしば不均衡なデータを含み、関心のクラスが不足している。 既存のメソッドは、パフォーマンスを最大化するために、必然的にマイナークラスのルールのパフォーマンスを損なう。 この分野での最初の試みとして、数値特徴量の自動ルール生成を特徴とする、特定のサブグループからルールを抽出するモデルに依存しない手法を提案する。 本手法は,機械学習モデルの局所的説明可能性を高め,既存手法と比較して広い適用性を提供する。 また,高次元空間における計算コストを削減し,規則を構成する特徴を選択する新しい手法を提案する。 各種データセットおよびモデルを用いた実験により,本手法の有効性が示された。

In Explainable AI, rule extraction translates model knowledge into logical rules, such as IF-THEN statements, crucial for understanding patterns learned by black-box models. This could significantly aid in fields like disease diagnosis, disease progression estimation, or drug discovery. However, such application domains often contain imbalanced data, with the class of interest underrepresented. Existing methods inevitably compromise the performance of rules for the minor class to maximise the overall performance. As the first attempt in this field, we propose a model-agnostic approach for extracting rules from specific subgroups of data, featuring automatic rule generation for numerical features. This method enhances the regional explainability of machine learning models and offers wider applicability compared to existing methods. We additionally introduce a new method for selecting features to compose rules, reducing computational costs in high-dimensional spaces. Experiments across various datasets and models demonstrate the effectiveness of our methods.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# VCDテクスチャ:テキストガイドテクスチャのための可変アライメントに基づく3D-2Dコノイング

VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing ( http://arxiv.org/abs/2407.04461v2 )

ライセンス: Link先を確認
Shang Liu, Chaohui Yu, Chenjie Cao, Wen Qian, Fan Wang, (参考訳) 3次元形状のテクスチャ合成に関する最近の研究は、インペイントベースや最適化ベースのアプローチを含む、劇的に発達した2次元テキスト・画像拡散モデルから多くの恩恵を受けている。 しかし、これらの手法は、主に3次元オブジェクトを2次元画像に描画し、各画像のテクスチャを分離する2次元拡散モデルと3次元オブジェクトとのモードギャップを無視する。 本稿では,テクスチャ合成を再考し,これらの問題に対処するため,VCD-Textureと呼ばれる3D-2Dコラボレーティブ・デノケーション・フレームワークを提案する。 まず,拡散自己注意モジュールにおける2次元と3次元の潜在特徴学習を3次元の注意受容場に再投影して統合する。 その後、マルチビュー2D潜在特徴を3次元空間に集約し、さらに一貫した2D予測を定式化するためにラスタ化する。 しかし, ラスタ化過程は, 高忠実なテクスチャ合成を実現するため, 理論上は分散アライメントによって対処される, 難解な分散バイアスに悩まされる。 さらに,対立する地域との密接な関係をさらに改善するため,環境改善を図った。 特に、テクスチャ合成を評価するためのベンチマークは公開されていないため、開発を妨げている。 そこで我々は,3つのオープンソース3Dデータセット上に構築された新しい評価セットを構築し,テクスチャ性能を徹底的に検証する4つの指標を提案する。 総合的な実験により、VCD-Textureは他のものよりも優れた性能を発揮することが示された。

Recent research on texture synthesis for 3D shapes benefits a lot from dramatically developed 2D text-to-image diffusion models, including inpainting-based and optimization-based approaches. However, these methods ignore the modal gap between the 2D diffusion model and 3D objects, which primarily render 3D objects into 2D images and texture each image separately. In this paper, we revisit the texture synthesis and propose a Variance alignment based 3D-2D Collaborative Denoising framework, dubbed VCD-Texture, to address these issues. Formally, we first unify both 2D and 3D latent feature learning in diffusion self-attention modules with re-projected 3D attention receptive fields. Subsequently, the denoised multi-view 2D latent features are aggregated into 3D space and then rasterized back to formulate more consistent 2D predictions. However, the rasterization process suffers from an intractable variance bias, which is theoretically addressed by the proposed variance alignment, achieving high-fidelity texture synthesis. Moreover, we present an inpainting refinement to further improve the details with conflicting regions. Notably, there is not a publicly available benchmark to evaluate texture synthesis, which hinders its development. Thus we construct a new evaluation set built upon three open-source 3D datasets and propose to use four metrics to thoroughly validate the texturing performance. Comprehensive experiments demonstrate that VCD-Texture achieves superior performance against other counterparts.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 原子状磁性体における臨界音の量子ノイズ分光

Quantum Noise Spectroscopy of Criticality in an Atomically Thin Magnet ( http://arxiv.org/abs/2407.05614v2 )

ライセンス: Link先を確認
Mark E. Ziffer, Francisco Machado, Benedikt Ursprung, Artur Lozovoi, Aya Batoul Tazi, Zhiyang Yuan, Michael E. Ziebel, Tom Delord, Nanyu Zeng, Evan Telford, Daniel G. Chica, Dane W. deQuilettes, Xiaoyang Zhu, James C. Hone, Kenneth L. Shepard, Xavier Roy, Nathalie P. de Leon, Emily J. Davis, Shubhayu Chatterjee, Carlos A. Meriles, Jonathan S. Owen, P. James Schuck, Abhay N. Pasupathy, (参考訳) 磁性材料の動的臨界変動は、関連する臨界指数における磁気秩序に関する重要な情報を符号化する。 ダイヤモンド中の窒素空孔中心を用いて、2Dファンデルワールス磁石CrSBrの臨界ダイナミクスを研究するために、T_2$(スピンデコヒーレンス)ノイズマグネトメトリーを実装した。 特性相関時間$\tau_c$の臨界変動に近づく時間スケールにおけるNVデコヒーレンスを解析することにより、相関長に対して臨界指数$\nu$を抽出する。 本結果はIsing予測から逸脱し,2次元CrSBrにおける長距離双極子相互作用の役割を強調した。 さらに, 相関長のばらつきを解析した結果, 静的磁区が存在しない温度窓近傍のCrSBrにおける2D-XY臨界性の可能性が示唆された。 我々の研究は、2次元材料における臨界スケーリング挙動を定量的に解析するために、最初のT_2$ノイズマグネトメトリーのデモンストレーションを提供する。

Dynamic critical fluctuations in magnetic materials encode important information about magnetic ordering in the associated critical exponents. Using nitrogen-vacancy centers in diamond, we implement $T_2$ (spin-decoherence) noise magnetometry to study critical dynamics in a 2D Van der Waals magnet CrSBr. By analyzing NV decoherence on time scales approaching the characteristic correlation time $\tau_c$ of critical fluctuations, we extract the critical exponent $\nu$ for the correlation length. Our result deviates from the Ising prediction and highlights the role of long-range dipolar interactions in 2D CrSBr. Furthermore, analyzing the divergence of the correlation length suggests the possibility of 2D-XY criticality in CrSBr in a temperature window near $T_C$ where static magnetic domains are absent. Our work provides a first demonstration of $T_2$ noise magnetometry to quantitatively analyze critical scaling behavior in 2D materials.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 人間行動認識におけるRNN, CNN, トランスフォーマー : 調査とハイブリッドモデル

RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model ( http://arxiv.org/abs/2407.06162v2 )

ライセンス: Link先を確認
Khaled Alomar, Halil Ibrahim Aysel, Xiaohao Cai, (参考訳) HAR(Human Action Recognition)は、医療、教育、エンターテイメント、視覚的監視、ビデオ検索、異常な活動の特定など、さまざまな領域にわたる人間の活動を監視するタスクを含む。 過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用して、複雑な情報を効果的に抽出し、理解し、HARシステム全体のパフォーマンスを向上させることで、かなりの進歩をみせてきた。 近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。 トランスフォーマーアーキテクチャの有効性は、画像解析の限界を超えて検証され、その適用性は多様なビデオ関連タスクに拡張されている。 特に、この状況の中で、研究コミュニティはHARへの強い関心を示し、多様体ユーティリティーを認め、様々な領域で広く採用されている。 本稿では、HARの領域における重要性を考慮し、CNNとリカレントニューラルネットワーク(RNN)のViTへの進化に焦点を当てた包括的調査を提案する。 本研究は,既存の文献を徹底的に調査し,新たな研究動向を探求することによって,この分野で蓄積した知識の批判的分析と合成を行う。 さらに、ハイブリッドアプローチの開発に向けた継続的な取り組みについても検討している。 本稿では,CNN と ViT の本質的強みを統合するための,新しいハイブリッドモデルを提案する。

Human Action Recognition (HAR) encompasses the task of monitoring human activities across various domains, including but not limited to medical, educational, entertainment, visual surveillance, video retrieval, and the identification of anomalous activities. Over the past decade, the field of HAR has witnessed substantial progress by leveraging Convolutional Neural Networks (CNNs) to effectively extract and comprehend intricate information, thereby enhancing the overall performance of HAR systems. Recently, the domain of computer vision has witnessed the emergence of Vision Transformers (ViTs) as a potent solution. The efficacy of transformer architecture has been validated beyond the confines of image analysis, extending their applicability to diverse video-related tasks. Notably, within this landscape, the research community has shown keen interest in HAR, acknowledging its manifold utility and widespread adoption across various domains. This article aims to present an encompassing survey that focuses on CNNs and the evolution of Recurrent Neural Networks (RNNs) to ViTs given their importance in the domain of HAR. By conducting a thorough examination of existing literature and exploring emerging trends, this study undertakes a critical analysis and synthesis of the accumulated knowledge in this field. Additionally, it investigates the ongoing efforts to develop hybrid approaches. Following this direction, this article presents a novel hybrid model that seeks to integrate the inherent strengths of CNNs and ViTs.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 2つの弱結合ボース・アインシュタイン凝縮体のジョセフソン振動

Josephson oscillations of two weakly coupled Bose-Einstein condensates ( http://arxiv.org/abs/2407.06208v2 )

ライセンス: Link先を確認
Dr. Alexej Schelle, (参考訳) 2つの温度でコヒーレントに結合した2つの独立なボース=アインシュタイン凝縮体に対して、粒子数保存量子場理論に基づく数値実験を行う。 このモデルでは、2つの凝縮体の初期相がボルツマン平衡ではランダムに残らないが、前方および後方の伝播物質波の干渉と熱化から整数倍の2$pi$の値で分散していることを示す。 原子蒸気内の熱化は、2つの凝縮体の温度を定義し、0(相対)位相の平均波場に量子状態を投影する本質的な測定過程として理解することができる。 このアプローチに従うと、アンダーソンの元々の思考実験に焦点が当てられ、初期位相分布に応じて、最初に分離された2つのボース=アインシュタイン凝縮体の間のジョセフソン電流が決定論的に発生するかどうかに焦点が当てられる。

A numerical experiment based on a particle number-conserving quantum field theory is performed for two initially independent Bose-Einstein condensates that are coherently coupled at two temperatures. The present model illustrates ab initio that the initial phase of each of the two condensates doesn't remain random at the Boltzmann equilibrium, but is distributed around integer multiple values of $2\pi$ from the interference and thermalization of forward and backward propagating matter waves. The thermalization inside the atomic vapors can be understood as an intrinsic measurement process that defines a temperature for the two condensates and projects the quantum states to an average wave field with zero (relative) phases. Following this approach, focus is put on the original thought experiment of Anderson on whether a Josephson current between two initially separated Bose-Einstein condensates occurs in a deterministic way or not, depending on the initial phase distribution.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 大規模言語モデルによる文書改善に関するフォローアップ質問

Follow-Up Questions Improve Documents Generated by Large Language Models ( http://arxiv.org/abs/2407.12017v2 )

ライセンス: Link先を確認
Bernadette J Tix, (参考訳) 本研究では,短い(1ページ)テキスト文書に対するユーザからの要求に応じて,Large Language Models (LLMs) がフォローアップ質問を生成することの影響について検討した。 ユーザは、フォローアップ質問をするための新しいWebベースのAIシステムと対話した。 ユーザは、AIが生成したいドキュメントをリクエストした。 その後、AIはユーザのニーズを明確にするためにフォローアップ質問を生成し、要求されたドキュメントを生成する前に追加の洞察を提供する。 質問に回答した後、ユーザーは、初期要求と質問と回答の両方を用いて生成された文書と、初期要求のみを用いて生成された文書を提示した。 ユーザは好みのドキュメントを示し、質問回答プロセスでの経験についてフィードバックした。 本研究は,文書の嗜好と質的ユーザエクスペリエンスの両方において,問合せのメリットを示すものである。 本研究は, 単純な情報収集質問ではなく, ユーザの要求に対して, 思考誘発, オープンエンド, あるいはユニークな洞察を提供する質問に, より多くの価値を見出したことを示唆する。

This study investigates the impact of Large Language Models (LLMs) generating follow-up questions in response to user requests for short (1-page) text documents. Users interacted with a novel web-based AI system designed to ask follow-up questions. Users requested documents they would like the AI to produce. The AI then generated follow-up questions to clarify the user's needs or offer additional insights before generating the requested documents. After answering the questions, users were shown a document generated using both the initial request and the questions and answers, and a document generated using only the initial request. Users indicated which document they preferred and gave feedback about their experience with the question-answering process. The findings of this study show clear benefits to question-asking both in document preference and in the qualitative user experience. This study further shows that users found more value in questions which were thought-provoking, open-ended, or offered unique insights into the user's request as opposed to simple information-gathering questions.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# 合成信号誘導特徴学習による完全実時間rPPG推定

Fully Test-Time rPPG Estimation via Synthetic Signal-Guided Feature Learning ( http://arxiv.org/abs/2407.13322v3 )

ライセンス: Link先を確認
Pei-Kai Huang, Tzu-Hsien Chen, Ya-Ting Chan, Kuan-Wen Chen, Chiou-Ting Hsu, (参考訳) 多くのリモート光胸腺撮影(rPPG)推定モデルは、トレーニング領域で有望なパフォーマンスを達成したが、しばしば標的領域における生理的信号や心拍数(HR)を正確に見積もることに失敗した。 ドメイン一般化(DG)またはドメイン適応(DA)技術は、オフライントレーニング段階で、すべての利用可能なソースドメインデータを利用することで、観測されていないドメインまたは観測されたターゲットドメインにモデルを適応させる。 しかし、rPPG推定問題では、適応モデルは通常、大きな領域変化でターゲットデータを推定する際の課題に直面する。 対照的に、Test-Time Adaptation (TTA) では、ソースデータを参照することなく、ラベルのないターゲットデータにオンライン適応することで、様々な未確認領域におけるrPPG信号を適応的に推定することができる。 本稿では,実世界のrPPG推定における課題をシミュレートするために,様々なドメイン情報や人事分布を含む新しいTTA-rPPGベンチマークを構築した。 次に、TTA段階における忘れの問題に対処し、事前学習したrPPGモデルの適応性を高めるために、新しい合成信号誘導rPPG推定フレームワークを提案する。 この目的のために,擬似rPPG信号を擬似基底真理として合成し,潜在rPPG特徴を生成するための条件生成を誘導する合成信号誘導特徴学習法を開発した。 さらに, rPPGモデルに新たなターゲット領域情報学習を促すために, 効果的なスペクトルベースのエントロピー最小化手法を設計する。 生成されたrPPGの特徴と合成されたrPPG信号の両方は、rPPGモデルがターゲットデータに過度に適合し、以前取得した知識を忘れることを防ぐと同時に、様々な心拍数(HR)分布を広範囲にカバーする。 TTA-rPPGベンチマークの広範な実験により,提案手法が優れた性能を実現することを示す。

Many remote photoplethysmography (rPPG) estimation models have achieved promising performance in the training domain but often fail to accurately estimate physiological signals or heart rates (HR) in the target domains. Domain generalization (DG) or domain adaptation (DA) techniques are therefore adopted during the offline training stage to adapt the model to either unobserved or observed target domains by utilizing all available source domain data. However, in rPPG estimation problems, the adapted model usually encounters challenges in estimating target data with significant domain variation. In contrast, Test-Time Adaptation (TTA) enables the model to adaptively estimate rPPG signals in various unseen domains by online adapting to unlabeled target data without referring to any source data. In this paper, we first establish a new TTA-rPPG benchmark that encompasses various domain information and HR distributions to simulate the challenges encountered in real-world rPPG estimation. Next, we propose a novel synthetic signal-guided rPPG estimation framework to address the forgetting issue during the TTA stage and to enhance the adaptation capability of the pre-trained rPPG model. To this end, we develop a synthetic signal-guided feature learning method by synthesizing pseudo rPPG signals as pseudo ground truths to guide a conditional generator in generating latent rPPG features. In addition, we design an effective spectral-based entropy minimization technique to encourage the rPPG model to learn new target domain information. Both the generated rPPG features and synthesized rPPG signals prevent the rPPG model from overfitting to target data and forgetting previously acquired knowledge, while also broadly covering various heart rate (HR) distributions. Our extensive experiments on the TTA-rPPG benchmark show that the proposed method achieves superior performance.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# DeepClair:効果的なポートフォリオ選択に市場予測を活用する

DeepClair: Utilizing Market Forecasts for Effective Portfolio Selection ( http://arxiv.org/abs/2407.13427v2 )

ライセンス: Link先を確認
Donghee Choi, Jinkyu Kim, Mogan Gim, Jinho Lee, Jaewoo Kang, (参考訳) 市場予測を活用することは、ポートフォリオ選択戦略の最適化において重要である。 ポートフォリオ選択のための新しいフレームワークであるDeepClairを紹介します。 DeepClairは、トランスフォーマーベースの時系列予測モデルを活用して、市場の動向を予測し、より情報があり、適応可能なポートフォリオ決定を促進する。 予測モデルを深層強化学習駆動型ポートフォリオ選択フレームワークに統合するために、まず、市場データ上で時系列モデルを事前学習し、続いてこのモデルを用いてポートフォリオ選択アーキテクチャを微調整する2段階の戦略を導入した。 さらに、投資シナリオの微調整のための事前学習予測モデルを強化するため、LoRA(Lo-Rank Adaptation)の最適化手法について検討した。 この作業は市場予測とポートフォリオ選択を橋渡しし、投資戦略の進展を促進する。

Utilizing market forecasts is pivotal in optimizing portfolio selection strategies. We introduce DeepClair, a novel framework for portfolio selection. DeepClair leverages a transformer-based time-series forecasting model to predict market trends, facilitating more informed and adaptable portfolio decisions. To integrate the forecasting model into a deep reinforcement learning-driven portfolio selection framework, we introduced a two-step strategy: first, pre-training the time-series model on market data, followed by fine-tuning the portfolio selection architecture using this model. Additionally, we investigated the optimization technique, Low-Rank Adaptation (LoRA), to enhance the pre-trained forecasting model for fine-tuning in investment scenarios. This work bridges market forecasting and portfolio selection, facilitating the advancement of investment strategies.
翻訳日:2024-08-16 18:07:06 公開日:2024-08-15
# SurvReLU:Deep ReLUネットワークによる生存分析

SurvReLU: Inherently Interpretable Survival Analysis via Deep ReLU Networks ( http://arxiv.org/abs/2407.14463v2 )

ライセンス: Link先を確認
Xiaotong Sun, Peijie Qiu, Shengfan Zhang, (参考訳) 生存分析は検閲を伴う時間-時間分布をモデル化する。 近年、ニューラルネットワークを用いた深層生存モデルは、その表現力と最先端の性能により支配的になっている。 しかし、それらの「ブラックボックス」の性質は、現実世界の応用において重要な解釈可能性を妨げる。 対照的に、"ホワイトボックス"木に基づく生存モデルは、より良い解釈可能性を提供するが、欲求拡大のためにグローバル最適に収束するのに苦労する。 本稿では,従来の木系サバイバルモデルと過去の木系サバイバルモデルとのギャップを,深部修正線形ユニット(ReLU)ネットワークを介して橋渡しする。 本研究では,木質構造体の解釈可能性と深層生存モデルの表現力とを,意図的に構築した深部ReLUネットワーク(SurvReLU)が有効であることを示す。 シミュレーションおよび実生存ベンチマークのデータセットに関する実証研究は、性能と相互運用性の観点から提案されたSurvReLUの有効性を示している。 コードは \href{https://github.com/xs018/SurvReLU}{\color{magenta}{ https://github.com/xs018/SurvReLU}} で公開されている。

Survival analysis models time-to-event distributions with censorship. Recently, deep survival models using neural networks have dominated due to their representational power and state-of-the-art performance. However, their "black-box" nature hinders interpretability, which is crucial in real-world applications. In contrast, "white-box" tree-based survival models offer better interpretability but struggle to converge to global optima due to greedy expansion. In this paper, we bridge the gap between previous deep survival models and traditional tree-based survival models through deep rectified linear unit (ReLU) networks. We show that a deliberately constructed deep ReLU network (SurvReLU) can harness the interpretability of tree-based structures with the representational power of deep survival models. Empirical studies on both simulated and real survival benchmark datasets show the effectiveness of the proposed SurvReLU in terms of performance and interoperability. The code is available at \href{https://github.com/xs018/SurvReLU}{\color{magenta}{ https://github.com/xs018/SurvReLU}}.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# Compensate Quantization Errors+: Quantized Models are Inquisitive Learners

Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners ( http://arxiv.org/abs/2407.15508v2 )

ライセンス: Link先を確認
Yifei Gao, Jie Ou, Lei Wang, Fanhua Shang, Jaji Wu, Jun Cheng, (参考訳) 大規模言語モデル(LLM)は、優れた性能と堅牢な推論能力を示すが、その拡張サイズは、相当なリソース消費のために、デプロイメントを複雑にし、環境上の懸念を増す。 近年、Learnerable Singular-value Increment (LSI) と呼ばれる量子化技術が開発され、これらの量子化の課題に対処している。 LSIと我々の広範な研究から得られた知見を活用して、量子化LDMの性能、特に低ビット環境における性能を向上させる革新的な手法を開発した。 我々の手法は、様々な量子化シナリオをまたいだ最先端の結果を一貫して提供し、量子化プロセスに関する深い理論的洞察を提供し、広範囲な応用のための量子化モデルのポテンシャルを解明する。

Large Language Models (LLMs) showcase remarkable performance and robust deductive capabilities, yet their expansive size complicates deployment and raises environmental concerns due to substantial resource consumption. The recent development of a quantization technique known as Learnable Singular-value Increment (LSI) has addressed some of these quantization challenges. Leveraging insights from LSI and our extensive research, we have developed innovative methods that enhance the performance of quantized LLMs, particularly in low-bit settings. Our methods consistently deliver state-of-the-art results across various quantization scenarios and offer deep theoretical insights into the quantization process, elucidating the potential of quantized models for widespread application.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 隣接3重マッチングによる教師なしロバスト言語間エンティティアライメントとエンティティと関係テキスト

Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts ( http://arxiv.org/abs/2407.15588v2 )

ライセンス: Link先を確認
Soojin Yoon, Sungho Ko, Tongyoung Kim, SeongKu Kang, Jinyoung Yeo, Dongha Lee, (参考訳) 言語間のエンティティアライメント(EA)は、さまざまな言語にまたがる複数の知識グラフ(KG)の統合を可能にする。 既存の手法は、主に教師付きであり、ラベル付きエンティティペアを得る際の課題に直面している。 この問題に対処するため、近年の研究は自己監督型および非教師型フレームワークへと移行している。 それらの効果にもかかわらず、これらのアプローチには限界がある:(1)関係パス:主に関係のセマンティックな情報を無視しながら実体にフォーカスする、(2)同型仮定:ソースグラフとターゲットグラフの間の同型性を仮定し、ノイズとアライメント精度を低下させる、(3)ノイズ脆弱性:テキストの特徴、特に一貫性のない翻訳や外接語彙(OOV)問題に遭遇する場合のノイズに感受性を持つ。 本稿では,ERAlignを提案する。ERAlignは,エンティティレベルとリレーショナルレベルのアライメントを,関係とエンティティのセマンティックテキスト特徴を用いた近隣の3重マッチング戦略によって共同で行う,教師なしかつ堅牢なクロスランガルなEAパイプラインである。 その洗練ステップは、隣り合う三重マッチングに基づいて、エンティティレベルとリレーレベルアライメントを融合することによって、結果を反復的に強化する。 追加の検証ステップでは、エンティティの隣の三重項を線形化テキストとして検証する。 このAlign-then-Verifyパイプラインは、エンティティのノイズの多いテキストの特徴がある場合でも、アライメント結果を厳格に評価し、ほぼ完璧なアライメントを実現する。 我々は,ERAlignの堅牢性と汎用性がEAタスクの精度と有効性を向上し,知識指向のアプリケーションに大きく貢献することを示した。

Cross-lingual entity alignment (EA) enables the integration of multiple knowledge graphs (KGs) across different languages, providing users with seamless access to diverse and comprehensive knowledge. Existing methods, mostly supervised, face challenges in obtaining labeled entity pairs. To address this, recent studies have shifted towards self-supervised and unsupervised frameworks. Despite their effectiveness, these approaches have limitations: (1) Relation passing: mainly focusing on the entity while neglecting the semantic information of relations, (2) Isomorphic assumption: assuming isomorphism between source and target graphs, which leads to noise and reduced alignment accuracy, and (3) Noise vulnerability: susceptible to noise in the textual features, especially when encountering inconsistent translations or Out-Of-Vocabulary (OOV) problems. In this paper, we propose ERAlign, an unsupervised and robust cross-lingual EA pipeline that jointly performs Entity-level and Relation-level Alignment by neighbor triple matching strategy using semantic textual features of relations and entities. Its refinement step iteratively enhances results by fusing entity-level and relation-level alignments based on neighbor triple matching. The additional verification step examines the entities' neighbor triples as the linearized text. This Align-then-Verify pipeline rigorously assesses alignment results, achieving near-perfect alignment even in the presence of noisy textual features of entities. Our extensive experiments demonstrate that the robustness and general applicability of ERAlign improved the accuracy and effectiveness of EA tasks, contributing significantly to knowledge-oriented applications.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 効率的な骨格に基づく行動認識のための多モード共学習

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v6 )

ライセンス: Link先を確認
Jinfu Liu, Chen Chen, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。 それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。 そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。 私たちのMMCLフレームワークは主に2つのモジュールで構成されています。 まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。 第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。 これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。 一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。 私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 時空トレードオフを用いた量子計測の高速化

Speeding up quantum measurement using space-time trade-off ( http://arxiv.org/abs/2407.17342v2 )

ライセンス: Link先を確認
C. Corlett, I. Čepaitė, A. J. Daley, C. Gustiani, G. Pelegrí, J. D. Pritchard, N. Linden, P. Skrzypczyk, (参考訳) 本稿では,量子計測の高速化手法を提案する。 このスキームは、アシラリーシステムで測定されるシステムを絡める以前のプロトコルの上に構築されている。 完全エンタングリング動作とデコヒーレンスのない理想的な状況では、正確な時空トレードオフを与え、読み出し速度はアンシラの数とともに直線的に増加する。 ゲートノイズとリードアウト誤差の数値モデリングにより,この手法が実験上の不完全性に対して堅牢であることを検証する。 このハードウェアに依存しないアプローチは、様々な量子技術プラットフォームに広く適用でき、効果的な量子誤り訂正に必要な中間回路測定を高速化する手段を提供する。

We present a scheme for speeding up quantum measurement. The scheme builds on previous protocols that entangle the system to be measured with ancillary systems. In the idealised situation of perfect entangling operations and no decoherence, it gives an exact space-time trade-off meaning the readout speed increases linearly with the number of ancilla. We verify this scheme is robust against experimental imperfections through numerical modelling of gate noise and readout errors, and under certain circumstances our scheme can even lead to better than linear improvement in the speed of measurement with the number of systems measured. This hardware-agnostic approach is broadly applicable to a range of quantum technology platforms and offers a route to accelerate mid-circuit measurement as required for effective quantum error correction.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# データと知識の組み合わせの力:GPT-4oは肺癌リンパ節転移の予測に機械学習モデルを効果的に解釈する

The Power of Combining Data and Knowledge: GPT-4o is an Effective Interpreter of Machine Learning Models in Predicting Lymph Node Metastasis of Lung Cancer ( http://arxiv.org/abs/2407.17900v5 )

ライセンス: Link先を確認
Danqing Hu, Bing Liu, Xiaofeng Zhu, Nan Wu, (参考訳) リンパ節転移 (LNM) は肺癌患者の早期治療を決定する重要な因子であるが, 正確な術前診断は困難である。 近年,大きな言語モデル (LLM) が注目されている。 巨大なコーパスから学んだ広範な医学知識を活用して、LLMは臨床上の問題に対する確率を推定できるが、その性能は歴史的にデータ駆動機械学習モデルよりも劣っている。 本稿では,LNM予測性能を向上させるために,LLMが取得した医療知識と機械学習モデルが同定した潜伏パターンを組み合わせた新しいアンサンブル手法を提案する。 当初,患者データを用いた機械学習モデルを開発した。 次に、患者データを機械学習モデルから予測される確率と統合するプロンプトテンプレートを設計した。 その後,OpenAIが開発した最も先進的なLCMであるGPT-4oに,患者データに基づいてLNMの確率を推定し,機械学習出力を用いて推定を調整するように指示した。 最後に,同じプロンプトを用いてGPT-4oから3つのアウトプットを収集し,これらの結果を最終予測としてアンサンブルした。 提案手法を用いて,LNM予測におけるAUC値0.778,AP値0.426を達成し,ベースライン機械学習モデルと比較して予測性能を著しく向上させた。 実験の結果, GPT-4oは, より正確なLNM予測を実現するために, 機械学習モデルによって予測される医療知識と確率を効果的に活用できることが示唆された。 これらの結果から,LSMは臨床リスク予測タスクにおいて良好に機能し,臨床リスク予測に医療知識と患者データを統合するための新たなパラダイムを提供することが明らかとなった。

Lymph node metastasis (LNM) is a crucial factor in determining the initial treatment for patients with lung cancer, yet accurate preoperative diagnosis of LNM remains challenging. Recently, large language models (LLMs) have garnered significant attention due to their remarkable text generation capabilities. Leveraging the extensive medical knowledge learned from vast corpora, LLMs can estimate probabilities for clinical problems, though their performance has historically been inferior to data-driven machine learning models. In this paper, we propose a novel ensemble method that combines the medical knowledge acquired by LLMs with the latent patterns identified by machine learning models to enhance LNM prediction performance. Initially, we developed machine learning models using patient data. We then designed a prompt template to integrate the patient data with the predicted probability from the machine learning model. Subsequently, we instructed GPT-4o, the most advanced LLM developed by OpenAI, to estimate the likelihood of LNM based on patient data and then adjust the estimate using the machine learning output. Finally, we collected three outputs from the GPT-4o using the same prompt and ensembled these results as the final prediction. Using the proposed method, our models achieved an AUC value of 0.778 and an AP value of 0.426 for LNM prediction, significantly improving predictive performance compared to baseline machine learning models. The experimental results indicate that GPT-4o can effectively leverage its medical knowledge and the probabilities predicted by machine learning models to achieve more accurate LNM predictions. These findings demonstrate that LLMs can perform well in clinical risk prediction tasks, offering a new paradigm for integrating medical knowledge and patient data in clinical predictions.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# ローマは単一ステップで建設されなかった:LCMベースのチップ設計のための階層的プロンプト

Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design ( http://arxiv.org/abs/2407.18276v2 )

ライセンス: Link先を確認
Andre Nakkab, Sai Qian Zhang, Ramesh Karri, Siddharth Garg, (参考訳) 大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。 しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。 本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト技術一式を導入し,そのプロセスのための一般化可能な自動化パイプラインを開発する。 これらの手法を評価するために,アーキテクチャ階層の有無に関わらず解決できるハードウェア設計のベンチマークセットを提案する。 これらのベンチマークを用いて、当社独自のCode Llama-Verilogモデルを含む、さまざまなオープンソースおよびプロプライエタリなLLMを比較します。 我々の階層的手法は、標準フラットプロンプト法では達成できない複雑なハードウェアモジュールの設計を自動生成し、より小さなオープンソース LLM が大規模なプロプライエタリなモデルと競合することを可能にする。 階層的プロンプトはHDL生成時間を短縮し、LLMコストの削減をもたらす。 実験では, LLMがどの用途に利用できるか, 階層的手法を様々なモードに適用する方法について詳述した。 人間のフィードバックを伴わない最初のLCM設計プロセッサを含む,自動スクリプティング階層プロンプトを用いた複雑なコア生成のケーススタディについて検討する。 Machine Editing (ROME) メソッドによるリカレント最適化のためのツールは https://github.com/ajn313/ROME-LLM にある。

Large Language Models (LLMs) are effective in computer hardware synthesis via hardware description language (HDL) generation. However, LLM-assisted approaches for HDL generation struggle when handling complex tasks. We introduce a suite of hierarchical prompting techniques which facilitate efficient stepwise design methods, and develop a generalizable automation pipeline for the process. To evaluate these techniques, we present a benchmark set of hardware designs which have solutions with or without architectural hierarchy. Using these benchmarks, we compare various open-source and proprietary LLMs, including our own fine-tuned Code Llama-Verilog model. Our hierarchical methods automatically produce successful designs for complex hardware modules that standard flat prompting methods cannot achieve, allowing smaller open-source LLMs to compete with large proprietary models. Hierarchical prompting reduces HDL generation time and yields savings on LLM costs. Our experiments detail which LLMs are capable of which applications, and how to apply hierarchical methods in various modes. We explore case studies of generating complex cores using automatic scripted hierarchical prompts, including the first-ever LLM-designed processor with no human feedback. Tools for the Recurrent Optimization via Machine Editing (ROME) method can be found at https://github.com/ajn313/ROME-LLM
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# クロスアテンションを用いたオーディオ・ビデオ変換器フュージョンを用いたマルチモーダル感情認識

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention ( http://arxiv.org/abs/2407.18552v2 )

ライセンス: Link先を確認
Joe Dhanith P R, Shravan Venkatraman, Modigari Narendra, Vigya Sharma, Santhosh Malarvannan, Amir H. Gandomi, (参考訳) 感情を理解することは人間のコミュニケーションの基本的な側面である。 音声とビデオ信号の統合は、音声や表情のような単一のデータソースに依存する従来の方法と比較して、感情状態のより包括的な理解を提供する。 その可能性にもかかわらず、マルチモーダル感情認識は特に同期、特徴抽出、多様なデータソースの融合において重大な課題に直面している。 これらの問題に対処するために,Audio-Video Transformer Fusion with Cross Attention (AVT-CA) という新しいトランスフォーマーモデルを提案する。 AVT-CAモデルは、音声とビデオの両方からリンクされた特徴を効果的にキャプチャし、同期化するために、トランスフォーマー融合方式を採用している。 さらに、AVT-CA内のクロスアテンション機構は、重要な特徴を選択的に抽出し、モダリティから無関係なものを捨て、特徴抽出と融合の課題に対処しながら強調する。 CMU-MOSEI, RAVDESS, CREMA-Dデータセットを用いた大規模実験により, 提案モデルの有効性が示された。 AVT-CAは,実践的応用のための正確で信頼性の高いマルチモーダル感情認識システムの開発において重要である。

Understanding emotions is a fundamental aspect of human communication. Integrating audio and video signals offers a more comprehensive understanding of emotional states compared to traditional methods that rely on a single data source, such as speech or facial expressions. Despite its potential, multimodal emotion recognition faces significant challenges, particularly in synchronization, feature extraction, and fusion of diverse data sources. To address these issues, this paper introduces a novel transformer-based model named Audio-Video Transformer Fusion with Cross Attention (AVT-CA). The AVT-CA model employs a transformer fusion approach to effectively capture and synchronize interlinked features from both audio and video inputs, thereby resolving synchronization problems. Additionally, the Cross Attention mechanism within AVT-CA selectively extracts and emphasizes critical features while discarding irrelevant ones from both modalities, addressing feature extraction and fusion challenges. Extensive experimental analysis conducted on the CMU-MOSEI, RAVDESS and CREMA-D datasets demonstrates the efficacy of the proposed model. The results underscore the importance of AVT-CA in developing precise and reliable multimodal emotion recognition systems for practical applications.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?

Do Text-to-Vis Benchmarks Test Real Use of Visualisations? ( http://arxiv.org/abs/2407.19726v3 )

ライセンス: Link先を確認
Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld, (参考訳) 大規模な言語モデルは、ユーザの要求に応じて、視覚化のためのコードを生成することができる。 これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的な応用である。 しかし、ベンチマークは比較的少ないため、実際に行われていることを表すものかどうかは不明である。 本稿では,公開リポジトリのベンチマークデータセットとコードを比較した実証的研究を通じて,その質問に答えることを目的とする。 この結果から,グラフの種類や属性,アクション数など,同じ分布をテストせずに評価した結果,データセットの実質的なギャップが明らかとなった。 唯一の代表的データセットは、エンドツーエンドで実用的なベンチマークになるために修正が必要である。 これは、ユーザの視覚的ニーズに真に対処するシステムの開発をサポートするために、新しい、より多くのベンチマークが必要であることを示している。 これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。

Large language models are able to generate code for visualisations in response to user requests. This is a useful application, and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and it is unknown whether those that exist are representative of what people do in practice. This paper aims to answer that question through an empirical study comparing benchmark datasets and code from public repositories. Our findings reveal a substantial gap in datasets, with evaluations not testing the same distribution of chart types, attributes, and the number of actions. The only representative dataset requires modification to become an end-to-end and practical benchmark. This shows that new, more benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 身体的マルチモーダルLDMの脅威:物理世界での脱獄ロボットマニピュレーション

The Threats of Embodied Multimodal LLMs: Jailbreaking Robotic Manipulation in the Physical World ( http://arxiv.org/abs/2407.20242v2 )

ライセンス: Link先を確認
Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Yichen Wang, Lulu Xue, Minghui Li, Shengshan Hu, Leo Yu Zhang, (参考訳) 人工知能(AI)は、センサーやアクチュエータを通じて物理的な世界と相互作用し、知覚と行動をシームレスに統合する人工知能システムである。 この設計により、AIは複雑な現実世界の環境から学び、操作することができる。 大規模言語モデル(LLM)は言語命令を深く探求し、複雑なタスクの計画策定において重要な役割を担います。 その結果、LLMベースのインボディードAIがコミュニティ内の研究の焦点として現れ、エンボディードAIを増強する大きな可能性を徐々に示してきた。 今後10年間で、LLMベースのエンボディAIロボットが広く普及し、家庭や産業で一般的なものになるだろうと予測されている。 LLMベースのインボディードAIは有害な振る舞いを迫害するだろうか? アシモフの『3つのロボット法則』に逆らって人間の安全を脅かすこのロボットがもたらす深刻なリスクを、我々の研究は初めて確認した。 具体的には、AIのジェイルブレイクを具体化して、3つの重大なセキュリティ上の脆弱性を露呈する。 我々はまた、潜在的な緩和策を分析し、実世界における具体化されたAIアプリケーションの安全性に関するコミュニティの認識を提唱する。

Embodied artificial intelligence (AI) represents an artificial intelligence system that interacts with the physical world through sensors and actuators, seamlessly integrating perception and action. This design enables AI to learn from and operate within complex, real-world environments. Large Language Models (LLMs) deeply explore language instructions, playing a crucial role in devising plans for complex tasks. Consequently, they have progressively shown immense potential in empowering embodied AI, with LLM-based embodied AI emerging as a focal point of research within the community. It is foreseeable that, over the next decade, LLM-based embodied AI robots are expected to proliferate widely, becoming commonplace in homes and industries. However, a critical safety issue that has long been hiding in plain sight is: could LLM-based embodied AI perpetrate harmful behaviors? Our research investigates for the first time how to induce threatening actions in embodied AI, confirming the severe risks posed by these soon-to-be-marketed robots, which starkly contravene Asimov's Three Laws of Robotics and threaten human safety. Specifically, we formulate the concept of embodied AI jailbreaking and expose three critical security vulnerabilities: first, jailbreaking robotics through compromised LLM; second, safety misalignment between action and language spaces; and third, deceptive prompts leading to unaware hazardous behaviors. We also analyze potential mitigation measures and advocate for community awareness regarding the safety of embodied AI applications in the physical world.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 安定マッチングの分散学習と非協調学習--ゲーム理論によるアプローチ

Decentralized and Uncoordinated Learning of Stable Matchings: A Game-Theoretic Approach ( http://arxiv.org/abs/2407.21294v2 )

ライセンス: Link先を確認
S. Rasoul Etesami, R. Srikant, (参考訳) 分散化」とは中央プラットフォームの影響を受けずに個別に決定を下すことを意味し、「非協調」とはプレイヤーが事前に規定されたルールを用いて決定を同期する必要がないことを意味する。 まず、この問題のゲーム定式化を行い、純ナッシュ平衡(NE)の集合と安定なマッチングの集合が一致し、混合NEを安定なマッチングに丸めることができる。 そして,階層型市場において,指数重み付け学習アルゴリズムを安定マッチングゲームに適用することにより,完全分散的かつ非協調的な対数的後悔を実現することを示す。 さらに,EXPは一般市場での安定なマッチングに局所的に,指数的に高速に収束することを示す。 また、任意に高い確率で安定なマッチングにグローバルに収束する、分散的で非協調的な学習アルゴリズムも導入する。 最後に、より強力なフィードバック条件を提供することにより、市場を近似した安定したマッチングに向けてより高速に駆動することが可能となる。 提案したゲーム理論フレームワークは,安定マッチングを学習する離散的な問題を,連続アクションゲームにおけるNE学習の問題に橋渡しする。

We consider the problem of learning stable matchings with unknown preferences in a decentralized and uncoordinated manner, where "decentralized" means that players make decisions individually without the influence of a central platform, and "uncoordinated" means that players do not need to synchronize their decisions using pre-specified rules. First, we provide a game formulation for this problem with known preferences, where the set of pure Nash equilibria (NE) coincides with the set of stable matchings, and mixed NE can be rounded to a stable matching. Then, we show that for hierarchical markets, applying the exponential weight (EXP) learning algorithm to the stable matching game achieves logarithmic regret in a fully decentralized and uncoordinated fashion. Moreover, we show that EXP converges locally and exponentially fast to a stable matching in general markets. We also introduce another decentralized and uncoordinated learning algorithm that globally converges to a stable matching with arbitrarily high probability. Finally, we provide stronger feedback conditions under which it is possible to drive the market faster toward an approximate stable matching. Our proposed game-theoretic framework bridges the discrete problem of learning stable matchings with the problem of learning NE in continuous-action games.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# Llama 3のモデル群

The Llama 3 Herd of Models ( http://arxiv.org/abs/2407.21783v2 )

ライセンス: Link先を確認
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Ibrahim Damlaj, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vítor Albiero, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao, (参考訳) 現代の人工知能(AI)システムは基礎モデルによって駆動される。 本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 多言語性、コーディング、推論、ツールの使用をネイティブにサポートする言語モデルの群れである。 私たちの最大のモデルは、405Bパラメータと最大128Kトークンのコンテキストウィンドウを持つ高密度トランスフォーマーです。 本報告ではLlama 3の広範な評価について述べる。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。 Llama 3には405Bパラメータ言語モデルとLlama Guard 3モデルの事前訓練後バージョンが含まれています。 また,Llama 3に画像,映像,音声の機能を組み込む実験を行った。 我々は,この手法が画像,ビデオ,音声認識タスクの最先端技術と競合する様子を観察する。 結果として得られたモデルは、まだ開発中であるため、まだ広くリリースされていない。

Modern artificial intelligence (AI) systems are powered by foundation models. This paper presents a new set of foundation models, called Llama 3. It is a herd of language models that natively support multilinguality, coding, reasoning, and tool usage. Our largest model is a dense Transformer with 405B parameters and a context window of up to 128K tokens. This paper presents an extensive empirical evaluation of Llama 3. We find that Llama 3 delivers comparable quality to leading language models such as GPT-4 on a plethora of tasks. We publicly release Llama 3, including pre-trained and post-trained versions of the 405B parameter language model and our Llama Guard 3 model for input and output safety. The paper also presents the results of experiments in which we integrate image, video, and speech capabilities into Llama 3 via a compositional approach. We observe this approach performs competitively with the state-of-the-art on image, video, and speech recognition tasks. The resulting models are not yet being broadly released as they are still under development.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# 非負なVAE:一般化ガンマ信念ネットワーク

A Non-negative VAE:the Generalized Gamma Belief Network ( http://arxiv.org/abs/2408.03388v2 )

ライセンス: Link先を確認
Zhibin Duan, Tiansheng Wen, Muyao Wang, Bo Chen, Mingyuan Zhou, (参考訳) ガンマ信念ネットワーク(GBN)は、しばしばディープトピックモデルと見なされるが、テキストデータ中の多層解釈可能な潜在表現を明らかにする可能性を示している。 解釈可能な潜在因子を得るための顕著な能力は、部分的にはスパース変数と非負のガンマ分布潜在変数によるものである。 しかし、既存のGBNとそのバリエーションは線形生成モデルによって制約されるため、表現性や適用性は制限される。 この制限に対処するため、本論文では、元の線形生成モデルをより表現力のある非線形生成モデルに拡張する一般化ガンマ信念ネットワーク(Generalized GBN)を導入する。 一般化GBNのパラメータはもはや解析条件後部を持たないため、潜伏変数の後方分布を近似する上向きのワイブル推論ネットワークも提案する。 生成モデルと推論ネットワークの両方のパラメータは、変動推論フレームワーク内で共同で訓練される。 最後に,表現性および非絡合表現学習タスクの総合的な実験を行い,ベースラインとして機能するガウス変分オートエンコーダに対する一般化GBNの性能を評価する。

The gamma belief network (GBN), often regarded as a deep topic model, has demonstrated its potential for uncovering multi-layer interpretable latent representations in text data. Its notable capability to acquire interpretable latent factors is partially attributed to sparse and non-negative gamma-distributed latent variables. However, the existing GBN and its variations are constrained by the linear generative model, thereby limiting their expressiveness and applicability. To address this limitation, we introduce the generalized gamma belief network (Generalized GBN) in this paper, which extends the original linear generative model to a more expressive non-linear generative model. Since the parameters of the Generalized GBN no longer possess an analytic conditional posterior, we further propose an upward-downward Weibull inference network to approximate the posterior distribution of the latent variables. The parameters of both the generative model and the inference network are jointly trained within the variational inference framework. Finally, we conduct comprehensive experiments on both expressivity and disentangled representation learning tasks to evaluate the performance of the Generalized GBN against state-of-the-art Gaussian variational autoencoders serving as baselines.
翻訳日:2024-08-16 17:56:52 公開日:2024-08-15
# MathBridge:スポークな数学的表現を可読性向上のために$LaTeX$式に変換するための大規模なコーパスデータセット

MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability ( http://arxiv.org/abs/2408.07081v2 )

ライセンス: Link先を確認
Kyudan Jung, Sieun Hyeon, Jeong Youn Kwon, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do, (参考訳) テキスト形式の数学的表現を含む文を理解することは重要な課題である。 これを解決するために、これらの式をコンパイル式に変換することの重要性が強調される。 例えば、"`x equals minus b plus or minus the square root of b squared 4 a c, all over two a'' from Automatic speech Recognition (ASR)" という式は、コンパイル式 $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$ として表示されると、より理解しやすい。 テキスト・トゥ・フォーミュラ変換システムを開発するために,テキスト・トゥ・ラテXとLaTeX・ラテX・トゥ・フォーミュラ変換に分割し,後者を既存のLaTeXエンジンで管理する。 しかし、従来のアプローチはテキストとLaTeXのペアデータの深刻な不足によって明らかに妨げられ、この分野では大きな課題が提示されている。 この文脈では、数式表現をLaTeXに翻訳するための最初の広範なデータセットであるMathBridgeを導入し、テキストからLaTeXへの翻訳研究のための堅牢なベースラインを確立する。 MathBridgeは、約2300万のLaTeX式と対応する英語の表現のペアで構成されている。 データによる微調整やテストを含む総合的な評価により,MathBridgeはテキストからLaTeX翻訳のための事前学習言語モデルの能力を大幅に向上することがわかった。 具体的には、T5大モデルでは、sareBLEUスコアは4.77から46.8に増加し、大幅に向上した。 この結果から,テキスト・トゥ・ラテX変換評価のための新しい指標の必要性が示唆された。

Understanding sentences that contain mathematical expressions in text form poses significant challenges. To address this, the importance of converting these expressions into a compiled formula is highlighted. For instance, the expression ``x equals minus b plus or minus the square root of b squared minus four a c, all over two a'' from automatic speech recognition (ASR) is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$. To develop a text-to-formula conversion system, we can break down the process into text-to-LaTeX and LaTeX-to-formula conversions, with the latter managed by various existing LaTeX engines. However, the former approach has been notably hindered by the severe scarcity of text-to-LaTeX paired data, which presents a significant challenge in this field. In this context, we introduce MathBridge, the first extensive dataset for translating mathematical spoken expressions into LaTeX, to establish a robust baseline for future research on text-to-LaTeX translation. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding spoken English expressions. Through comprehensive evaluations, including fine-tuning and testing with data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for text-to-LaTeX translation. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement. Our findings indicate the need for a new metric, specifically for text-to-LaTeX conversion evaluations.
翻訳日:2024-08-16 15:59:30 公開日:2024-08-15
# 多重Brightfield免疫組織化学画像の干渉解析のための新しい生成人工知能法

A Novel Generative Artificial Intelligence Method for Interference Study on Multiplex Brightfield Immunohistochemistry Images ( http://arxiv.org/abs/2408.07860v1 )

ライセンス: Link先を確認
Satarupa Mukherjee, Jim Martin, Yao Nie, (参考訳) 複数の連続するスライド上の1つのバイオマーカーラベリングとは対照的に、1つのスライド上の複数のバイオマーカーを同時に解析する利点がある。 同一細胞区画に局在する複数のバイオマーカーを正確に解析するため,cMET-PDL1-EGFRとCD8-LAG3-PDL1の2つの代表的なバイオマーカーセットを測定モデルとして選択した。 アッセイのような分析の最も重要な予備段階の1つは、個々の細胞上のそれぞれの固有の色原を同定することである。 これは3つのバイオマーカー全てからの膜染色の共局在化が難しい問題である。 バイオマーカーごとに3倍画像から同等の1プレックス画像を作成するには、高度なカラーアンミックスが必要である。 本研究は, 上記3次元画像から生成した3次元画像を混合するサイクル生成適応ネットワーク(Cycle-Generative Adversarial Network, GAN)手法を開発した。 3つの異なるモデルが、タムラ(紫)、QM-ダブシル(黄)、グリーン(緑)の3つの染色のそれぞれに対して、単相画像を生成するように設計された。 提案手法の顕著な特徴は,従来のRGB画像ではなく,光密度領域内の画像がネットワークへの入力である点である。 光密度領域の使用は、RGB画像上でネットワークがトレーニングされたときにしばしば観察された合成単相画像のぼかしを減少させるのに役立った。 CMET-PDL1-EGFR法では10,800例,CD8-LAG3-PDL1法では3600例であった。 視覚的および定量的評価により,手動による評価結果と比較すると,提案手法は効率的かつ効果的であり,多元的評価にも容易に適用可能であることが示された。

Multiplex brightfield imaging offers the advantage of simultaneously analyzing multiple biomarkers on a single slide, as opposed to single biomarker labeling on multiple consecutive slides. To accurately analyze multiple biomarkers localized at the same cellular compartment, two representative biomarker sets were selected as assay models - cMET-PDL1-EGFR and CD8-LAG3-PDL1, where all three biomarkers can co-localize on the cell membrane. One of the most crucial preliminary stages for analyzing such assay is identifying each unique chromogen on individual cells. This is a challenging problem due to the co-localization of membrane stains from all the three biomarkers. It requires advanced color unmixing for creating the equivalent singleplex images from each triplex image for each biomarker. In this project, we developed a cycle-Generative Adversarial Network (cycle-GAN) method for unmixing the triplex images generated from the above-mentioned assays. Three different models were designed to generate the singleplex image for each of the three stains Tamra (purple), QM-Dabsyl (yellow) and Green. A notable novelty of our approach was that the input to the network were images in the optical density domain instead of conventionally used RGB images. The use of the optical density domain helped in reducing the blurriness of the synthetic singleplex images, which was often observed when the network was trained on RGB images. The cycle-GAN models were validated on 10,800 lung, gastric and colon images for the cMET-PDL1-EGFR assay and 3600 colon images for the CD8-LAG3-PDL1 assay. Visual as well as quantified assessments demonstrated that the proposed method is effective and efficient when compared with the manual reviewing results and is readily applicable to various multiplex assays.
翻訳日:2024-08-16 15:28:57 公開日:2024-08-15
# Keysight ADSにおけるフラックス量子化ジョセフソン接合回路のモデリング

Modeling flux-quantizing Josephson junction circuits in Keysight ADS ( http://arxiv.org/abs/2408.07861v1 )

ライセンス: Link先を確認
Ofer Naaman, Ted White, Mohamed Awida Hassan, Derek Slater, Sean Mcilvane, Edwin Yeung, Philip Krantz, (参考訳) 本稿では, 超伝導マイクロ波回路のシミュレーションにおいて, 補助フラックスポートを備えたキーシットADSにおいて, ジョセフソン接合とインダクタモデルを導入し, フラックス量子化条件の表現を容易にする。 本稿では,dc-およびrf-SQUID,チューナブルカプラ,SNAILおよびrf-SQUIDアレイを用いたパラメトリック増幅器などのフラックス量子化回路構築手法について述べる。 我々は,DC,Sパラメータ,高調波バランスシミュレーションを行い,理論に対するモデルと手法の検証を行い,実験結果を公表した。

We introduce Josephson junction and inductor models in Keysight ADS that feature an auxiliary flux port, and facilitate the expression of flux quantization conditions in simulation of superconducting microwave circuits. We present several examples that illustrate our methodology for constructing flux-quantizing circuits, including dc- and rf-SQUIDs, tunable couplers, and parametric amplifiers using SNAIL and rf-SQUID arrays. We perform DC, S-parameter, and harmonic balance simulations to validate our models and methods against theory and published experimental results.
翻訳日:2024-08-16 15:28:57 公開日:2024-08-15
# パルスによるゼロデイランサムウェア検出:トランスフォーマーモデルとアセンブリ言語を用いた関数分類

Zero Day Ransomware Detection with Pulse: Function Classification with Transformer Models and Assembly Language ( http://arxiv.org/abs/2408.07862v1 )

ライセンス: Link先を確認
Matthew Gaber, Mohiuddin Ahmed, Helge Janicke, (参考訳) マルウェアに対して積極的に防御する自動化AI技術を見つけることはますます重要になっている。 新たなマルウェアを正しく分類するAIモデルの能力は、トレーニングされた機能の品質に依存し、その機能の信頼性は分析ツールに依存している。 動的バイナリー・インスツルメンテーション(Dynamic Binary Instrumentation)ツールであるPeekabooは、回避マルウェアを倒して、その真の振る舞いを捉えている。 Peekaboo が取得したランサムウェアアセンブリ命令は Zipf の法則に従っており、これは自然言語でも見られる原理であり、トランスフォーマーモデルは特に二項分類に適していることを示している。 本稿では,Transformerモデルとアセンブリ言語を用いたゼロデイランサムウェア検出のための新しいフレームワークであるPulseを提案する。 PulseはPeekabooのランサムウェアと良質なソフトウェアデータで訓練され、真に新しいサンプルを高精度に識別する。 Pulseは、テストとトレーニングサンプルに精通した機能を排除し、Transformerモデルにコンテキストと新しいアセンブリ命令の組み合わせのみに基づいて悪意のある振る舞いを検出するように強制する。

Finding automated AI techniques to proactively defend against malware has become increasingly critical. The ability of an AI model to correctly classify novel malware is dependent on the quality of the features it is trained with and the authenticity of the features is dependent on the analysis tool. Peekaboo, a Dynamic Binary Instrumentation tool defeats evasive malware to capture its genuine behavior. The ransomware Assembly instructions captured by Peekaboo, follow Zipf's law, a principle also observed in natural languages, indicating Transformer models are particularly well suited to binary classification. We propose Pulse, a novel framework for zero day ransomware detection with Transformer models and Assembly language. Pulse, trained with the Peekaboo ransomware and benign software data, uniquely identify truly new samples with high accuracy. Pulse eliminates any familiar functionality across the test and training samples, forcing the Transformer model to detect malicious behavior based solely on context and novel Assembly instruction combinations.
翻訳日:2024-08-16 15:28:57 公開日:2024-08-15
# 機械学習による戦略的意思決定の複雑さの把握

Capturing the Complexity of Human Strategic Decision-Making with Machine Learning ( http://arxiv.org/abs/2408.07865v1 )

ライセンス: Link先を確認
Jian-Qiao Zhu, Joshua C. Peterson, Benjamin Enke, Thomas L. Griffiths, (参考訳) 人々が戦略的にどのように振る舞うかを理解する — 他人の行動に対する期待に基づいて意思決定をする — は、行動科学における長年の問題である。 我々は、2400以上の手続き的に生成されたゲームで90,000人以上の人間の決定を解析し、以前のデータセットよりもはるかに広い空間にまたがる。 これらのデータに基づいてトレーニングされたディープニューラルネットワークは、戦略行動の理論よりも人々の選択を予測し、これらの理論では説明できない体系的なバリエーションが存在することを示す。 次に、ネットワークを変更して、新しい解釈可能な行動モデルを作成し、元のネットワークが人々について学んだことを明らかにする。 この文脈依存性は、合理的なナッシュ均衡、応答時間、戦略的決定の不確実性から逸脱することを説明する上で重要である。 より広範に、我々の結果は、複雑な人間の行動に関する新しい説明を生み出すために、予測を超えて機械学習をどのように適用できるかを実証している。

Understanding how people behave in strategic settings--where they make decisions based on their expectations about the behavior of others--is a long-standing problem in the behavioral sciences. We conduct the largest study to date of strategic decision-making in the context of initial play in two-player matrix games, analyzing over 90,000 human decisions across more than 2,400 procedurally generated games that span a much wider space than previous datasets. We show that a deep neural network trained on these data predicts people's choices better than leading theories of strategic behavior, indicating that there is systematic variation that is not explained by those theories. We then modify the network to produce a new, interpretable behavioral model, revealing what the original network learned about people: their ability to optimally respond and their capacity to reason about others are dependent on the complexity of individual games. This context-dependence is critical in explaining deviations from the rational Nash equilibrium, response times, and uncertainty in strategic decisions. More broadly, our results demonstrate how machine learning can be applied beyond prediction to further help generate novel explanations of complex human behavior.
翻訳日:2024-08-16 15:28:57 公開日:2024-08-15
# 継続的知覚ベンチマーク

Continuous Perception Benchmark ( http://arxiv.org/abs/2408.07867v1 )

ライセンス: Link先を確認
Zeyu Wang, Zhenzhen Weng, Serena Yeung-Levy, (参考訳) 人間は継続的に知覚し、視覚信号を処理する。 しかし、現在のビデオモデルは、通常、キーフレームをわずかにサンプリングするか、ビデオをチャンクに分割し、各チャンク内に密にサンプリングする。 このアプローチは、ほとんどの既存のビデオベンチマークがキーフレームを分析したり、別のチャンクから情報を集約することで対処できるという事実に起因している。 次世代の視覚モデルでは、視覚入力を連続的に、かつ、均一に処理することで、人間の知覚をエミュレートすることが期待できる。 このようなモデルの開発を容易にするために,数フレームにのみフォーカスするか,あるいは小さなチャンクをキャプションし,言語モデルを用いて要約することで解決できないビデオ質問応答タスクであるContinuous Perception Benchmarkを提案する。 大規模な実験では、商用またはオープンソースを問わず、既存のモデルがこれらのタスクに苦労していることが示され、この方向への新しい技術的進歩の必要性が示される。

Humans continuously perceive and process visual signals. However, current video models typically either sample key frames sparsely or divide videos into chunks and densely sample within each chunk. This approach stems from the fact that most existing video benchmarks can be addressed by analyzing key frames or aggregating information from separate chunks. We anticipate that the next generation of vision models will emulate human perception by processing visual input continuously and holistically. To facilitate the development of such models, we propose the Continuous Perception Benchmark, a video question answering task that cannot be solved by focusing solely on a few frames or by captioning small chunks and then summarizing using language models. Extensive experiments demonstrate that existing models, whether commercial or open-source, struggle with these tasks, indicating the need for new technical advancements in this direction.
翻訳日:2024-08-16 15:28:57 公開日:2024-08-15
# 生成時系列の体系的評価と自己監督型事前訓練における効果

A Systematic Evaluation of Generated Time Series and Their Effects in Self-Supervised Pretraining ( http://arxiv.org/abs/2408.07869v1 )

ライセンス: Link先を確認
Audrey Der, Chin-Chia Michael Yeh, Xin Dai, Huiyuan Chen, Yan Zheng, Yujie Fan, Zhongfang Zhuang, Vivian Lai, Junpeng Wang, Liang Wang, Wei Zhang, Eamonn Keogh, (参考訳) 自己教師付き事前訓練モデル(PTM)は、コンピュータビジョンと自然言語処理タスクにおいて顕著な性能を示した。 これらの成功により、研究者は時系列データのためのPTMを設計するようになった。 実験では、ほとんどの自己教師付き時系列PTMは、単純な教師付きモデルによって超えられた。 我々は、この望ましくない現象はデータ不足によって引き起こされるかもしれないと仮定する。 そこで本研究では,6つの時系列生成手法を検証し,実データの代わりに生成したデータを用いて,分類性能に与える影響を検証した。 以上の結果から,実データ事前学習セットを大量のサンプルのみに置き換えることで,顕著な改善が得られた。

Self-supervised Pretrained Models (PTMs) have demonstrated remarkable performance in computer vision and natural language processing tasks. These successes have prompted researchers to design PTMs for time series data. In our experiments, most self-supervised time series PTMs were surpassed by simple supervised models. We hypothesize this undesired phenomenon may be caused by data scarcity. In response, we test six time series generation methods, use the generated data in pretraining in lieu of the real data, and examine the effects on classification performance. Our results indicate that replacing a real-data pretraining set with a greater volume of only generated samples produces noticeable improvement.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 光子ノーベル分解非破壊検出のための量子クロス非線形性

Quantum Cross Nonlinearity for Photon-Number-Resolving Nondestructive Detection ( http://arxiv.org/abs/2408.07870v1 )

ライセンス: Link先を確認
Jiang-Shan Tang, Mingyuan Chen, Miao Cai, Lei Tang, Yanqing Lu, Keyu Xia, Franco Nori, (参考訳) 本稿では,V型量子エミッタ(QE)とFabry-Perotの2つのキャビティからなるシステムにおいて,量子非線形性の非従来的機構を提案する。 V型QEの2つの遷移は、2つの独立したキャビティモードと効果的に結合される。 このシステムは単一光子レベルにおいても強い量子非線形制御を示し、これは量子交叉非線形性(quantum cross linearity)と呼ばれる。 基礎となる物理学は、共通の基底状態を共有するQEの2つの遷移の間の量子的競合として理解することができる。 この量子交差非線形性を活用することで、光子数分解型量子非破壊検出をさらに示す。 このV型構成の広範性により、我々のアプローチは光学領域以外の様々な空洞量子力学系、例えばマイクロ波光子、音響波フォノンまで容易に拡張できる。 この汎用性は、量子情報処理に多くのユニークな応用を促進する可能性がある。

We present an unconventional mechanism for quantum nonlinearity in a system comprising of a V-type quantum emitter (QE) and two Fabry-Perot cavities. The two transitions of the V-type QE are effectively coupled with two independent cavity modes. The system exhibits a strong quantum nonlinear control in the transmission even at the single-photon level, which we refer to as quantum cross nonlinearity. The underlying physics can be understood as quantum competition between the two transitions of the QE sharing a common ground state. By leveraging this quantum cross nonlinearity, we further show photon-number-resolving quantum nondestructive detection. Owing to the widespread nature of this V-type configuration, our approach can be readily extended to diverse cavity quantum electrodynamic systems beyond the realm of optics, encompassing, e.g., microwave photons and acoustic wave phonons. This versatility may facilitate numerous unique applications for quantum information processing.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 単語が重要:大規模言語モデルを用いた教材使用に関するオンライン会話におけるスティグマの低減

Words Matter: Reducing Stigma in Online Conversations about Substance Use with Large Language Models ( http://arxiv.org/abs/2408.07873v1 )

ライセンス: Link先を確認
Layla Bouzoubaa, Elham Aghakhani, Shadi Rezapour, (参考訳) スティグマは、物質使用障害(SUD)に苦しむ患者に対する治療の障壁であり、治療エンゲージメントが著しく低下する。 何らかの形で援助を受けた人はわずか7%に過ぎず、社会不安はSUDの個人が助けを求めるのを妨げているだけでなく、彼らを孤立させ、回復の旅を妨げ、恥と自己疑念のサイクルを永続させる。 本研究では、ソーシャルメディア、特にRedditにおいて、匿名性によって差別行動が悪化するおそれのあるスティグマがどのように現れるかを調査する。 我々は120万件以上の投稿を分析し、物質(PWUS)を使用する人々に対して、スティグマティゼーション言語を示す3,207件を特定した。 Informed and Stylized LLMsを用いて、これらの表現を共感言語に分解するモデルを開発し、1,649個の句対を修正した。 本論文は,オンラインコンテンツのスティグマ分析とデスティグマ化のための計算フレームワークを提案し,PWUSに向けてスティグマを伝播する言語的特徴を掘り下げることによって,この分野に寄与する。 我々の研究は、ネット上でのスティグマのマニフェストの理解を深めるだけでなく、SUDの影響を受けた人々のために、より支援的なデジタル環境を育むための実践的なツールも提供します。 コードとデータは受理時に公開されます。

Stigma is a barrier to treatment for individuals struggling with substance use disorders (SUD), which leads to significantly lower treatment engagement rates. With only 7% of those affected receiving any form of help, societal stigma not only discourages individuals with SUD from seeking help but isolates them, hindering their recovery journey and perpetuating a cycle of shame and self-doubt. This study investigates how stigma manifests on social media, particularly Reddit, where anonymity can exacerbate discriminatory behaviors. We analyzed over 1.2 million posts, identifying 3,207 that exhibited stigmatizing language towards people who use substances (PWUS). Using Informed and Stylized LLMs, we develop a model for de-stigmatization of these expressions into empathetic language, resulting in 1,649 reformed phrase pairs. Our paper contributes to the field by proposing a computational framework for analyzing stigma and destigmatizing online content, and delving into the linguistic features that propagate stigma towards PWUS. Our work not only enhances understanding of stigma's manifestations online but also provides practical tools for fostering a more supportive digital environment for those affected by SUD. Code and data will be made publicly available upon acceptance.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# シークエンシャルモンテカルロによる分類のインクリメンタルな構造発見

Incremental Structure Discovery of Classification via Sequential Monte Carlo ( http://arxiv.org/abs/2408.07875v1 )

ライセンス: Link先を確認
Changze Huang, Di Wang, (参考訳) ガウス過程(GP)は、カーネルとベイズ非パラメトリック学習を用いた分類のための予測と不確実性を理解するための強力なフレームワークを提供する。 このようなモデルを構築するには、プリセレクトカーネルを定義するための強い事前知識が必要であるが、これは、データの特徴がプロセス中に変化する可能性があるため、シーケンシャルにデータを処理する分類のオンラインアプリケーションには効果がない可能性がある。 本稿では,GPにおける先行知識の要件を緩和し,連続するデータから新たな特徴を学習するために,事前知識の少ない複雑なデータの分類モデルを自動的に発見する手法を提案する。 本稿では,GPsとSequential Monte Carlo(SMC)を統合したGPに基づく時系列構造探索手法を提案する。 我々はGP分類における余剰潜伏変数を扱うためにこの手法を拡張し、連続的な入力から非プリオリ未知の分類構造を効果的かつ適応的に学習できるようにした。 さらに,本手法は,モデル構造を更新した新しいデータのバッチに適応する。 提案手法は, 合成データと実世界のデータに, カーネルの様々な特徴を自動で組み込んで分類できることを示す。 実世界のデータを用いた実験では,オンラインとオフラインの両方で様々な分類法を上回り,1つのベンチマークで10倍の精度向上を実現している。

Gaussian Processes (GPs) provide a powerful framework for making predictions and understanding uncertainty for classification with kernels and Bayesian non-parametric learning. Building such models typically requires strong prior knowledge to define preselect kernels, which could be ineffective for online applications of classification that sequentially process data because features of data may shift during the process. To alleviate the requirement of prior knowledge used in GPs and learn new features from data that arrive successively, this paper presents a novel method to automatically discover models of classification on complex data with little prior knowledge. Our method adapts a recently proposed technique for GP-based time-series structure discovery, which integrates GPs and Sequential Monte Carlo (SMC). We extend the technique to handle extra latent variables in GP classification, such that our method can effectively and adaptively learn a-priori unknown structures of classification from continuous input. In addition, our method adapts new batch of data with updated structures of models. Our experiments show that our method is able to automatically incorporate various features of kernels on synthesized data and real-world data for classification. In the experiments of real-world data, our method outperforms various classification methods on both online and offline setting achieving a 10\% accuracy improvement on one benchmark.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# IReCa:人間とAIの協調のためのコンテキスト認識強化学習

IReCa: Intrinsic Reward-enhanced Context-aware Reinforcement Learning for Human-AI Coordination ( http://arxiv.org/abs/2408.07877v1 )

ライセンス: Link先を確認
Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley, (参考訳) 人間とAIの調整シナリオでは、人間のエージェントは通常、AIエージェントのエージェントと比べて著しく疎く予測不可能な非対称な振る舞いを示す。 これらの特徴は、スパース報酬を得る効果とAIエージェントを訓練する効率の2つの主要な課題をもたらす。 これらの課題に対処するため、本研究では、スパース報酬の獲得を容易にするために固有の報酬を利用する、学習効率を高めるために環境コンテキストを利用する、固有Reward-enhanced Context-aware(IReCa)強化学習(RL)アルゴリズムを提案する。 我々のIReCa RLアルゴリズムには3つの特徴がある。 一 環境からの内因的報酬を補う内因的報酬を組み込むことにより、疎外報酬の探索を奨励すること。 (二)当該スパース状態-作用対を優先することによりスパース報酬の取得を改善し、 第三に、外因性及び内因性報酬の革新的文脈を考慮した重み付けにより、探索と搾取を最適化することにより、訓練効率を向上させること。 オーバークッキングレイアウトで実行される広範囲なシミュレーションにより、我々のIReCa RLアルゴリズムは、蓄積した報酬を約20%増加させ、収束に必要なエポックを最先端のベースラインと比較して約67%削減できることを示した。

In human-AI coordination scenarios, human agents usually exhibit asymmetric behaviors that are significantly sparse and unpredictable compared to those of AI agents. These characteristics introduce two primary challenges to human-AI coordination: the effectiveness of obtaining sparse rewards and the efficiency of training the AI agents. To tackle these challenges, we propose an Intrinsic Reward-enhanced Context-aware (IReCa) reinforcement learning (RL) algorithm, which leverages intrinsic rewards to facilitate the acquisition of sparse rewards and utilizes environmental context to enhance training efficiency. Our IReCa RL algorithm introduces three unique features: (i) it encourages the exploration of sparse rewards by incorporating intrinsic rewards that supplement traditional extrinsic rewards from the environment; (ii) it improves the acquisition of sparse rewards by prioritizing the corresponding sparse state-action pairs; and (iii) it enhances the training efficiency by optimizing the exploration and exploitation through innovative context-aware weights of extrinsic and intrinsic rewards. Extensive simulations executed in the Overcooked layouts demonstrate that our IReCa RL algorithm can increase the accumulated rewards by approximately 20% and reduce the epochs required for convergence by approximately 67% compared to state-of-the-art baselines.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 量子強化マルコフ鎖は微調整クエンチを必要とする

Quantum enhanced Markov chains require fine-tuned quenches ( http://arxiv.org/abs/2408.07881v1 )

ライセンス: Link先を確認
Alev Orfi, Dries Sels, (参考訳) 量子増幅型マルコフ連鎖モンテカルロは、測定された量子クエンチによって構成が提案され、古典的なアルゴリズムによって受け入れられ、あるいは拒否されるアルゴリズムであり、不完全な量子デバイス上での堅牢な量子スピードアップの方法として提案されている。 この手順はノイズや制御の不完全性に耐性があるが、量子的優位性の可能性は不明である。 マルコフ連鎖のギャップを上向きにすることで、アルゴリズムの性能を制限する競合因子を同定する。 量子力学は、システムを様々な古典的状態にわたって効率的に非局在化する必要があるが、クエンチを通じてエントロピーを過剰に導入するのは有害である。 具体的には、長期の極限において、マルコフ連鎖のギャップは、固有状態基底における古典状態の逆の参加比によって制限され、エルゴード系への焼き入れには利点がないことを示す。 パラダイム的シェリントン・カークパトリックモデルと3スピンモデルでは、最適なスペクトルギャップスケーリングの仕組みを特定し、システムの固有状態特性にリンクする。

Quantum-enhanced Markov chain Monte Carlo, an algorithm in which configurations are proposed through a measured quantum quench and accepted or rejected by a classical algorithm, has been proposed as a possible method for robust quantum speedup on imperfect quantum devices. While this procedure is resilient to noise and control imperfections, the potential for quantum advantage is unclear. By upper-bounding the gap of the Markov chain, we identify competing factors that limit the algorithm's performance. One needs the quantum dynamics to efficiently delocalize the system over a range of classical states, however, it is also detrimental to introduce too much entropy through the quench. Specifically, we show that in the long-time limit, the gap of the Markov chain is bounded by the inverse participation ratio of the classical states in the eigenstate basis, showing there is no advantage when quenching to an ergodic system. For the paradigmatic Sherrington-Kirkpatrick and 3-spin model, we identify the regime of optimal spectral gap scaling and link it to the system's eigenstate properties.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 単一量子ドットにおける異常熱拡散、絶対負のモビリティ、逆熱輸送

Anomalous thermodiffusion, absolute negative mobility and reverse heat transport in a single quantum dot ( http://arxiv.org/abs/2408.07882v1 )

ライセンス: Link先を確認
Yanchao Zhang, Xiaolong Lü, (参考訳) 本研究では, 温度勾配とバイアス電圧の両方の影響を受けながら, 2つの貯水池間に埋め込まれた1つのエネルギー準位からなる量子ドット系の定常輸送特性について検討した。 調整されたパラメータ構造内では, 異常熱拡散, 絶対負のモビリティ, 逆の熱輸送の3つの反直感的輸送現象を観測できる。 これらの反直観的な現象は熱力学の第二の法則に反するものではない。 さらに、絶対負のモビリティと逆の熱輸送は可逆エネルギーレベルによって識別できる。 これらの異常輸送は熱電輸送とは異なるものであり、量子系の輸送特性をより包括的に理解するために異なる視点を提供する。

We investigate the steady-state transport characteristics of a quantum dot system consisting of a single energy level embedded between two reservoirs under the influence of both the temperature gradient and bias voltage. Within tailored parameter regimes, the system can exhibit three counterintuitive transport phenomena of anomalous thermodiffusion, absolute negative mobility and reverse heat transport respectively. These counterintuitive phenomena do not violate the second law of thermodynamics. Moreover, absolute negative mobility and reverse heat transport can be identified by a reversible energy level. These anomalous transports are different from thermoelectric transports and provide different perspectives for a more comprehensive understanding of the transport characteristics of quantum systems.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# To Impute or not: Recommendations for Multibiometric Fusion

To Impute or Not: Recommendations for Multibiometric Fusion ( http://arxiv.org/abs/2408.07883v1 )

ライセンス: Link先を確認
Melissa R Dale, Elliot Singer, Bengt J. Borgström, Arun Ross, (参考訳) 異なるバイオメトリックシステムからのマッチングスコアを融合させることは、認識精度を向上させるための確立されたアプローチである。 しかし、欠落したスコアは性能を低下させ、適用可能な融合技術を制限することができる。 インパテーションは、欠落したデータを置き換えるためのマルチバイオメトリックシステムにおいて有望な手法である。 本稿では,3つのマルチモーダルバイオメトリックスコアデータセットであるvizについて,様々なスコア計算手法の評価を行う。 NIST BSSR1, BIOCOP2008, MIT LL Trimodal は, インキュベーションの有効性に影響を与える因子について検討した。 本研究は,(1) 核融合規則が完全スコアデータを必要としない場合でも, 欠点を含まないことよりも, インパルス化が望ましいことを明らかにする。 2) 学習データにおける授業のバランシングは, かなりの数のスコアベクトルを落としても, 計算手法における負のバイアスを軽減するために重要である。 3)多変量計算手法は,モダリティ間のスコアの相関が低い場合,一変量法はモダリティ間のスコアの相関が低い場合のシナリオに有用であると考えられる。

Combining match scores from different biometric systems via fusion is a well-established approach to improving recognition accuracy. However, missing scores can degrade performance as well as limit the possible fusion techniques that can be applied. Imputation is a promising technique in multibiometric systems for replacing missing data. In this paper, we evaluate various score imputation approaches on three multimodal biometric score datasets, viz. NIST BSSR1, BIOCOP2008, and MIT LL Trimodal, and investigate the factors which might influence the effectiveness of imputation. Our studies reveal three key observations: (1) Imputation is preferable over not imputing missing scores, even when the fusion rule does not require complete score data. (2) Balancing the classes in the training data is crucial to mitigate negative biases in the imputation technique towards the under-represented class, even if it involves dropping a substantial number of score vectors. (3) Multivariate imputation approaches seem to be beneficial when scores between modalities are correlated, while univariate approaches seem to benefit scenarios where scores between modalities are less correlated.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 大規模言語モデルによる学術文献調査の段階的生成

Instruct Large Language Models to Generate Scientific Literature Survey Step by Step ( http://arxiv.org/abs/2408.07884v1 )

ライセンス: Link先を確認
Yuxuan Lai, Yupeng Wu, Yidan Wang, Wenpeng Hu, Chen Zheng, (参考訳) 抽象。 科学文献の調査を自動生成することは、研究効率を大幅に向上させる貴重なタスクである。 しかし、文献調査における情報の多様で複雑な性質は、生成モデルに重大な課題をもたらす。 本稿では,大規模言語モデル(LLM)を体系的に活用する一連のプロンプトを設計し,段階的アプローチによる総合的な文献調査の作成を可能にする。 具体的には, LLM を指導し, タイトル, 抽象的, 階層的見出し, および文献調査の主内容を逐次生成するプロンプトを設計する。 この設計はハイレベルの観点からの見出しの生成を可能にすると我々は主張する。 コンテンツ生成プロセスにおいて、LLMクエリにおける入力コンテンツと出力コンテンツの両方の長さを制限することにより、コストを最小化しつつ、関連情報を効果的に活用する。 Qwen-long による実施は NLPCC 2024 Scientific Literature Survey Generation 評価タスクで3位となり,総合得点は第2位チームよりも 0.03% 低かった。 さらに、私たちのソフトなリコールは95.84%で、応募者の中で2番目に多い。 効率的なプロンプト設計とQwen-long APIの低コストにより,本手法は各文献調査の費用を0.1 RMBに削減し,本手法の実用的価値を高める。

Abstract. Automatically generating scientific literature surveys is a valuable task that can significantly enhance research efficiency. However, the diverse and complex nature of information within a literature survey poses substantial challenges for generative models. In this paper, we design a series of prompts to systematically leverage large language models (LLMs), enabling the creation of comprehensive literature surveys through a step-by-step approach. Specifically, we design prompts to guide LLMs to sequentially generate the title, abstract, hierarchical headings, and the main content of the literature survey. We argue that this design enables the generation of the headings from a high-level perspective. During the content generation process, this design effectively harnesses relevant information while minimizing costs by restricting the length of both input and output content in LLM queries. Our implementation with Qwen-long achieved third place in the NLPCC 2024 Scientific Literature Survey Generation evaluation task, with an overall score only 0.03% lower than the second-place team. Additionally, our soft heading recall is 95.84%, the second best among the submissions. Thanks to the efficient prompt design and the low cost of the Qwen-long API, our method reduces the expense for generating each literature survey to 0.1 RMB, enhancing the practical value of our method.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 量子スーパーマップのベイズ的回帰

Bayesian retrodiction of quantum supermaps ( http://arxiv.org/abs/2408.07885v1 )

ライセンス: Link先を確認
Ge Bai, (参考訳) ペッツ写像はベイズの法則の量子版として確立されている。 これは、前方量子プロセス後に観測された量子状態の概念的信念更新規則と、最終状態が更新された信念と等しい状態に回復する操作的逆過程を統一し、前方のプロセスに反する。 本稿では,量子ベイズ則の高次一般化について,量子スーパーマップに基づく量子過程を考慮して検討する。 量子チャネルの信念を更新するためのルールは、逆の量子スーパーマップ(retrodiction supermap)と呼ばれ、量子クラウドコンピューティングにおけるエラー修正のような応用を可能にする。 これらの家族に分析ソリューションが提供され、任意の初期信念のレシピはまだ見つからない。

The Petz map has been established as a quantum version of the Bayes' rule. It unifies the conceptual belief update rule of a quantum state observed after a forward quantum process, and the operational reverse process that brings the final state to a recovered state equal to the updated belief, counteracting the forward process. Here, we study a higher-order generalization of the quantum Bayes' rule by considering a quantum process undergoing a quantum supermap. For a few families of initial beliefs, we show that a similar unification is possible -- the rules to update the belief of quantum channels can be implemented via a "reverse" quantum supermap, which we call the retrodiction supermap, allowing for applications such as error correction in quantum cloud computing. Analytical solutions are provided for those families, while a recipe for arbitrary initial beliefs is yet to be found.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 医療質問応答における人間に触発された学習方略を用いた微調整大言語モデル

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering ( http://arxiv.org/abs/2408.07888v1 )

ライセンス: Link先を確認
Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi, (参考訳) LLM(Large Language Models)のトレーニングは、データ注文と選択を最適化することで、データ効率のよいトレーニング手法の開発を動機付け、データ関連のかなりのコストを発生させる。 カリキュラム学習のような人間にインスパイアされた学習戦略は、一般的な人間の学習実践に従ってデータを整理することで、効率的なトレーニングを行う可能性を提供する。 カリキュラム学習による微調整が自然言語理解タスクにおけるLLMの性能を向上させるという証拠があるが、その効果は典型的には1つのモデルを用いて評価される。 本研究では,複数のLSMを対象としたカリキュラムベースおよび非カリキュラムベースの学習戦略を,医療質問応答のための人為的および自動化されたデータラベルを用いて評価することにより,これまでの研究を拡張した。 この結果から,人間にインスパイアされた学習戦略を微調整 LLM に適用することで,モデル毎の最大精度が1.77%,データセット毎の1.81% に達することが示唆された。 重要なことは、これらの戦略の有効性がモデル・データセットの組み合わせによって大きく異なることを示し、微調整 LLM に対する特定の人間にインスパイアされた戦略の利点が一般化しないことを強調している。 さらに, LLM を用いたカリキュラム学習は, 最適カリキュラム設計のためのモデル生成手法の活用の可能性を強調し, 人間の定義した難易度よりも優れていることを示す。

Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# MambaVT:ロバストなRGB-T追跡のための時空間時空間モデリング

MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking ( http://arxiv.org/abs/2408.07889v1 )

ライセンス: Link先を確認
Simiao Lai, Chang Liu, Jiawen Zhu, Ben Kang, Yang Liu, Dong Wang, Huchuan Lu, (参考訳) 既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルインタラクション機能と広範な事前学習モデルを活用することで、顕著な進歩を遂げている。 それにもかかわらず、これらの手法は、主にイメージペアの外観整合と、注意機構の本質的な高次複雑さの対面課題を採用し、時間情報の限定的利用をもたらす。 最近登場したState Space Model Mambaに触発されたこの研究は、長いシーケンスモデリング能力と線形計算の複雑さで有名だが、革新的に純粋なMambaベースのフレームワーク(MambaVT)を提案し、堅牢な可視熱追跡のための時空間モデリングを完全に活用する。 具体的には、長期のクロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応させ、短期的な歴史的軌跡のプロンプトを導入し、局所的な時間的位置の手がかりに基づいて、その後の目標状態を予測する。 大規模な実験により、RGB-T追跡のためのMambaのビジョンが大幅に向上し、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成し、計算コストの低減を図っている。 我々は,本研究を,シンプルながら強力なベースラインとして機能させることを目標とし,今後の研究を奨励する。 コードと事前訓練されたモデルは利用可能になる。

Existing RGB-T tracking algorithms have made remarkable progress by leveraging the global interaction capability and extensive pre-trained models of the Transformer architecture. Nonetheless, these methods mainly adopt imagepair appearance matching and face challenges of the intrinsic high quadratic complexity of the attention mechanism, resulting in constrained exploitation of temporal information. Inspired by the recently emerged State Space Model Mamba, renowned for its impressive long sequence modeling capabilities and linear computational complexity, this work innovatively proposes a pure Mamba-based framework (MambaVT) to fully exploit spatio-temporal contextual modeling for robust visible-thermal tracking. Specifically, we devise the long-range cross-frame integration component to globally adapt to target appearance variations, and introduce short-term historical trajectory prompts to predict the subsequent target states based on local temporal location clues. Extensive experiments show the significant potential of vision Mamba for RGB-T tracking, with MambaVT achieving state-of-the-art performance on four mainstream benchmarks while requiring lower computational costs. We aim for this work to serve as a simple yet strong baseline, stimulating future research in this field. The code and pre-trained models will be made available.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 背景知識を用いた局所因果発見

Local Causal Discovery with Background Knowledge ( http://arxiv.org/abs/2408.07890v1 )

ライセンス: Link先を確認
Qingyuan Zheng, Yue Liu, Yangbo He, (参考訳) 因果関係は様々な研究分野において重要な役割を担っている。 因果的グラフィカルモデルの枠組みに基づいて、従来の研究では、変数が局所構造を学習することによってのみ、すべてのマルコフ同値グラフにおける対象の因果関係であるかどうかを特定することが提案されている。 しかし、しばしば部分的に知られている因果グラフとして表される事前知識の存在は、多くの因果モデリングアプリケーションで一般的である。 この事前知識を活用することで、因果関係のさらなる識別が可能になる。 本稿では, 直接因果情報, 非祖先情報, 祖先情報など, あらゆる種類の因果的背景知識を用いて局所構造を学習する手法を提案する。 次に,先行知識の存在下での局所構造のみに基づく因果関係の同定基準を提案する。 また, 局所構造学習, 因果関係同定, 公平機械学習を含む実験により, 提案手法が効率的かつ効果的であることを実証した。

Causality plays a pivotal role in various fields of study. Based on the framework of causal graphical models, previous works have proposed identifying whether a variable is a cause or non-cause of a target in every Markov equivalent graph solely by learning a local structure. However, the presence of prior knowledge, often represented as a partially known causal graph, is common in many causal modeling applications. Leveraging this prior knowledge allows for the further identification of causal relationships. In this paper, we first propose a method for learning the local structure using all types of causal background knowledge, including direct causal information, non-ancestral information and ancestral information. Then we introduce criteria for identifying causal relationships based solely on the local structure in the presence of prior knowledge. We also apply out method to fair machine learning, and experiments involving local structure learning, causal relationship identification, and fair machine learning demonstrate that our method is both effective and efficient.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# テキスト知覚分析のための量子インスパイアされた解釈可能なディープラーニングアーキテクチャ

Quantum-inspired Interpretable Deep Learning Architecture for Text Sentiment Analysis ( http://arxiv.org/abs/2408.07891v1 )

ライセンス: Link先を確認
Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Yuan Yuan, (参考訳) テキストはソーシャルメディア上での主要なコミュニケーション形態となり、多くの感情的なニュアンスを埋め込んだ。 したがって、テキストから感情情報を抽出することが最重要となる。 これまでの研究の進展にもかかわらず、既存のテキスト感情分析モデルは、多様な意味情報の統合と解釈可能性の欠如という課題に直面している。 これらの問題に対処するために、量子力学(QM)の基本原理と、テキスト感情分析のためのディープラーニングモデルを組み合わせた、量子に着想を得たディープラーニングアーキテクチャを提案する。 具体的には、テキスト表現とQM原理の共通性を分析し、量子インスパイアされたテキスト表現法を設計し、さらに量子インスパイアされたテキスト埋め込み層を開発する。 さらに,長寿命メモリ(LSTM)ネットワークと自己認識機構(SAM)に基づく特徴抽出層を設計する。 最後に、量子複素数原理を用いてテキスト密度行列を計算し、2次元畳み込みニューラルネットワーク(CNN)を特徴凝縮と次元減少に適用する。 一連の可視化,比較,アブレーション実験を通じて,我々のモデルは,従来の関係モデルと比較して精度と効率の面で有意な優位性を示すだけでなく,QM原理を統合することである程度の解釈可能性も達成できることを実証した。 私たちのコードはQISAで利用可能です。

Text has become the predominant form of communication on social media, embedding a wealth of emotional nuances. Consequently, the extraction of emotional information from text is of paramount importance. Despite previous research making some progress, existing text sentiment analysis models still face challenges in integrating diverse semantic information and lack interpretability. To address these issues, we propose a quantum-inspired deep learning architecture that combines fundamental principles of quantum mechanics (QM principles) with deep learning models for text sentiment analysis. Specifically, we analyze the commonalities between text representation and QM principles to design a quantum-inspired text representation method and further develop a quantum-inspired text embedding layer. Additionally, we design a feature extraction layer based on long short-term memory (LSTM) networks and self-attention mechanisms (SAMs). Finally, we calculate the text density matrix using the quantum complex numbers principle and apply 2D-convolution neural networks (CNNs) for feature condensation and dimensionality reduction. Through a series of visualization, comparative, and ablation experiments, we demonstrate that our model not only shows significant advantages in accuracy and efficiency compared to previous related models but also achieves a certain level of interpretability by integrating QM principles. Our code is available at QISA.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 人物認証: 人工知能とプライバシ保護ツールの価値

Personhood credentials: Artificial intelligence and the value of privacy-preserving tools to distinguish who is real online ( http://arxiv.org/abs/2408.07892v1 )

ライセンス: Link先を確認
Steven Adler, Zoë Hitzig, Shrey Jain, Catherine Brewer, Wayne Chang, Renée DiResta, Eddy Lazzarin, Sean McGregor, Wendy Seltzer, Divya Siddarth, Nouran Soliman, Tobin South, Connor Spelliscy, Manu Sporny, Varya Srivastava, John Bailey, Brian Christian, Andrew Critch, Ronnie Falcon, Heather Flanagan, Kim Hamilton Duffy, Eric Ho, Claire R. Leibowicz, Srikanth Nadhamuni, Alan Z. Rozenshtein, David Schnurr, Evan Shapiro, Lacey Strahm, Andrew Trask, Zoe Weinberg, Cedric Whitney, Tom Zick, (参考訳) 匿名性はオンラインの重要な原則である。 しかし、悪質な俳優は長年、不正行為、偽情報拡散、その他の詐欺行為に誤認した身元を使っていた。 ますます有能なAIの出現により、悪役は彼らの活動の潜在的な規模と効果を増幅し、オンラインで匿名性と信頼性のバランスをとるという課題を強化することができる。 本稿では,この課題に対処する新たなツールの価値を分析する。個人認証(PHC) – 個人情報を開示することなく,ユーザが実際の人間(AIではなく)であることをオンラインサービスに示すためのデジタル認証情報である。 このような資格は、様々な信頼できる機関、政府、その他の機関によって発行することができる。 我々の定義によれば、PHCシステムは局所的あるいはグローバル的であり、バイオメトリックスに基づくものではない。 AIの無差別性(ライフライクなコンテンツとアバター、エージェント活動)と、AIのスケーラビリティ(コスト効率、アクセシビリティ)の増大である。 匿名認証と「人格保護」システムに関する長い研究の歴史に基づいて、人格認証は、オンラインプラットフォーム上での信頼感を示す手段を提供し、サービス提供者が悪役による誤用を減らすための新しいツールを提供する。 対照的に、CAPTCHAのような自動偽造に対する既存の対策は、高度なAIに対して不十分であり、厳格なアイデンティティ検証ソリューションは多くのユースケースで不十分にプライベートである。 人格認証のメリットを調査した後、デプロイメントのリスクや設計上の課題についても検討する。 我々は、政策立案者、技術者、および標準機関が一般との協議で検討すべき、実用的な次のステップで締めくくります。

Anonymity is an important principle online. However, malicious actors have long used misleading identities to conduct fraud, spread disinformation, and carry out other deceptive schemes. With the advent of increasingly capable AI, bad actors can amplify the potential scale and effectiveness of their operations, intensifying the challenge of balancing anonymity and trustworthiness online. In this paper, we analyze the value of a new tool to address this challenge: "personhood credentials" (PHCs), digital credentials that empower users to demonstrate that they are real people -- not AIs -- to online services, without disclosing any personal information. Such credentials can be issued by a range of trusted institutions -- governments or otherwise. A PHC system, according to our definition, could be local or global, and does not need to be biometrics-based. Two trends in AI contribute to the urgency of the challenge: AI's increasing indistinguishability (i.e., lifelike content and avatars, agentic activity) from people online, and AI's increasing scalability (i.e., cost-effectiveness, accessibility). Drawing on a long history of research into anonymous credentials and "proof-of-personhood" systems, personhood credentials give people a way to signal their trustworthiness on online platforms, and offer service providers new tools for reducing misuse by bad actors. In contrast, existing countermeasures to automated deception -- such as CAPTCHAs -- are inadequate against sophisticated AI, while stringent identity verification solutions are insufficiently private for many use-cases. After surveying the benefits of personhood credentials, we also examine deployment risks and design challenges. We conclude with actionable next steps for policymakers, technologists, and standards bodies to consider in consultation with the public.
翻訳日:2024-08-16 15:19:12 公開日:2024-08-15
# 動的時空間データによるマイクロサービスのシステム状態予測

System States Forecasting of Microservices with Dynamic Spatio-Temporal Data ( http://arxiv.org/abs/2408.07894v1 )

ライセンス: Link先を確認
Yifei Xu, Jingguo Ge, Haina Tang, Shuai Ding, Tong Li, Hui Li, (参考訳) AIOps(Artificial Intelligence for IT Operations)の時代には、システムの状態を正確に予測することが重要です。 マイクロサービスシステムでは、このタスクは、動的デプロイメント、多様なコールパス、インスタンス間のカスケード効果など、マイクロサービスインスタンス間の動的で複雑な時空間的関係の課題に直面する。 空間的関係が重要となる環境では,本質的なパターンに着目した現行の時系列予測手法は不十分である。 同様に、時空間グラフのアプローチは、時間的傾向の性質を無視し、主にノード間のメッセージパッシングに集中する。 さらに、マイクロサービス領域における現在の研究は、システムの進化するダイナミクスを捉える上で、ネットワークメトリクスとトポロジ構造の重要性を過小評価することが多い。 本稿では,マイクロサービス環境におけるシステム状態の予測に適したモデルであるSTMformerについて紹介する。 本手法は動的ネットワーク接続データとトポロジ情報を利用して,システム内の複雑な時空間関係のモデル化を支援する。 さらに、私たちはPatchCrossAttentionモジュールを統合して、世界的なカスケーディング効果の影響を計算します。 マイクロサービスシステムに基づくデータセットを開発し、STMformerによる先進的なメソッドに対する包括的な実験を行った。 短期および長期の予測タスクでは,MAE(Mean Absolute Error)の8.6%削減,MSE(Mean Squared Error)の2.2%削減を達成した。 ソースコードはhttps://github.com/xuyifeiiie/STMformer.comで入手できる。

In the AIOps (Artificial Intelligence for IT Operations) era, accurately forecasting system states is crucial. In microservices systems, this task encounters the challenge of dynamic and complex spatio-temporal relationships among microservice instances, primarily due to dynamic deployments, diverse call paths, and cascading effects among instances. Current time-series forecasting methods, which focus mainly on intrinsic patterns, are insufficient in environments where spatial relationships are critical. Similarly, spatio-temporal graph approaches often neglect the nature of temporal trend, concentrating mostly on message passing between nodes. Moreover, current research in microservices domain frequently underestimates the importance of network metrics and topological structures in capturing the evolving dynamics of systems. This paper introduces STMformer, a model tailored for forecasting system states in microservices environments, capable of handling multi-node and multivariate time series. Our method leverages dynamic network connection data and topological information to assist in modeling the intricate spatio-temporal relationships within the system. Additionally, we integrate the PatchCrossAttention module to compute the impact of cascading effects globally. We have developed a dataset based on a microservices system and conducted comprehensive experiments with STMformer against leading methods. In both short-term and long-term forecasting tasks, our model consistently achieved a 8.6% reduction in MAE(Mean Absolute Error) and a 2.2% reduction in MSE (Mean Squared Error). The source code is available at https://github.com/xuyifeiiie/STMformer.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 医師が患者をポリグラフ化する: ファクトチェックの患者に対するAIの倫理的懸念

The doctor will polygraph you now: ethical concerns with AI for fact-checking patients ( http://arxiv.org/abs/2408.07896v1 )

ライセンス: Link先を確認
James Anibal, Jasmine Gunkel, Hannah Huth, Hang Nguyen, Shaheen Awan, Yael Bensoussan, Bradford Wood, (参考訳) 患者報告データから合理的に理解可能な社会的行動を予測するために,臨床人工知能(AI)手法が提案されている。 これにより、健康データの使用方法に対する敬意、プライバシ、患者の意識/コントロールに関する倫理的な懸念が高まる。 社会的行動検証のための臨床AIシステムを取り巻く倫理的懸念は,(1)検証の特定のタスクに対するインフォームドコンセントのない患者データの使用,(2)システム内の不正確性や偏見の可能性,(3)ファクトチェックのための自動AIシステムの導入による患者と研究者の関係の信頼への影響,の3つのカテゴリに分けられた。 さらに、本報告では、検証システムのシミュレートされた誤用を示し、患者が報告した情報に対する潜在的LLMバイアスを特定し、マルチモーダルデータ、出版文献、その他のAI手法(すなわち、AI自己信頼)のアウトプットを確認した。 最後に、AI検証システムが患者を傷つけたり、医療システムの目的を損なうリスクを軽減するための勧告が提示された。

Clinical artificial intelligence (AI) methods have been proposed for predicting social behaviors which could be reasonably understood from patient-reported data. This raises ethical concerns about respect, privacy, and patient awareness/control over how their health data is used. Ethical concerns surrounding clinical AI systems for social behavior verification were divided into three main categories: (1) the use of patient data retrospectively without informed consent for the specific task of verification, (2) the potential for inaccuracies or biases within such systems, and (3) the impact on trust in patient-provider relationships with the introduction of automated AI systems for fact-checking. Additionally, this report showed the simulated misuse of a verification system and identified a potential LLM bias against patient-reported information in favor of multimodal data, published literature, and the outputs of other AI methods (i.e., AI self-trust). Finally, recommendations were presented for mitigating the risk that AI verification systems will cause harm to patients or undermine the purpose of the healthcare system.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# Nah Bandit:レコメンデーションシステムにおけるユーザ非準拠のモデル化

The Nah Bandit: Modeling User Non-compliance in Recommendation Systems ( http://arxiv.org/abs/2408.07897v1 )

ライセンス: Link先を確認
Tianyue Zhou, Jung-Hoon Cho, Cathy Wu, (参考訳) 推薦システムは今や、広告からエンターテイメントまで、デジタルの世界に浸透している。 しかし、移動や健康など、物理的な世界で効果的なレコメンデーションシステムを実装することは依然として困難である。 この作業は重要な課題に焦点を絞っている。物理的な世界では、ユーザーが自分の好みに合わない場合は、オプトアウトしてオプトアウトし、ベースラインの行動に戻ることは、しばしば容易である。 したがって、サイバー物理レコメンデーションシステムにおいて、そのようなユーザの振る舞いを認識したインタラクションモデルで操作することが重要であり、ユーザーはレコメンデーションを完全に放棄する。 そこで本稿では,Nah Banditについて紹介する。Nah Banditは,ユーザが推奨語に“nah”と入力して,その代わりに好みのオプションを選択する,というBandit問題を記述する。 そのため、この問題は典型的なバンディット設定と教師あり学習の中間にある。 ユーザに対するレコメンデーションのアンカー効果をパラメータ化することで、ユーザの非コンプライアンスをモデル化する。 次に、推奨オプションと非推奨オプションの両方からのフィードバックを取り入れた階層的アプローチであるExpert with Clustering (EWC)アルゴリズムを提案する。 ユーザあたり$N$、ユーザ毎$T$ラウンド、クラスタ毎$K$のレコメンデーションシナリオでは、EWCは、LinUCBアルゴリズムと比較して短期的に優れた理論的性能を達成するために、$O(N\sqrt{T\log K} + NT)$の後悔の限界を達成している。 実験の結果、EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方に優れていた。 この進歩は、非コンプライアンスフィードバックを効果的に活用することで、嗜好学習を加速し、レコメンデーション精度を向上させることを明らかにする。 この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。

Recommendation systems now pervade the digital world, ranging from advertising to entertainment. However, it remains challenging to implement effective recommendation systems in the physical world, such as in mobility or health. This work focuses on a key challenge: in the physical world, it is often easy for the user to opt out of taking any recommendation if they are not to her liking, and to fall back to her baseline behavior. It is thus crucial in cyber-physical recommendation systems to operate with an interaction model that is aware of such user behavior, lest the user abandon the recommendations altogether. This paper thus introduces the Nah Bandit, a tongue-in-cheek reference to describe a Bandit problem where users can say `nah' to the recommendation and opt for their preferred option instead. As such, this problem lies in between a typical bandit setup and supervised learning. We model the user non-compliance by parameterizing an anchoring effect of recommendations on users. We then propose the Expert with Clustering (EWC) algorithm, a hierarchical approach that incorporates feedback from both recommended and non-recommended options to accelerate user preference learning. In a recommendation scenario with $N$ users, $T$ rounds per user, and $K$ clusters, EWC achieves a regret bound of $O(N\sqrt{T\log K} + NT)$, achieving superior theoretical performance in the short term compared to LinUCB algorithm. Experimental results also highlight that EWC outperforms both supervised learning and traditional contextual bandit approaches. This advancement reveals that effective use of non-compliance feedback can accelerate preference learning and improve recommendation accuracy. This work lays the foundation for future research in Nah Bandit, providing a robust framework for more effective recommendation systems.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# CNOT回路の最小合成コスト

Minimum Synthesis Cost of CNOT Circuits ( http://arxiv.org/abs/2408.07898v1 )

ライセンス: Link先を確認
Alan Bu, Evan Fan, Robert Sanghyeon Joo, (参考訳) CNOT回路のサイズと深さを最適化することは量子コンピューティングにおける活発な研究領域であり、特にクリフォード+T普遍ゲート集合から合成された回路に関係している。 短い合成の発見には多くの技術があるが、指数的なブルートフォースサーチを使わずに、これらの合成がどの程度最適に近いかを評価することは困難である。 我々は合成において CNOT ゲートを分類する新しい方法を用いて、与えられた CNOT 回路を合成するのに必要となる最小のゲート数に対して、$O(n^{\omega})$時間で厳密な下界計算を行う。 フレームワークを適用すると、$n$サイクル回路の3(n-1)$ゲート合成が最適であることが証明され、それらの構造についての洞察が得られる。 また、この結果を置換回路に一般化する。 n = 3, 4, 5$ qubits の線形可逆回路の場合、我々の下限は100%、67.7%、23.1%の回路で最適であり、それぞれ100%、99.5%、83.0%の回路でCNOTゲート内で正確である。 また,特定の回路を$n$CNOTゲート以下で合成できるかどうかを効率的に決定するアルゴリズムを導入する。

Optimizing the size and depth of CNOT circuits is an active area of research in quantum computing and is particularly relevant for circuits synthesized from the Clifford + T universal gate set. Although many techniques exist for finding short syntheses, it is difficult to assess how close to optimal these syntheses are without an exponential brute-force search. We use a novel method of categorizing CNOT gates in a synthesis to obtain a strict lower bound computable in $O(n^{\omega})$ time on the minimum number of gates needed to synthesize a given CNOT circuit, where $\omega$ denotes the matrix multiplication constant and $n$ is the number of qubits involved. Applying our framework, we prove that $3(n-1)$ gate syntheses of the $n$-cycle circuit are optimal and provide insight into their structure. We also generalize this result to permutation circuits. For linear reversible circuits with $ n = 3, 4, 5$ qubits, our lower bound is optimal for 100%, 67.7%, and 23.1% of circuits and is accurate to within one CNOT gate in 100%, 99.5%, and 83.0% of circuits respectively. We also introduce an algorithm that efficiently determines whether certain circuits can be synthesized with fewer than $n$ CNOT gates.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 著明な細胞内粒子分析のためのディープジョイントデノジングと検出

Deep Joint Denoising and Detection for Enhanced Intracellular Particle Analysis ( http://arxiv.org/abs/2408.07903v1 )

ライセンス: Link先を確認
Yao Yao, Ihor Smal, Ilya Grigoriev, Anna Akhmanova, Erik Meijering, (参考訳) 時間経過蛍光顕微鏡画像における細胞内の動的過程の信頼性解析には、画像シーケンスの全時間フレームにおける全ての小さな粒子の完全かつ正確な追跡が必要である。 この目標に向けた基本的な第一歩は粒子検出である。 粒子の大きさが小さいと、その検出は画像ノイズに大きく影響を受ける。 近年の研究では、前処理ステップとして画像デノケーションを適用することで、粒子の検出と追跡が実際に改善されることが示されている。 深層学習に基づく粒子検出法は従来の検出法よりも優れた結果を示した。 しかし、検出を容易にするために画像からノイズを取り除くことを明示的に意図していない。 したがって、これらの性能をさらに改善できるという仮説を立てる。 本稿では,DENODET(denoising-detection network)と呼ばれる新しいディープニューラルネットワークを提案する。 積分分解と検出により,より正確な検出結果が得られることを示す。 本手法は, 粒子追跡課題データセットと実際の蛍光顕微鏡画像データについて, 最先端粒子検出法と比較して, 優れた結果が得られる。

Reliable analysis of intracellular dynamic processes in time-lapse fluorescence microscopy images requires complete and accurate tracking of all small particles in all time frames of the image sequences. A fundamental first step towards this goal is particle detection. Given the small size of the particles, their detection is greatly affected by image noise. Recent studies have shown that applying image denoising as a preprocessing step indeed improves particle detection and their subsequent tracking. Deep learning based particle detection methods have shown superior results compared to traditional detection methods. However, they do not explicitly aim to remove noise from the images to facilitate detection. Thus we hypothesize that their performance could be further improved. In this paper, we propose a new deep neural network, called DENODET (denoising-detection network), which performs image denoising and particle detection simultaneously. We show that integrative denoising and detection yields more accurate detection results. Our method achieves superior results compared to state-of-the-art particle detection methods on the particle tracking challenge dataset and our own real fluorescence microscopy image data.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 辞書生成のための言語モデルのワールドビューの評価

Assessing Language Models' Worldview for Fiction Generation ( http://arxiv.org/abs/2408.07904v1 )

ライセンス: Link先を確認
Aisha Khatun, Daniel G. Brown, (参考訳) LLM(Large Language Models)の使用は、計算クリエイティビティに豊富な応用とともに、広く普及している。 そのような応用の1つは架空の物語生成である。 フィクションは、私たちのものと少し異なる物語の世界で起こる物語である。 LLMがパートナーになるにつれ、フィクションを生み出すのにどの程度適しているのか疑問が持たれる。 本研究では,LLMがフィクションの創出に不可欠な世界を維持する能力について検討する。 一連の質問から9つのLSMに答えると、2つのモデルだけが一貫した世界観を示し、残りは自己主張であることがわかった。 その後の4つのモデルによる物語の分析により、驚くほど均一な物語パターンが明らかになった。 このモデル間の統一性は、フィクションに必要な「状態」の欠如をさらに示唆している。 我々は、フィクション執筆における現在のLLMの限界を強調し、LLMが居住するためのストーリーワールドをテストおよび作成するための将来の研究を提唱する。 すべてのコード、データセット、生成されたレスポンスはhttps://github.com/tanny411/llm-reliability-and-consistency-evaluationで確認できる。

The use of Large Language Models (LLMs) has become ubiquitous, with abundant applications in computational creativity. One such application is fictional story generation. Fiction is a narrative that occurs in a story world that is slightly different than ours. With LLMs becoming writing partners, we question how suitable they are to generate fiction. This study investigates the ability of LLMs to maintain a state of world essential to generate fiction. Through a series of questions to nine LLMs, we find that only two models exhibit consistent worldview, while the rest are self-conflicting. Subsequent analysis of stories generated by four models revealed a strikingly uniform narrative pattern. This uniformity across models further suggests a lack of `state' necessary for fiction. We highlight the limitations of current LLMs in fiction writing and advocate for future research to test and create story worlds for LLMs to reside in. All code, dataset, and the generated responses can be found in https://github.com/tanny411/llm-reliability-and-consistency-evaluation.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 3次元医用画像からの永続画像:超画素と最適化ガウス係数

Persistence Image from 3D Medical Image: Superpixel and Optimized Gaussian Coefficient ( http://arxiv.org/abs/2408.07905v1 )

ライセンス: Link先を確認
Yanfan Zhu, Yash Singh, Khaled Younis, Shunxing Bao, Yuankai Huo, (参考訳) トポロジカルデータ分析(TDA)は、医用画像における物体の重要な性質を明らかにする。 永続的ホモロジーに基づく手法は、従来の深層学習法が放射線学と病理学の両方で検出できないトポロジ的特徴を捉える上で、その利点を証明している。 しかし、従来の研究では、総合的な3Dコンテキストを無視した2D画像解析に重点を置いていた。 本稿では,3次元医用画像の特徴を点クラウドデータに変換するために,スーパーピクセルの概念を取り入れた革新的な3D TDA手法を提案する。 最適化されたガウス係数を利用することで,提案した3次元TDA法は,3次元容積データに対する総合パーシステンス画像を効率よく生成する。 我々の3D TDA法は,従来の手法と比較してMedMNist3Dデータセットよりも優れた性能を示し,分類タスクにおける3D持続ホモロジーに基づくトポロジ解析のモデル化の有効性を示した。 ソースコードはhttps://github.com/hrlblab/TopologicalDataAnalysis3Dで公開されている。

Topological data analysis (TDA) uncovers crucial properties of objects in medical imaging. Methods based on persistent homology have demonstrated their advantages in capturing topological features that traditional deep learning methods cannot detect in both radiology and pathology. However, previous research primarily focused on 2D image analysis, neglecting the comprehensive 3D context. In this paper, we propose an innovative 3D TDA approach that incorporates the concept of superpixels to transform 3D medical image features into point cloud data. By Utilizing Optimized Gaussian Coefficient, the proposed 3D TDA method, for the first time, efficiently generate holistic Persistence Images for 3D volumetric data. Our 3D TDA method exhibits superior performance on the MedMNist3D dataset when compared to other traditional methods, showcasing its potential effectiveness in modeling 3D persistent homology-based topological analysis when it comes to classification tasks. The source code is publicly available at https://github.com/hrlblab/TopologicalDataAnalysis3D.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 不規則関数と雑音関数のカン対MLP

KAN versus MLP on Irregular or Noisy Functions ( http://arxiv.org/abs/2408.07906v1 )

ライセンス: Link先を確認
Chen Zeng, Jiahui Wang, Haoran Shen, Qiao Wang, (参考訳) 本稿では,KANとMLP(Multi-Layer Perceptron)ネットワークの性能を不規則あるいは雑音で比較する。 パラメータの数とトレーニングサンプルのサイズを制御し、公正な比較を確実にする。 明確性については、正則関数、局所微分不能点を持つ連続関数、ジャンプ不連続点を持つ関数、特異点を持つ関数、コヒーレント振動を持つ関数、雑音関数の6つの型に分類する。 実験結果から,KANが常に最善を尽くすとは限らないことが示唆された。 ある種の関数に対して、MLPはKaninよりも優れ、あるいは同等に機能する。 さらに、トレーニングサンプルのサイズが大きくなると、ある程度パフォーマンスが向上する。 関数に雑音を加えると、不規則な特徴がノイズによって隠蔽されることがしばしばあり、MPPとKANがこれらの特徴を効果的に抽出することは困難である。 これらの実験が将来のニューラルネットワーク研究に貴重な洞察を与え、これらの課題を克服するためのさらなる調査を奨励することを期待しています。

In this paper, we compare the performance of Kolmogorov-Arnold Networks (KAN) and Multi-Layer Perceptron (MLP) networks on irregular or noisy functions. We control the number of parameters and the size of the training samples to ensure a fair comparison. For clarity, we categorize the functions into six types: regular functions, continuous functions with local non-differentiable points, functions with jump discontinuities, functions with singularities, functions with coherent oscillations, and noisy functions. Our experimental results indicate that KAN does not always perform best. For some types of functions, MLP outperforms or performs comparably to KAN. Furthermore, increasing the size of training samples can improve performance to some extent. When noise is added to functions, the irregular features are often obscured by the noise, making it challenging for both MLP and KAN to extract these features effectively. We hope these experiments provide valuable insights for future neural network research and encourage further investigations to overcome these challenges.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 複合力学を用いた視覚神経活動からの潜伏因子構築のための時間依存性VAE

Time-Dependent VAE for Building Latent Factor from Visual Neural Activity with Complex Dynamics ( http://arxiv.org/abs/2408.07908v1 )

ライセンス: Link先を確認
Liwei Huang, ZhengYu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian, (参考訳) 神経活動と行動または感覚刺激の本質的な相関を明らかにするために、高品質な神経潜伏表現を求めることは、多くの関心を集めている。 現在、いくつかの深い潜伏変数モデルは、一定の時間スケールで制限されながら表現的な埋め込みを構築する助けとして、行動情報(例えば、移動方向と位置)に依存している。 受動的視界からの視覚的神経活動は、明確な相関行動やタスク情報に欠けており、高次元視覚刺激は複雑な神経力学をもたらす。 このような条件に対処するため,Swap-VAEにおけるコンテンツとスタイル空間の分離というアプローチに従って時間依存SwapVAEを提案する。 本モデルでは, ニューラルネットワークを用いて潜伏変数を段階的に生成し, 自己教師付きコントラスト学習を用いて潜伏空間を形成する。 このようにして、タスクや行動データが補助入力としてなくても、任意の長さのシーケンスから複雑なニューラルダイナミクスを効果的に分析することができる。 我々は、TiDe-SwapVAEを、マウス視覚野の合成データと神経データに関する代替モデルと比較した。 以上の結果から,我々のモデルは複雑な視覚刺激を正確にデコードするだけでなく,時間的時間的神経動態も抽出し,視覚刺激に関連性のある潜在表現を構築できることが示唆された。

Seeking high-quality neural latent representations to reveal the intrinsic correlation between neural activity and behavior or sensory stimulation has attracted much interest. Currently, some deep latent variable models rely on behavioral information (e.g., movement direction and position) as an aid to build expressive embeddings while being restricted by fixed time scales. Visual neural activity from passive viewing lacks clearly correlated behavior or task information, and high-dimensional visual stimulation leads to intricate neural dynamics. To cope with such conditions, we propose Time-Dependent SwapVAE, following the approach of separating content and style spaces in Swap-VAE, on the basis of which we introduce state variables to construct conditional distributions with temporal dependence for the above two spaces. Our model progressively generates latent variables along neural activity sequences, and we apply self-supervised contrastive learning to shape its latent space. In this way, it can effectively analyze complex neural dynamics from sequences of arbitrary length, even without task or behavioral data as auxiliary inputs. We compare TiDe-SwapVAE with alternative models on synthetic data and neural data from mouse visual cortex. The results show that our model not only accurately decodes complex visual stimuli but also extracts explicit temporal neural dynamics, demonstrating that it builds latent representations more relevant to visual stimulation.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# DM2RM:オープン語彙命令に基づくターゲットオブジェクトとレセプタクルのデュアルモードマルチモーダルランク付け

DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions ( http://arxiv.org/abs/2408.07910v1 )

ライセンス: Link先を確認
Ryosuke Korekata, Kanta Kaneda, Shunya Nagashima, Yuto Imai, Komei Sugiura, (参考訳) そこで本研究では,オープンな語彙で指示された家庭内サービスロボット(DSR)を開発し,特定の家具に日常の物を運ぶことを目的としている。 画像検索設定におけるオープン語彙命令によるモバイル操作タスクを処理する方法はほとんどなく、ほとんどの場合ターゲットオブジェクトとレセプタクルの両方を識別しない。 本稿では,対象オブジェクトとレセプタクルの両方のイメージを,マルチモーダル基礎モデルに基づく単一モデルで検索可能なDM2RMモデルを提案する。 本稿では,大言語モデルによるモードトークンとフレーズ識別を利用して,予測対象に基づいて埋め込み空間を切り替える切替機構を提案する。 DM2RMを評価するために,数百のビルスケール環境から収集した実世界の画像と,参照表現を用いたクラウドソースによる指示を含む新しいデータセットを構築した。 その結果,提案したDM2RMは,画像検索設定における基準基準において,従来の手法よりも優れていたことがわかった。 さらに,DM2RMは,0ショット転送設定にもかかわらず82%のタスク成功率を達成するフェッチ・アンド・キャリー動作を含む,標準化された実世界のDSRプラットフォームに適用可能であることを示す。 デモビデオ、コード、その他の資料はhttps://kkrr10.github.io/dm2rm/.comで入手できる。

In this study, we aim to develop a domestic service robot (DSR) that, guided by open-vocabulary instructions, can carry everyday objects to the specified pieces of furniture. Few existing methods handle mobile manipulation tasks with open-vocabulary instructions in the image retrieval setting, and most do not identify both the target objects and the receptacles. We propose the Dual-Mode Multimodal Ranking model (DM2RM), which enables images of both the target objects and receptacles to be retrieved using a single model based on multimodal foundation models. We introduce a switching mechanism that leverages a mode token and phrase identification via a large language model to switch the embedding space based on the prediction target. To evaluate the DM2RM, we construct a novel dataset including real-world images collected from hundreds of building-scale environments and crowd-sourced instructions with referring expressions. The evaluation results show that the proposed DM2RM outperforms previous approaches in terms of standard metrics in image retrieval settings. Furthermore, we demonstrate the application of the DM2RM on a standardized real-world DSR platform including fetch-and-carry actions, where it achieves a task success rate of 82% despite the zero-shot transfer setting. Demonstration videos, code, and more materials are available at https://kkrr10.github.io/dm2rm/.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# CEGRL-TKGR:時間知識グラフ補間推論を改善する因果グラフ表現学習フレームワーク

CEGRL-TKGR: A Causal Enhanced Graph Representation Learning Framework for Improving Temporal Knowledge Graph Extrapolation Reasoning ( http://arxiv.org/abs/2408.07911v1 )

ライセンス: Link先を確認
Jinze Sun, Yongpan Sheng, Lirong He, (参考訳) 時間的知識グラフ推論(TKGR)は、歴史的データから新しい事象を抽出し、本質的に不完全な時間的知識グラフを豊かにする能力に注目が集まっている。 既存のグラフベースの表現学習フレームワークは、エンティティとリレーショナル埋め込みの両方の表現の進化に大きく貢献している。 これらの成果にもかかわらず、これらのモデルでは、バイアス付きデータ表現と急激な相関を不注意に学習し、結果としてイベント間の因果関係を識別できないという顕著な傾向があります。 これはしばしば、これらの誤った相関に基づく誤った予測につながる。 そこで本研究では,TKGR(CEGRL-TKGR)のための革新的な因果拡張グラフ表現学習フレームワークを提案する。 このフレームワークは、グラフに基づく表現学習における因果構造を導入し、イベント間の因果関係を明らかにする。 具体的には、まず、時間グラフ列における実体と関係の進化的表現を、2つの異なる成分、すなわち因果表現と共起表現に分解する。 そこで, 因果的介入理論を基礎として, 因果的表現の予測への活用を提唱し, 因果的特徴による誤相関の影響を緩和し, より堅牢で正確な予測を実現することを目的とする。 最後に,6つのベンチマークデータセットに対する広範な実験結果から,リンク予測タスクにおけるモデルの性能が向上したことを示す。

Temporal knowledge graph reasoning (TKGR) is increasingly gaining attention for its ability to extrapolate new events from historical data, thereby enriching the inherently incomplete temporal knowledge graphs. Existing graph-based representation learning frameworks have made significant strides in developing evolving representations for both entities and relational embeddings. Despite these achievements, there's a notable tendency in these models to inadvertently learn biased data representations and mine spurious correlations, consequently failing to discern the causal relationships between events. This often leads to incorrect predictions based on these false correlations. To address this, we propose an innovative causal enhanced graph representation learning framework for TKGR (named CEGRL-TKGR). This framework introduces causal structures in graph-based representation learning to unveil the essential causal relationships between events, ultimately enhancing task performance. Specifically, we first disentangle the evolutionary representations of entities and relations in a temporal graph sequence into two distinct components, namely causal representations and confounding representations. Then, drawing on causal intervention theory, we advocate the utilization of causal representations for predictions, aiming to mitigate the effects of erroneous correlations caused by confounding features, thus achieving more robust and accurate predictions. Finally, extensive experimental results on six benchmark datasets demonstrate the superior performance of our model in the link prediction task.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# スタックオーバーフローを用いたクラウド知識強化ソフトウェア工学研究の体系的マッピング

A Systematic Mapping Study of Crowd Knowledge Enhanced Software Engineering Research Using Stack Overflow ( http://arxiv.org/abs/2408.07913v1 )

ライセンス: Link先を確認
Minaoar Tanzil, Shaiful Chowdhury, Somayeh Modaberi, Gias Uddin, Hadi Hemmati, (参考訳) 開発者はクラウドソースのコミュニティベースのQ&Aサイト(Q&A)で継続的に対話する。 報告によると、すべてのソフトウェアプロフェッショナルの30%が、最も人気のあるQ&AサイトStackOverflow(SO)を毎日訪問している。 ソフトウェア工学(SE)の研究もSOデータの利用が増えている。 SOデータを利用した傾向,含意,影響,今後の研究の可能性を明らかにするためには,系統地図研究が必要である。 厳密な再現性のあるマッピング研究のアプローチに続き,18のSEジャーナルやカンファレンスから,384のSOベースの研究論文を収集し,それらを10のファセット(テーマ)に分類した。 私たちは、SOが、QuoraやRedditのような人気のあるQ&Aサイトと比較して、SE研究の85%に寄与していることを発見しました。 その結果、18のSEドメインがSOデータから直接恩恵を受けているのに対し、Recommender SystemsとAPI DesignとEvolutionドメインはSOデータが最も多く利用している(各SOベース研究の15%と16%)。 API設計と進化、SEドメインでの機械学習は一貫して上向きに公開されています。 ディープラーニングバグ分析とコードクローンの研究領域は、最近、最も可能性の高い研究影響がある。 本研究から得られた知見,レコメンデーション,およびファセットに基づく分類論文リストから,SE研究者は大規模SOデータの利用に関心を持って,潜在的研究領域を見つけることができる。

Developers continuously interact in crowd-sourced community-based question-answer (Q&A) sites. Reportedly, 30% of all software professionals visit the most popular Q&A site StackOverflow (SO) every day. Software engineering (SE) research studies are also increasingly using SO data. To find out the trend, implication, impact, and future research potential utilizing SO data, a systematic mapping study needs to be conducted. Following a rigorous reproducible mapping study approach, from 18 reputed SE journals and conferences, we collected 384 SO-based research articles and categorized them into 10 facets (i.e., themes). We found that SO contributes to 85% of SE research compared with popular Q&A sites such as Quora, and Reddit. We found that 18 SE domains directly benefited from SO data whereas Recommender Systems, and API Design and Evolution domains use SO data the most (15% and 16% of all SO-based research studies, respectively). API Design and Evolution, and Machine Learning with/for SE domains have consistent upward publication. Deep Learning Bug Analysis and Code Cloning research areas have the highest potential research impact recently. With the insights, recommendations, and facet-based categorized paper list from this mapping study, SE researchers can find potential research areas according to their interest to utilize large-scale SO data.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# GridSE: 対称性検索可能な暗号化(フルバージョン)をプリフィックスしたセキュアな地理検索を目指して

GridSE: Towards Practical Secure Geographic Search via Prefix Symmetric Searchable Encryption (Full Version) ( http://arxiv.org/abs/2408.07916v1 )

ライセンス: Link先を確認
Ruoyang Guo, Jiarui Li, Shucheng Yu, (参考訳) 位置情報ベースのサービスやアプリケーションの普及は、データと位置情報のプライバシーに大きな注目を集めている。 一般的なセキュアな計算とプライバシエンハンシング技術はこの問題に部分的に対処できるが、特に離散グローバルグリッドシステム(DGGS)において、ほぼ遅延のない検索と主要な地理検索技術との互換性を提供することが大きな課題である。 本稿では,DGGS互換のセキュア地理検索(Secure Geographic Search, SGS)を後方と前方の両方のプライバシで構築するGridSEを提案する。 まず,キーワードが与えられた接頭辞を含むか否かを予測し,構成を提供するために,<textit{symmetric prefix predicate encryption} (SP$^2$E) というセマンティックセキュアプリミティブの概念を定式化する。 次に、動的 \textit{prefix symmetric searchable encryption} (pSSE) に対して SP$2$E を拡張する。 GridSEは暗号ハッシュやXOR操作などの軽量プリミティブしか使用せず、非常に効率的である。 さらに,完全キーワード検索のみをサポートする従来の動的SSEのプレフィックス検索を可能にする汎用的なpSSEフレームワークを提供する。 10^3$から10^7$までの実際の地理的データベース(エントリ数による)と、主流のDGGS技術による実験結果から、GridSEは検索待ち時間で$150\times$ -5,000\times$、通信オーバーヘッドで$99\%$のスピードアップを達成していることがわかる。 興味深いことに、平文検索と比較しても、GridSEは$14\times$余分な計算コストと$0.9\times$追加の通信コストしか導入していない。 私たちのスキームのソースコードはhttps://github.com/rykieguo1771/GridSE-RAMで公開されています。

The proliferation of location-based services and applications has brought significant attention to data and location privacy. While general secure computation and privacy-enhancing techniques can partially address this problem, one outstanding challenge is to provide near latency-free search and compatibility with mainstream geographic search techniques, especially the Discrete Global Grid Systems (DGGS). This paper proposes a new construction, namely GridSE, for efficient and DGGS-compatible Secure Geographic Search (SGS) with both backward and forward privacy. We first formulate the notion of a semantic-secure primitive called \textit{symmetric prefix predicate encryption} (SP$^2$E), for predicting whether or not a keyword contains a given prefix, and provide a construction. Then we extend SP$^2$E for dynamic \textit{prefix symmetric searchable encryption} (pSSE), namely GridSE, which supports both backward and forward privacy. GridSE only uses lightweight primitives including cryptographic hash and XOR operations and is extremely efficient. Furthermore, we provide a generic pSSE framework that enables prefix search for traditional dynamic SSE that supports only full keyword search. Experimental results over real-world geographic databases of sizes (by the number of entries) from $10^3$ to $10^7$ and mainstream DGGS techniques show that GridSE achieves a speedup of $150\times$ - $5000\times$ on search latency and a saving of $99\%$ on communication overhead as compared to the state-of-the-art. Interestingly, even compared to plaintext search, GridSE introduces only $1.4\times$ extra computational cost and $0.9\times$ additional communication cost. Source code of our scheme is available at https://github.com/rykieguo1771/GridSE-RAM.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# GOReloc: Visual SLAMのためのグラフベースのオブジェクトレベル再ローカライズ

GOReloc: Graph-based Object-Level Relocalization for Visual SLAM ( http://arxiv.org/abs/2408.07917v1 )

ライセンス: Link先を確認
Yutong Wang, Chaoyang Jiang, Xieyuanli Chen, (参考訳) 本稿では,ロボットシステムのオブジェクトレベル再ローカライズのための新しい手法を紹介する。 軽量なオブジェクトレベルマップにおいて、現在のフレーム内の物体検出と3Dオブジェクトとの密接な関連付けにより、カメラセンサのポーズを決定する。 オブジェクトグラフは、セマンティックな不確実性を考慮して、入ってくるカメラフレームとプレビルドマップの両方に対して構築される。 オブジェクトはグラフノードとして表現され、各ノードは、考案したグラフカーネルに基づいたユニークなセマンティック記述子を使用します。 対象地図グラフから対象物検出の潜在対象関連を同定し,それらの関連性を洗練し,RANSACにインスパイアされた戦略を用いて推定を行う。 各種データセットに対する実験により,本手法はより正確なデータアソシエーションを実現し,ベースライン法と比較して再局在成功率を大幅に向上することが示された。 提案手法の実装は \url{https://github.com/yutongwangBIT/GOReloc} で公開される。

This article introduces a novel method for object-level relocalization of robotic systems. It determines the pose of a camera sensor by robustly associating the object detections in the current frame with 3D objects in a lightweight object-level map. Object graphs, considering semantic uncertainties, are constructed for both the incoming camera frame and the pre-built map. Objects are represented as graph nodes, and each node employs unique semantic descriptors based on our devised graph kernels. We extract a subgraph from the target map graph by identifying potential object associations for each object detection, then refine these associations and pose estimations using a RANSAC-inspired strategy. Experiments on various datasets demonstrate that our method achieves more accurate data association and significantly increases relocalization success rates compared to baseline methods. The implementation of our method is released at \url{https://github.com/yutongwangBIT/GOReloc}.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 最小限のドメインエキスパートによるトレーニング外TCADソリューション予測のための物理インフォームニューラルネットワーク

Physics-Informed Neural Network for Predicting Out-of-Training-Range TCAD Solution with Minimized Domain Expertise ( http://arxiv.org/abs/2408.07921v1 )

ライセンス: Link先を確認
Albert Lu, Yu Foon Chau, Hiu Yung Wong, (参考訳) 機械学習(ML)は、コンピュータ支援設計(TCAD)シミュレーションを支援することで、収束の困難さと長期化シミュレーション時間を軽減することを約束している。 MLはTCADで広く使われているが、内部ソルバへのアクセスを必要とし、広範囲のドメイン知識を必要とし、電流や電圧などの終端量によってのみ訓練される。 本稿では、Siナノワイヤを例として、物理インフォームドニューラルネットワーク(PINN)を用いて、内部ソルバにアクセスすることなく、最小限のドメイン知識でトレーニング外TCADソリューションを予測できることを実証する。 マシンはトレーニングの2.5倍の範囲を予測できるだけでなく、サブスレッショルド領域のデータでのみトレーニングすることで、反転領域を予測できる。 物理インフォームドモジュールは、より高度なシステムに拡張しやすいように、人間のコード化された方程式を必要とせずに、データで訓練される。

Machine learning (ML) is promising in assisting technology computer-aided design (TCAD) simulations to alleviate difficulty in convergence and prolonged simulation time. While ML is widely used in TCAD, they either require access to the internal solver, require extensive domain expertise, are only trained by terminal quantities such as currents and voltages, and/or lack out-of-training-range prediction capability. In this paper, using Si nanowire as an example, we demonstrate that it is possible to use a physics-informed neural network (PINN) to predict out-of-training-range TCAD solutions without accessing the internal solver and with minimal domain expertise. The machine not only can predict a 2.5 times larger range than the training but also can predict the inversion region by only being trained with subthreshold region data. The physics-informed module is also trained with data without the need for human-coded equations making this easier to be extended to more sophisticated systems.
翻訳日:2024-08-16 15:09:23 公開日:2024-08-15
# 修正ResNet50とグラディエントブースティングを用いた視覚知覚分類のためのDeep Features-based Approach

A Deep Features-Based Approach Using Modified ResNet50 and Gradient Boosting for Visual Sentiments Classification ( http://arxiv.org/abs/2408.07922v1 )

ライセンス: Link先を確認
Muhammad Arslan, Muhammad Mubeen, Arslan Akram, Saadullah Farooq Abbasi, Muhammad Salman Ali, Muhammad Usman Tariq, (参考訳) 視覚知覚分析(VSA)の多用途性は、そのプロファイルが上昇する理由の1つである。 これまでの研究では、テキストのような単一モーダルの知覚分析(SA)に集中していたため、ソーシャルメディアデータを視覚情報で効率的に管理することは容易ではない。 さらに、ほとんどの視覚的感情研究は、複雑な関係を調査することなく、モーダル属性をマージすることに集中しているため、感情を適切に分類する必要がある。 これにより、ディープラーニングと機械学習のアルゴリズムの統合が提案された。 本研究では,改良されたResNet50から深い特徴を抽出するために,多クラス分類のための深い特徴に基づく手法を用いた。 さらに、感情的内容を含む写真を分類するために勾配促進アルゴリズムが用いられている。 このアプローチは、CrowdFlowerとGAPEDの2つのベンチマークデータセットで徹底的に評価されている。 最後に、提案した戦略を比較するために、最先端のディープラーニングモデルと機械学習モデルを使用した。 最先端手法と比較すると,提案手法は提示したデータセットに対して例外的な性能を示す。

The versatile nature of Visual Sentiment Analysis (VSA) is one reason for its rising profile. It isn't easy to efficiently manage social media data with visual information since previous research has concentrated on Sentiment Analysis (SA) of single modalities, like textual. In addition, most visual sentiment studies need to adequately classify sentiment because they are mainly focused on simply merging modal attributes without investigating their intricate relationships. This prompted the suggestion of developing a fusion of deep learning and machine learning algorithms. In this research, a deep feature-based method for multiclass classification has been used to extract deep features from modified ResNet50. Furthermore, gradient boosting algorithm has been used to classify photos containing emotional content. The approach is thoroughly evaluated on two benchmarked datasets, CrowdFlower and GAPED. Finally, cutting-edge deep learning and machine learning models were used to compare the proposed strategy. When compared to state-of-the-art approaches, the proposed method demonstrates exceptional performance on the datasets presented.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# いつ, なぜ説得が難しいのか? 計算複雑性の結果

When and Why is Persuasion Hard? A Computational Complexity Result ( http://arxiv.org/abs/2408.07923v1 )

ライセンス: Link先を確認
Zachary Wojtowicz, (参考訳) 生成基盤モデルが改善されるにつれて、AI自動化が政府、企業、その他のアクターが、前例のない規模で、事実上無コストで、信念を操作できるようにするという懸念を提起する傾向にある。 この傾向の完全な経済的・社会的影響は予測が難しいが、そもそも、なぜ人的労働が生産するのにコストがかかるのかについての完全な理論的理解が現在欠けているため、予測は困難である。 本稿では,情報説得を数学的決定問題として定式化し,その計算複雑性を特徴付けることによって,人間とAIエージェントを共通の概念基盤に配置する。 新たな証明では、説得力のあるメッセージは発見が困難である(NP-Hard)が、他者が提供すれば容易に採用できる(NP)。 この非対称性は、人々がなぜ説得を受けやすいのかを説明するのに役立つ。 この結果は、訴訟、戦略的コミュニケーション、その他の説得指向の活動が歴史的に人的資本集約的であった理由を照らし、AIが様々な産業にどのように影響するかを研究するための新たな理論的基盤を提供する。

As generative foundation models improve, they also tend to become more persuasive, raising concerns that AI automation will enable governments, firms, and other actors to manipulate beliefs with unprecedented scale and effectiveness at virtually no cost. The full economic and social ramifications of this trend have been difficult to foresee, however, given that we currently lack a complete theoretical understanding of why persuasion is costly for human labor to produce in the first place. This paper places human and AI agents on a common conceptual footing by formalizing informational persuasion as a mathematical decision problem and characterizing its computational complexity. A novel proof establishes that persuasive messages are challenging to discover (NP-Hard) but easy to adopt if supplied by others (NP). This asymmetry helps explain why people are susceptible to persuasion, even in contexts where all relevant information is publicly available. The result also illuminates why litigation, strategic communication, and other persuasion-oriented activities have historically been so human capital intensive, and it provides a new theoretical basis for studying how AI will impact various industries.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# HjorthパラメータとGradient Boostingの改良による単一チャンネルを用いた新生児睡眠ウェイク分類

A Single Channel-Based Neonatal Sleep-Wake Classification using Hjorth Parameters and Improved Gradient Boosting ( http://arxiv.org/abs/2408.07925v1 )

ライセンス: Link先を確認
Muhammad Arslan, Muhammad Mubeen, Saadullah Farooq Abbasi, Muhammad Shahbaz Khan, Wadii Boulila, Jawad Ahmad, (参考訳) 睡眠は新生児の発達において重要な役割を担っている。 新生児集中治療室(NICU)における新生児の睡眠パターンのモニタリングは成熟過程の理解に不可欠である。 睡眠分類学(PSG)は睡眠分類のベストプラクティスと考えられているが、その費用と人間のアノテーションへの依存は課題を提起する。 既存の研究は、しばしばマルチチャネル脳波信号に依存しているが、新生児の脆弱性と睡眠の質への影響について懸念が生じる。 本稿では,Hjorth特徴を有する単一チャネル勾配促進アルゴリズムを用いた新生児睡眠ステージ分類への新しいアプローチを提案する。 勾配上昇パラメータはランダムサーチクロスバリデーション (randomsearchCV) を用いて微調整され、新生児睡眠覚醒分類では82.35%の精度が達成される。 検証は5倍のクロスバリデーションによって行われる。 提案アルゴリズムは、既存の新生児睡眠アルゴリズムを改良するだけでなく、幅広い用途に道を開く。

Sleep plays a crucial role in neonatal development. Monitoring the sleep patterns in neonates in a Neonatal Intensive Care Unit (NICU) is imperative for understanding the maturation process. While polysomnography (PSG) is considered the best practice for sleep classification, its expense and reliance on human annotation pose challenges. Existing research often relies on multichannel EEG signals; however, concerns arise regarding the vulnerability of neonates and the potential impact on their sleep quality. This paper introduces a novel approach to neonatal sleep stage classification using a single-channel gradient boosting algorithm with Hjorth features. The gradient boosting parameters are fine-tuned using random search cross-validation (randomsearchCV), achieving an accuracy of 82.35% for neonatal sleep-wake classification. Validation is conducted through 5-fold cross-validation. The proposed algorithm not only enhances existing neonatal sleep algorithms but also opens avenues for broader applications.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# MAG-SQL: テキストからSQLへのソフトスキーマリンクと反復サブSQLリファインメントによるマルチエージェント生成アプローチ

MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL ( http://arxiv.org/abs/2408.07930v1 )

ライセンス: Link先を確認
Wenxuan Xie, Gaochen Wu, Bowen Zhou, (参考訳) 最近の In-Context Learning ベースの手法は Text-to-SQL タスクで顕著な成功を収めている。 しかし、複雑なデータベーススキーマとBIRDのような難しい問題を持つデータセットでは、これらのモデルの性能と人的パフォーマンスの間にはまだ大きなギャップがある。 さらに、既存の研究は、質問を反復的に解決する際の中間段階を質問分解法で監督することを無視しており、これらの研究で使用されるスキーマリンク手法は非常に初歩的なものである。 これらの問題に対処するために,ソフトスキーマリンクと反復サブSQL改良を用いたマルチエージェント生成手法であるMAG-SQLを提案する。 本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入している。 さらに,Sub-SQL GeneratorとSub-SQL Refinerを含む反復生成モジュールを構築し,生成の各ステップに対して外部監視を導入する。 一連のアブレーション研究を通じて,本フレームワークにおける各エージェントの有効性を実証した。 GPT-4を用いてBIRDベンチマークで評価すると、MAG-SQLは、バニラGPT-4のベースライン精度46.35\%、MAC-SQLのベースライン精度57.56\%に対して、実行精度61.08\%を達成する。 さらに、我々のアプローチはスパイダーに類似している。

Recent In-Context Learning based methods have achieved remarkable success in Text-to-SQL task. However, there is still a large gap between the performance of these models and human performance on datasets with complex database schema and difficult questions, such as BIRD. Besides, existing work has neglected to supervise intermediate steps when solving questions iteratively with question decomposition methods, and the schema linking methods used in these works are very rudimentary. To address these issues, we propose MAG-SQL, a multi-agent generative approach with soft schema linking and iterative Sub-SQL refinement. In our framework, an entity-based method with tables' summary is used to select the columns in database, and a novel targets-conditions decomposition method is introduced to decompose those complex questions. Additionally, we build a iterative generating module which includes a Sub-SQL Generator and Sub-SQL Refiner, introducing external oversight for each step of generation. Through a series of ablation studies, the effectiveness of each agent in our framework has been demonstrated. When evaluated on the BIRD benchmark with GPT-4, MAG-SQL achieves an execution accuracy of 61.08\%, compared to the baseline accuracy of 46.35\% for vanilla GPT-4 and the baseline accuracy of 57.56\% for MAC-SQL. Besides, our approach makes similar progress on Spider.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 外科的SAM2:効率的なフレームプルーニングによる手術ビデオにおけるリアルタイムセグメンテーション

Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning ( http://arxiv.org/abs/2408.07931v1 )

ライセンス: Link先を確認
Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin, (参考訳) 外科的ビデオセグメンテーションは、コンピュータ支援手術において重要な課題であり、外科的品質と患者の結果を高めるために不可欠である。 最近、Segment Anything Model 2 (SAM2) フレームワークは、画像とビデオのセグメンテーションにおいて優れた進歩を見せている。 しかし、SAM2は高解像度画像処理の計算要求と、手術ビデオにおける複雑な時間的ダイナミックスと長距離の時間的ダイナミクスのため、効率に苦慮している。 これらの課題に対処するために, SAM2 と EFP (Efficient Frame Pruning) 機構を併用した手術用SAM2 (SurgSAM-2) を導入し, リアルタイムな手術用ビデオセグメンテーションを容易にする。 EFP機構は、最も情報性の高いフレームのみを選択的に保持し、高いセグメンテーション精度を維持しつつ、メモリ使用量と計算コストを低減し、メモリバンクを動的に管理する。 SurgSAM-2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上することを示した。 注目すべきは、SurgSAM-2はSAM2と比較して3$\times$ FPSを達成すると同時に、低解像度のデータで微調整した後に最先端のパフォーマンスを提供することだ。 これらの進歩はSurgSAM-2を外科的ビデオ分析の指導的モデルとして確立し、資源制約環境におけるリアルタイムな外科的ビデオセグメンテーションが実現可能な現実となった。

Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3$\times$ FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM-2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a feasible reality.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# MobileMEF:マルチ露光核融合のための高速かつ効率的な方法

MobileMEF: Fast and Efficient Method for Multi-Exposure Fusion ( http://arxiv.org/abs/2408.07932v1 )

ライセンス: Link先を確認
Lucas Nedel Kirsten, Zhicheng Fu, Nikhil Ambha Madhusudhana, (参考訳) 近年のカメラ設計・撮像技術の進歩により,スマートフォンを用いた高品質画像の撮影が可能となった。 しかし、デジタルカメラのダイナミックな範囲が限られているため、高度にバランスの取れない照明で撮影された写真の品質は、品質の悪い画像をもたらすことが多い。 この問題に対処するため、ほとんどのデバイスはマルチ露光フレームをキャプチャし、そのフレームを最終融合画像にマージするためにマルチ露光融合法を使用する。 それでも、従来のディープラーニングアプローチや現在のディープラーニングアプローチは、計算とメモリの重い要求のため、モバイルデバイス上のリアルタイムアプリケーションには適さない。 本稿では,モバイルデバイスに適した効率的なビルディングブロックを備えたエンコーダ・デコーダ深層学習アーキテクチャに基づくマルチ露光融合手法を提案する。 この効率的な設計により、我々のモデルはミッドレンジスマートフォンで2秒未満で4K解像度の画像を処理できる。 提案手法は,ハードウェアに制約のあるデバイス上でのリアルタイムアプリケーションに最適な,リアルタイム品質測定と計算効率(実行時間とメモリ使用量)に関する最先端技術より優れている。 私たちのコードは、https://github.com/LucasKirsten/MobileMEF.comで利用可能です。

Recent advances in camera design and imaging technology have enabled the capture of high-quality images using smartphones. However, due to the limited dynamic range of digital cameras, the quality of photographs captured in environments with highly imbalanced lighting often results in poor-quality images. To address this issue, most devices capture multi-exposure frames and then use some multi-exposure fusion method to merge those frames into a final fused image. Nevertheless, most traditional and current deep learning approaches are unsuitable for real-time applications on mobile devices due to their heavy computational and memory requirements. We propose a new method for multi-exposure fusion based on an encoder-decoder deep learning architecture with efficient building blocks tailored for mobile devices. This efficient design makes our model capable of processing 4K resolution images in less than 2 seconds on mid-range smartphones. Our method outperforms state-of-the-art techniques regarding full-reference quality measures and computational efficiency (runtime and memory usage), making it ideal for real-time applications on hardware-constrained devices. Our code is available at: https://github.com/LucasKirsten/MobileMEF.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# AIのフロンティアリスク管理にサイバーセキュリティフレームワークを適用する - ディフェンス・イン・ディース・アプローチ

Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach ( http://arxiv.org/abs/2408.07933v1 )

ライセンス: Link先を確認
Shaun Ee, Joe O'Brien, Zoe Williams, Amanda El-Dakhakhni, Michael Aird, Alex Lintz, (参考訳) フロンティアAI開発における複雑で進化する脅威の展望は、リスク管理のための多層アプローチを必要とする("defense-in-deepth")。 サイバーセキュリティとAIフレームワークをレビューすることで、AI関連のリスク管理のギャップを識別する3つのアプローチを概説する。 まず、機能的アプローチは、NISTサイバーセキュリティフレームワーク(CSF)やAIリスク管理フレームワーク(AI RMF)のように、リスク管理アプローチがカバーすべきアクティビティの不可欠なカテゴリ(機能)を特定する。 第二に、ライフサイクルアプローチでは、DevSecOpsやOECD AIライフサイクルフレームワークのように、モデル開発ライフサイクル全体の安全とセキュリティアクティビティを割り当てる。 第3に、脅威ベースのアプローチは、悪意あるアクターが使用する戦術、テクニック、手順(TTP)を識別する。 我々は、NIST AI RMFやその他の補助的ガイドの存在を踏まえて、機能的なアプローチを採用することから、フロンティアAI開発者や政策立案者が始めることを推奨すると同時に、将来の使用のために、フロンティアAIライフサイクルモデルと脅威ベースのTPデータベースの詳細な構築も推奨する。

The complex and evolving threat landscape of frontier AI development requires a multi-layered approach to risk management ("defense-in-depth"). By reviewing cybersecurity and AI frameworks, we outline three approaches that can help identify gaps in the management of AI-related risks. First, a functional approach identifies essential categories of activities ("functions") that a risk management approach should cover, as in the NIST Cybersecurity Framework (CSF) and AI Risk Management Framework (AI RMF). Second, a lifecycle approach instead assigns safety and security activities across the model development lifecycle, as in DevSecOps and the OECD AI lifecycle framework. Third, a threat-based approach identifies tactics, techniques, and procedures (TTPs) used by malicious actors, as in the MITRE ATT&CK and MITRE ATLAS databases. We recommend that frontier AI developers and policymakers begin by adopting the functional approach, given the existence of the NIST AI RMF and other supplementary guides, but also establish a detailed frontier AI lifecycle model and threat-based TTP databases for future use.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 誤り問題学習のためのIsingモデルを用いた量子古典ハイブリッドアルゴリズム

A quantum-classical hybrid algorithm with Ising model for the learning with errors problem ( http://arxiv.org/abs/2408.07936v1 )

ライセンス: Link先を確認
Muxi Zheng, Jinfeng Zeng, Wentao Yang, Pei-Jie Chang, Bao Yan, Haoran Zhang, Min Wang, Shijie Wei, Gui-Lu Long, (参考訳) LWE問題(Learning-With-Errors)は、量子後暗号と計算学習理論に重要な意味を持つ重要な計算問題である。 本稿では,Ising Model (HAWI) を用いた量子古典ハイブリッドアルゴリズムを提案し,LWE問題に対処する。 我々のアプローチでは、LWE問題を最短ベクトル問題(SVP)に変換し、可変量子ビットを用いて格子ベクトルをイジング・ハミルトニアンにエンコードする。 次に、ハミルトニアンの低エネルギーレベルを特定して解を抽出し、現在のノイズの多い中間スケール量子(NISQ)デバイスの実装に適したものにする。 必要な量子ビットの数は$m(3m-1)/2$未満であり、$m$はアルゴリズムのサンプルの数である。 我々のアルゴリズムはヒューリスティックであり、その時間複雑性はハミルトンの低エネルギーレベルを見つけるために使われる特定の量子アルゴリズムに依存する。 もしQuantum Approximate Optimization Algorithm (QAOA) がイジング・ハミルトン問題の解法として使われ、反復回数が $y < O\left(m\log m\cdot 2^{0.2972k}/pk^2\right)$ を満たすなら、我々のアルゴリズムは古典的ブロック・コルキン・ゾロタレフ(BKZ)アルゴリズムよりも優れ、$k$ は問題パラメータに関連するブロックサイズであり、$p$ はQAOAのレイヤー数である。 NISQ時代のLWE問題の有意義な事例を解く可能性を示した上で,本アルゴリズムを実量子デバイス上で5ドルキュービットの2次元LWE問題を解くことで実演する。

The Learning-With-Errors (LWE) problem is a crucial computational challenge with significant implications for post-quantum cryptography and computational learning theory. Here we propose a quantum-classical hybrid algorithm with Ising model (HAWI) to address the LWE problem. Our approach involves transforming the LWE problem into the Shortest Vector Problem (SVP), using variable qubits to encode lattice vectors into an Ising Hamiltonian. We then identify the low-energy levels of the Hamiltonian to extract the solution, making it suitable for implementation on current noisy intermediate-scale quantum (NISQ) devices. We prove that the number of qubits required is less than $m(3m-1)/2$, where $m$ is the number of samples in the algorithm. Our algorithm is heuristic, and its time complexity depends on the specific quantum algorithm employed to find the Hamiltonian's low-energy levels. If the Quantum Approximate Optimization Algorithm (QAOA) is used to solve the Ising Hamiltonian problem, and the number of iterations satisfies $y < O\left(m\log m\cdot 2^{0.2972k}/pk^2\right)$, our algorithm will outperform the classical Block Korkine-Zolotarev (BKZ) algorithm, where $k$ is the block size related to problem parameters, and $p$ is the number of layers in QAOA. We demonstrate the algorithm by solving a $2$-dimensional LWE problem on a real quantum device with $5$ qubits, showing its potential for solving meaningful instances of the LWE problem in the NISQ era.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# グラフ上のロバストオフラインアクティブラーニング

Robust Offline Active Learning on Graphs ( http://arxiv.org/abs/2408.07941v1 )

ライセンス: Link先を確認
Yuanchen Wu, Yubai Yuan, (参考訳) ノード応答のラベル付けが高価である多くの実世界のネットワークにおいて重要な応用であるグラフ上でのアクティブラーニングの問題を考える。 本稿では,ネットワーク構造とノード共変量の両方からの情報を明示的に組み込むことで,問合せノードを選択するオフラインアクティブラーニング手法を提案する。 提案手法は,グラフ信号の回復理論とランダムスペクトルスペーシフィケーション技術に基づいて,ノードクエリに対する情報性と代表性の両方を考慮した2段階の偏りサンプリング手法を採用する。 Informativenessは、クエリされたノードの応答から学習可能なグラフ信号の複雑さを指す一方、表現性は、ノイズの多いノードレベルの情報が与えられた一般化エラーを制御するために、クエリされたノードのキャパシティを指す。 提案手法により選択されたノード数と一般化誤差の理論的関係を確立する。 我々の理論的結果は、アクティブラーニングにおける情報性と代表性の間のトレードオフを示している。 大規模な数値実験により,提案手法は既存のグラフに基づく能動学習法と競合することを示した。 さらに,提案手法はグラフ上の回帰タスクと分類タスクの両方に適用可能である。

We consider the problem of active learning on graphs, which has crucial applications in many real-world networks where labeling node responses is expensive. In this paper, we propose an offline active learning method that selects nodes to query by explicitly incorporating information from both the network structure and node covariates. Building on graph signal recovery theories and the random spectral sparsification technique, the proposed method adopts a two-stage biased sampling strategy that takes both informativeness and representativeness into consideration for node querying. Informativeness refers to the complexity of graph signals that are learnable from the responses of queried nodes, while representativeness refers to the capacity of queried nodes to control generalization errors given noisy node-level information. We establish a theoretical relationship between generalization error and the number of nodes selected by the proposed method. Our theoretical results demonstrate the trade-off between informativeness and representativeness in active learning. Extensive numerical experiments show that the proposed method is competitive with existing graph-based active learning methods, especially when node covariates and responses contain noises. Additionally, the proposed method is applicable to both regression and classification tasks on graphs.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 正確なブラックボックス変換学習のための空間周波数視覚プロンプトと確率的クラスタの訓練

Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer Learning ( http://arxiv.org/abs/2408.07944v1 )

ライセンス: Link先を確認
Wonwoo Cho, Kangyeol Kim, Saemee Choi, Jaegul Choo, (参考訳) 予測APIサービスなどのブラックボックス事前学習モデル(PTM)の普及にもかかわらず、データ分散ギャップのため、一般的なモデルを現実のシナリオに直接適用する上で、大きな課題が残っている。 本稿では,データ不足と制約付き計算資源のシナリオを考慮し,ブラックボックス環境における視覚認識モデルのためのパラメータ効率のよい移動学習フレームワークを提案する。 私たちのフレームワークには2つの新しいトレーニングテクニックが組み込まれています。 まず、空間領域と周波数領域の視覚的プロンプトを生成することにより、PTMの入力空間(つまり画像)を対象データ分布に整列する。 空間周波数ハイブリッド視覚プロンプトとともに、確率的クラスタに基づく新しいトレーニング手法を設計し、出力空間におけるクラス分離(予測確率)を向上させる。 実験では,最先端のベースラインを超えながら,広範囲な視覚認識データセットにまたがる数ショット転送学習環境において,優れた性能を示す。 さらに,提案手法は,トレーニングと推論フェーズの計算コストを効率的に削減することを示した。

Despite the growing prevalence of black-box pre-trained models (PTMs) such as prediction API services, there remains a significant challenge in directly applying general models to real-world scenarios due to the data distribution gap. Considering a data deficiency and constrained computational resource scenario, this paper proposes a novel parameter-efficient transfer learning framework for vision recognition models in the black-box setting. Our framework incorporates two novel training techniques. First, we align the input space (i.e., image) of PTMs to the target data distribution by generating visual prompts of spatial and frequency domain. Along with the novel spatial-frequency hybrid visual prompter, we design a novel training technique based on probabilistic clusters, which can enhance class separation in the output space (i.e., prediction probabilities). In experiments, our model demonstrates superior performance in a few-shot transfer learning setting across extensive visual recognition datasets, surpassing state-of-the-art baselines. Additionally, we show that the proposed method efficiently reduces computational costs for training and inference phases.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 局所グラフ構造を用いたルービックキューブの解法

Solving a Rubik's Cube Using its Local Graph Structure ( http://arxiv.org/abs/2408.07945v1 )

ライセンス: Link先を確認
Shunyu Yao, Mitchy Lee, (参考訳) Rubix Cubeは、強化学習コミュニティで注目を集めている3次元シングルプレイヤーの組み合わせパズルである。 ルービックスキューブは6つの面と12の可能なアクションを持ち、小さくて制約のないアクション空間と、1つの目標状態しか持たない非常に大きな状態空間に繋がる。 このような大きな状態空間をモデル化し、各状態の情報を保存するには例外的な計算資源が必要であるため、限られた資源を持つスクランブルされたルービックスキューブの最も短い解を見つけることは困難である。 ルービックスキューブはグラフとして表すことができ、立方体の状態はノードであり、作用はエッジである。 グラフ畳み込みネットワークに基づいて、A星探索アルゴリズムのための新しいヒューリスティックな重み付き畳み込み距離を設計し、スクランブルされたルービックスキューブの解を求める。 このヒューリスティックは近隣のノードの情報を利用し、それらに注意のような重みを加え、解決された状態への最も短い経路をより深く探索する。

The Rubix Cube is a 3-dimensional single-player combination puzzle attracting attention in the reinforcement learning community. A Rubix Cube has six faces and twelve possible actions, leading to a small and unconstrained action space and a very large state space with only one goal state. Modeling such a large state space and storing the information of each state requires exceptional computational resources, which makes it challenging to find the shortest solution to a scrambled Rubix cube with limited resources. The Rubix Cube can be represented as a graph, where states of the cube are nodes and actions are edges. Drawing on graph convolutional networks, we design a new heuristic, weighted convolutional distance, for A star search algorithm to find the solution to a scrambled Rubix Cube. This heuristic utilizes the information of neighboring nodes and convolves them with attention-like weights, which creates a deeper search for the shortest path to the solved state.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 米国とシンガポールのテクノロジーとセキュリティに関する協力:防衛、サイバー、バイオテクノロジー

US-Singapore cooperation on tech and security: defense, cyber, and biotech ( http://arxiv.org/abs/2408.07946v1 )

ライセンス: Link先を確認
Shaun Kai Ern Ee, (参考訳) 米国とシンガポールのパートナーシップは、国家安全保障にテクノロジーが持つ価値の共通認識に基づくものではない。 過去55年間で、シンガポールは米国の防衛技術の確立した買い手となったが、過去20年間、米国とシンガポールの関係は、サイバーセキュリティやバイオセキュリティといった新しい分野に取り組みながら、ますます協力的になっていった。 しかし、現在の地政学的な緊張はシンガポールにとって挑戦であり、シンガポールは全ての政党との積極的関係を維持することで戦略的な自治を維持しようとしている。 異論として、非伝統的な安全保障脅威の台頭は、シンガポールを東南アジアの地域安全保障問題における協力のハブとして位置づけることによって、より大きな二国間協力の道を開く可能性がある。 このような精神の中で、この論文は米国とシンガポールが次のようなことをすることを推奨している。 1) 防衛技術において,C4ISR及び平和時適用無人システムにおけるニッチ機能の共同開発 2 サイバーセキュリティにおいては、先進国人に対する国内のレジリエンスを改善しつつ、東南アジアにおけるサイバー犯罪対策の地域能力を構築し、 3)バイオセキュリティにおいては,将来のパンデミック対策として地域疫学的監視を強化する。

The partnership between the United States and Singapore is founded in no small part on the shared recognition of the value that technology has for national security. Over the last 55 years, Singapore has become an established purchaser of U.S. defense technology, but the past 20 years have also seen the U.S.-Singapore relationship mature into an increasingly collaborative one, tackling newer fields like cybersecurity and biosecurity. However, current geopolitical tensions present a challenge for Singapore, which strives to retain its strategic autonomy by maintaining positive relations with all parties. Paradoxically, the rise of non-traditional security threats may pave the way for greater bilateral cooperation by allowing Singapore to position itself as a hub for cooperation on regional security issues in Southeast Asia at large. In such spirit, this paper recommends that the United States and Singapore do the following: 1) in defense technology, co-develop niche capabilities in C4ISR and unmanned systems with peacetime applications; 2) in cybersecurity, improve their domestic resilience against sophisticated nation-state actors while also building regional capacity to counter cybercrime in Southeast Asia; and 3) in biosecurity, strengthen regional epidemiological surveillance to brace against possible future pandemics.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# VHR SARの光画像変換のための条件付きブラウン橋拡散モデル

Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation ( http://arxiv.org/abs/2408.07947v1 )

ライセンス: Link先を確認
Seon-Hoon Kim, Dae-won Chung, (参考訳) 合成開口レーダ(SAR)イメージング技術は、気象条件や時間に関係なくデータを収集できるというユニークな利点を提供する。 しかし、SAR画像は複雑な後方散乱パターンとスペックルノイズを示し、解釈の専門知識を必要とする。 この課題に対処するため、SARデータの解釈を支援するために、SAR画像を光学的な表現に変換する研究が進められている。 それにもかかわらず、既存の研究は、主に低解像度の衛星画像データセットを利用しており、そのトレーニング不安定性と低忠実さで知られているGAN(Generative Adversarial Network)に基づいている。 このような低解像度データ利用の限界とGANに基づくアプローチを克服するために,Brownian Bridge Diffusion Model (BBDM) に基づく条件付き画像-画像変換手法を提案する。 我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR)画像の光学画像収集に関する総合的な実験を行った。 実験結果から,本手法は条件拡散モデル (CDM) とGANモデルの両方を,多様な知覚的品質指標で上回ることがわかった。

Synthetic Aperture Radar (SAR) imaging technology provides the unique advantage of being able to collect data regardless of weather conditions and time. However, SAR images exhibit complex backscatter patterns and speckle noise, which necessitate expertise for interpretation. To deal with this challenge, research has been conducted on translating SAR images into optical-like representations to aid the interpretation of SAR data. Nevertheless, existing studies have predominantly utilized low-resolution satellite imagery datasets and have largely been based on Generative Adversarial Network (GAN) which are known for their training instability and low fidelity. To overcome these limitations of low-resolution data usage and GAN-based approaches, this paper introduces a conditional image-to-image translation approach based on Brownian Bridge Diffusion Model (BBDM). We conducted comprehensive experiments on the MSAW dataset, a paired SAR and optical images collection of 0.5m Very-High-Resolution (VHR) images. The experimental results indicate that our method surpasses both the Conditional Diffusion Model (CDM) and the GAN-based models in diverse perceptual quality metrics.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# GERestaurant: Aspect-based Sentiment Analysisのための注釈付きレストランレビューのドイツ版データセット

GERestaurant: A German Dataset of Annotated Restaurant Reviews for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2408.07955v1 )

ライセンス: Link先を確認
Nils Constantin Hellwig, Jakob Fehle, Markus Bink, Christian Wolff, (参考訳) 我々は,Aspect-Based Sentiment Analysis (ABSA) のために手動で注釈付けされたドイツ語レストランレビュー3,078件からなる,新しいデータセットであるGERestaurantを提示する。 すべてのレビューはTripadvisorから収集され、様々な料理スタイルの地域料理や国際料理を含む様々なレストランをカバーした。 アノテーションには暗黙的側面と明示的側面の両方が含まれており、全てのアスペクト用語、対応するアスペクトカテゴリ、それらに対して表現された感情が含まれる。 さらに,Aspect Category Detection,Aspect Category Sentiment Analysis,End-to-End ABSA,Target Aspect Sentiment Detectionの4つのタスクの基準点として,Aspect Category Detection,Aspect Category Sentiment Analysis,End-to-End ABSA,Target Aspect Sentiment Detection の4つのタスクのベースラインスコアを提供する。 このデータセットは、ドイツの言語資源のギャップを埋め、レストランドメインにおけるABSAの探索を容易にする。

We present GERestaurant, a novel dataset consisting of 3,078 German language restaurant reviews manually annotated for Aspect-Based Sentiment Analysis (ABSA). All reviews were collected from Tripadvisor, covering a diverse selection of restaurants, including regional and international cuisine with various culinary styles. The annotations encompass both implicit and explicit aspects, including all aspect terms, their corresponding aspect categories, and the sentiments expressed towards them. Furthermore, we provide baseline scores for the four ABSA tasks Aspect Category Detection, Aspect Category Sentiment Analysis, End-to-End ABSA and Target Aspect Sentiment Detection as a reference point for future advances. The dataset fills a gap in German language resources and facilitates exploration of ABSA in the restaurant domain.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# RandomNet: トレーニングされていないディープニューラルネットワークによる時系列クラスタリング

RandomNet: Clustering Time Series Using Untrained Deep Neural Networks ( http://arxiv.org/abs/2408.07956v1 )

ライセンス: Link先を確認
Xiaosheng Li, Wenjie Xi, Jessica Lin, (参考訳) ニューラルネットワークは機械学習やデータマイニングに広く利用されている。 通常、これらのネットワークはトレーニングされ、入力データに基づいてネットワーク内の重み(パラメータ)を調整する必要がある。 本研究では、トレーニングされていないディープニューラルネットワークをクラスタ時系列に利用する新しいアプローチRandomNetを提案する。 RandomNetは、異なるランダムな重みのセットを使用して時系列の多様な表現を抽出し、これらの異なる表現から派生したクラスタリング関係をアンサンブルして最終的なクラスタリング結果を構築する。 多様な表現を抽出することにより,異なる特徴を持つ時系列を効果的に処理することができる。 すべてのパラメータはランダムに生成されるので、プロセス中にトレーニングは必要ありません。 提案手法の有効性に関する理論的解析を行う。 その性能を検証するために、よく知られたUCR時系列アーカイブにおいて、128のデータセットすべてに対して広範な実験を行い、その結果を統計的に分析する。 これらのデータセットはサイズやシーケンスの長さが異なり、さまざまな分野から来ている。 実験の結果,提案手法は既存の最先端手法と競合することがわかった。

Neural networks are widely used in machine learning and data mining. Typically, these networks need to be trained, implying the adjustment of weights (parameters) within the network based on the input data. In this work, we propose a novel approach, RandomNet, that employs untrained deep neural networks to cluster time series. RandomNet uses different sets of random weights to extract diverse representations of time series and then ensembles the clustering relationships derived from these different representations to build the final clustering results. By extracting diverse representations, our model can effectively handle time series with different characteristics. Since all parameters are randomly generated, no training is required during the process. We provide a theoretical analysis of the effectiveness of the method. To validate its performance, we conduct extensive experiments on all of the 128 datasets in the well-known UCR time series archive and perform statistical analysis of the results. These datasets have different sizes, sequence lengths, and they are from diverse fields. The experimental results show that the proposed method is competitive compared with existing state-of-the-art methods.
翻訳日:2024-08-16 14:58:11 公開日:2024-08-15
# 三原子分子における振動・回転・電子波パケットの動特性のイメージング

Imaging coupled vibrational, rotational, and electronic wave packet dynamics in a triatomic molecule ( http://arxiv.org/abs/2408.07958v1 )

ライセンス: Link先を確認
Huynh Van Sa Lam, Van-Hung Hoang, Anbu Selvam Venkatachalam, Surjendu Bhattacharyya, Keyu Chen, Sina Jacob, Sanduni Kudagama, Tu Thanh Nguyen, Daniel Rolles, Uwe Thumm, Artem Rudenko, Vinod Kumarappan, (参考訳) 光との相互作用によって引き起こされる分子動力学は、しばしばいくつかの電子状態、振動状態、回転状態の励起を含む。 結果として生じる電子と核のパケットの動きを特徴付けることは、小さな多原子系であっても深刻な課題である。 このレターでは、振動、回転、電子自由度の間の相互作用が、強電離二酸化硫黄の低層状態における分子波パケットの進化をいかに制御するかを示す。 時間分解型クーロン爆発画像(CEI)と量子機械波パケットシミュレーションを組み合わせることで、分子の曲げ振動を直接マッピングし、振動波パケットが分子配向によってどのように影響するかを示し、カチオンの2つの最低電子状態間のカップリングの役割を明らかにする。 これらの状態の間の円錐的交叉は曲がりと非対称な伸張座標を結合し、これは相関した断片モータにはっきりと反映される。 以上の結果から,多分子分子における電子・原子間相互作用の結合を特徴付けるための効率的な実験ツールとして,多共起CEIが有用であることが示唆された。

Molecular dynamics triggered by interaction with light often involve the excitation of several electronic, vibrational, and rotational states. Characterizing the resulting coupled electronic and nuclear wave packet motion represents a severe challenge, even for small polyatomic systems. In this Letter, we demonstrate how the interplay between vibrational, rotational, and electronic degrees of freedom governs the evolution of molecular wave packets in the low-lying states of strong-field-ionized sulfur dioxide. Using time-resolved Coulomb explosion imaging (CEI) in combination with quantum mechanical wave packet simulations, we directly map bending vibrations of the molecule, show how the vibrational wave packet is influenced by molecular alignment, and elucidate the role of the coupling between the two lowest electronic states of the cation. A conical intersection between these states couples the bending and asymmetric stretching coordinates, which is clearly reflected in the correlated fragment momenta. Our results suggest that multi-coincident CEI represents an efficient experimental tool for characterizing coupled electronic and nuclear motion in polyatomic molecules.
翻訳日:2024-08-16 14:46:16 公開日:2024-08-15
# 量子鍵分布における単一光子検出による強度相関のキャラクタリゼーション

Characterization of Intensity Correlation via Single-photon Detection in Quantum Key Distribution ( http://arxiv.org/abs/2408.07960v1 )

ライセンス: Link先を確認
Tianyi Xing, Junxuan Liu, Likang Zhang, Min-Yan Wang, Yu-Huai Li, Ruiyin Liu, Qingquan Peng, Dongyang Wang, Yaxuan Wang, Hongwei Liu, Wei Li, Yuan Cao, Anqi Huang, (参考訳) 量子鍵分布(QKD)のソースユニットにおける最も重要な脆弱性の1つは、変調後の量子状態間の相関であり、その実用的なセキュリティ性能を特徴づけ、評価する。 本研究では,QKDシステムの構成を変更することなく,測定ユニットにおける単光子検出結果に応じて強度相関を特徴付ける手法を提案する。 相関を計測するために古典光学検出器を用いた従来の研究とは対照的に,本手法は生鍵交換時に発生する検出データを直接解析し,リアルタイムシステム動作における相関の特徴を特徴付けることができる。 BB84QKDシステムに基本手法を適用し,その特徴的相関によりセキュリティ証明で示されるセキュア鍵レートが低下する。 さらに,ベル状態測定の結果から相関関係を推定するために拡張および適用し,フルスケジュールMDI QKDシステムへの適用性を実証した。 本研究は,QKDシステムの標準化のためのアプローチを提供する。

One of the most significant vulnerabilities in the source unit of quantum key distribution (QKD) is the correlation between quantum states after modulation, which shall be characterized and evaluated for its practical security performance. In this work, we propose a methodology to characterize the intensity correlation according to the single-photon detection results in the measurement unit without modifying the configuration of the QKD system. In contrast to the previous research that employs extra classical optical detector to measure the correlation, our method can directly analyse the detection data generated during the raw key exchange, enabling to characterize the feature of correlation in real-time system operation. The basic method is applied to a BB84 QKD system and the characterized correlation decreases the secure key rate shown by the security proof. Furthermore, the method is extended and applied to characterize the correlation from the result of Bell-state measurement, which demonstrates its applicability to a running full-scheme MDI QKD system. This study provides an approach for standard certification of a QKD system.
翻訳日:2024-08-16 14:46:16 公開日:2024-08-15
# Meta SAC-Lag: MetaGradientベースのハイパーパラメータチューニングによるデプロイ可能な安全な強化学習を目指して

Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning ( http://arxiv.org/abs/2408.07962v1 )

ライセンス: Link先を確認
Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran, (参考訳) セーフ強化学習 (Safe Reinforcement Learning, セーフRL) は、現実世界のシステムに展開する目的で、試行錯誤に基づく手法のサブカテゴリとして広く研究されている。 安全なRLでは、制約を最小化しながら報酬性能を最大化し、しばしば制約関数に境界を設定し、ラグランジアン法を利用する。 しかしながら、ラグランジアンベースの安全なRLを現実のシナリオに配置することは、不正確な調整が最適政策の収束につながる可能性があるため、しきい値の微調整が必要であるため困難である。 この課題を軽減するために,メタソフトアクター・クリティカル・ラグランジアン(Meta SAC-Lag)と呼ばれる,ラグランジアンをベースとしたモデルフリーアーキテクチャを提案する。 Meta SAC-Lagは、メタグラディエント最適化を使用して、安全に関連するハイパーパラメータを自動的に更新する。 提案手法は,最小限のハイパーパラメータチューニング条件で安全な探索としきい値調整を行うように設計されている。 我々のパイプラインでは、内部パラメータを従来の定式化によって更新し、更新されたパラメータに基づいて定義されたメタオブジェクトを用いてハイパーパラメータを調整します。 その結果,安全閾値の比較的速い収束率により,エージェントが安全性能を確実に調整できることが示唆された。 我々は,5つのシミュレーション環境におけるMeta SAC-Lagの性能をラグランジアンベースラインに対して評価し,パラメータ間の相乗効果を生かし,より良い,あるいは競争的な結果が得られることを示した。 さらに,コーヒーをこぼすことなくカップに注ぐロボットアームを用いた実世界の実験を行った。 Meta SAC-Lagは、作業の制約を最小限にしながら、タスクを実行するためにうまくトレーニングされている。

Safe Reinforcement Learning (Safe RL) is one of the prevalently studied subcategories of trial-and-error-based methods with the intention to be deployed on real-world systems. In safe RL, the goal is to maximize reward performance while minimizing constraints, often achieved by setting bounds on constraint functions and utilizing the Lagrangian method. However, deploying Lagrangian-based safe RL in real-world scenarios is challenging due to the necessity of threshold fine-tuning, as imprecise adjustments may lead to suboptimal policy convergence. To mitigate this challenge, we propose a unified Lagrangian-based model-free architecture called Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag). Meta SAC-Lag uses meta-gradient optimization to automatically update the safety-related hyperparameters. The proposed method is designed to address safe exploration and threshold adjustment with minimal hyperparameter tuning requirement. In our pipeline, the inner parameters are updated through the conventional formulation and the hyperparameters are adjusted using the meta-objectives which are defined based on the updated parameters. Our results show that the agent can reliably adjust the safety performance due to the relatively fast convergence rate of the safety threshold. We evaluate the performance of Meta SAC-Lag in five simulated environments against Lagrangian baselines, and the results demonstrate its capability to create synergy between parameters, yielding better or competitive results. Furthermore, we conduct a real-world experiment involving a robotic arm tasked with pouring coffee into a cup without spillage. Meta SAC-Lag is successfully trained to execute the task, while minimizing effort constraints.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# アダマール行列探索のための量子近似最適化法

A Quantum Approximate Optimization Method For Finding Hadamard Matrices ( http://arxiv.org/abs/2408.07964v1 )

ライセンス: Link先を確認
Andriyan Bayu Suksmono, (参考訳) 量子コンピュータを用いて特定の順序のアダマール行列を見つけることは、実用的な量子優位性の実証につながる。 量子アニールを用いた初期の試みは、現在の量子資源の限界と、その高次相互作用項を実装する能力によって妨げられ、これは$M$オーダー行列の場合、O(M^2)によって増加する。 本稿では,量子コンピュータ上でのハダマール行列探索アルゴリズムを実装した新しい量子ビット効率法を提案する。 量子近似最適化アルゴリズム(QAOA)を用いてこれを実現する。 ゲートベース量子コンピュータ上で実装される高次相互作用項は、補助量子ビットを必要としないため、提案手法は必要量子ビット数をO(M)に削減する。 本稿では,本手法の定式化,対応する量子回路の構成,および量子シミュレータと実ゲート型量子コンピュータの両方の実験結果について述べる。 実験の結果、バウマート・ハル型アダマール行列は132個にも達した。 これらの結果は、これまで知られていなかったアダマール行列を発見するためのさらなる努力を動機付け、最終的に実用的な量子的優位性を実証する見通しである。

Finding a Hadamard matrix of a specific order using a quantum computer can lead to a demonstration of practical quantum advantage. Earlier efforts using a quantum annealer were impeded by the limitations of the present quantum resource and its capability to implement high order interaction terms, which for an $M$-order matrix will grow by O(M^2). In this paper, we propose a novel qubit-efficient method by implementing the Hadamard matrix searching algorithm on a universal quantum computer. We achieve this by employing the Quantum Approximate Optimization Algorithm (QAOA). Since high order interaction terms that are implemented on a gate-based quantum computer do not need ancillary qubits, the proposed method reduces the required number of qubits into O(M). We present the formulation of the method, construction of corresponding quantum circuits, and experiment results in both a quantum simulator and a real gate-based quantum computer. The experiments successfully found the Baumert-Hall type Hadamard matrices up to 132. These results motivate further efforts to discover previously unknown Hadamard matrices and a prospect to ultimately demonstrate practical quantum advantages
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# ブロック相互作用積状態を用いた不均一相関系の効率的なシミュレーション

Efficient simulation of inhomogeneously correlated systems using block interaction product states ( http://arxiv.org/abs/2408.07965v1 )

ライセンス: Link先を確認
Yifan Cheng, Zhaoxuan Xie, Xiaoyu Xie, Haibo Ma, (参考訳) DMRGの強さは、エネルギー的に退縮し空間的に類似している同一の部位を治療することにある。 しかし、これは大きな系の量子化学計算に適用した場合の欠点となり、絡み合った軌道はエネルギーと空間の広い範囲にまたがることが多く、特に不均一な相互作用である。 本研究では,BIPS(Multi-configurational Block Interaction Product State)フレームワークを用いて,強いフラッグメント内相関と弱いフラッグメント間相関を別々に扱うことを提案する。 強い相関関係は、フラグメントとその環境間の絡み合いを考慮して、フラグメント上の電子状態において捉えられる。 この方法は様々な化学システムでテストされ、量子化学における不均一な効果に対処する上で高い精度と効率を示す。

The strength of DMRG lies in its treatment of identical sites that are energetically degenerate and spatially similar. However, this becomes a drawback when applied to quantum chemistry calculations for large systems, as entangled orbitals often span broad ranges in energy and space, with notably inhomogeneous interactions. In this study, we propose addressing strong intra-fragment and weak inter-fragment correlations separately using a multi-configurational block interaction product state (BIPS) framework. The strong correlation is captured in electronic states on fragments, considering entanglement between fragments and their environments. This method has been tested in various chemical systems and shows high accuracy and efficiency in addressing inhomogeneous effects in quantum chemistry.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# パーソナライズによるフェデレーションプロトタイプ整形によるスキュード不均一性への対処

Addressing Skewed Heterogeneity via Federated Prototype Rectification with Personalization ( http://arxiv.org/abs/2408.07966v1 )

ライセンス: Link先を確認
Shunxin Guo, Hongsong Wang, Shuxia Lin, Zhiqiang Kou, Xin Geng, (参考訳) フェデレートラーニング(Federated Learning)は、ユーザデータのプライバシを保持しながら、複数の分散デバイス間の協調的なモデルトレーニングを容易にするために設計された、効率的なフレームワークである。 連合学習の重要な課題は、データレベルの不均一性、すなわち、スキュードまたはロングテールのプライベートデータの分散である。 この課題に対処するために様々な方法が提案されているが、その多くは、基礎となるグローバルデータが全クライアントに均一に分散されていると仮定している。 本稿では,データレベルの不均一性フェデレート学習を簡単なレビューで検討し,Skewed Heterogeneous Federated Learning (SHFL) と呼ばれる,より実践的で困難な設定を再定義する。 そこで我々は,フェデレート・パーソナライゼーションとフェデレーション・プロトタイプ・レクティフィケーションの2つの部分からなる,フェデレーション・プロトタイプ・レクティフィケーション(Federated Prototype Rectification)を提案する。 前者は、私的データに基づいて、支配階級と少数民族の間のバランスのとれた決定境界を構築することを目的としており、後者は、経験的プロトタイプの修正のために、階級間差別と階級内一貫性の両方を活用している。 3つの人気のあるベンチマーク実験により、提案手法は現在の最先端手法よりも優れ、パーソナライズと一般化の両面でバランスの取れた性能を達成することが示された。

Federated learning is an efficient framework designed to facilitate collaborative model training across multiple distributed devices while preserving user data privacy. A significant challenge of federated learning is data-level heterogeneity, i.e., skewed or long-tailed distribution of private data. Although various methods have been proposed to address this challenge, most of them assume that the underlying global data is uniformly distributed across all clients. This paper investigates data-level heterogeneity federated learning with a brief review and redefines a more practical and challenging setting called Skewed Heterogeneous Federated Learning (SHFL). Accordingly, we propose a novel Federated Prototype Rectification with Personalization which consists of two parts: Federated Personalization and Federated Prototype Rectification. The former aims to construct balanced decision boundaries between dominant and minority classes based on private data, while the latter exploits both inter-class discrimination and intra-class consistency to rectify empirical prototypes. Experiments on three popular benchmarks show that the proposed approach outperforms current state-of-the-art methods and achieves balanced performance in both personalization and generalization.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# FlashGS: 大規模かつ高解像度レンダリングのための効率的な3Dガウススプレイティング

FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering ( http://arxiv.org/abs/2408.07967v1 )

ライセンス: Link先を確認
Guofeng Feng, Siyan Chen, Rong Fu, Zimu Liao, Yi Wang, Tao Liu, Zhilin Pei, Hengjie Li, Xingcheng Zhang, Bo Dai, (参考訳) この研究は、アルゴリズムとカーネルレベルの最適化を通じて、3D Gaussian Splattingの効率的な微分可能ラスタ化を容易にするために設計されたオープンソースのCUDA PythonライブラリであるFlashGSを紹介する。 FlashGSは、レンダリングプロセスの包括的な解析に基づいて開発され、計算効率を向上し、広く採用されている。 本論文は, 冗長性除去, 効率的なパイプライニング, 洗練された制御とスケジューリング機構, メモリアクセス最適化を含む一連の最適化手法を含む。 FlashGSの性能の広範な評価は、様々な画像解像度を含む様々な合成および実世界の大規模シーンで行われている。 実証的な結果は、FlashGSが一貫して、メモリ消費の削減とともに、モバイルの消費者向けGPUよりも平均4倍の加速を実現していることを示している。 これらの結果は、FlashGSの優れたパフォーマンスとリソース最適化能力を強調し、それを3Dレンダリングの領域における恐ろしいツールとして位置づけている。

This work introduces FlashGS, an open-source CUDA Python library, designed to facilitate the efficient differentiable rasterization of 3D Gaussian Splatting through algorithmic and kernel-level optimizations. FlashGS is developed based on the observations from a comprehensive analysis of the rendering process to enhance computational efficiency and bring the technique to wide adoption. The paper includes a suite of optimization strategies, encompassing redundancy elimination, efficient pipelining, refined control and scheduling mechanisms, and memory access optimizations, all of which are meticulously integrated to amplify the performance of the rasterization process. An extensive evaluation of FlashGS' performance has been conducted across a diverse spectrum of synthetic and real-world large-scale scenes, encompassing a variety of image resolutions. The empirical findings demonstrate that FlashGS consistently achieves an average 4x acceleration over mobile consumer GPUs, coupled with reduced memory consumption. These results underscore the superior performance and resource optimization capabilities of FlashGS, positioning it as a formidable tool in the domain of 3D rendering.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# 言語モデルを用いた肺癌患者の予後予測

Predicting Lung Cancer Patient Prognosis with Large Language Models ( http://arxiv.org/abs/2408.07971v1 )

ライセンス: Link先を確認
Danqing Hu, Bing Liu, Xiang Li, Xiaofeng Zhu, Nan Wu, (参考訳) 予後予測は、肺癌患者に対する最適な治療計画を決定するために重要である。 伝統的に、そのような予測は、振り返り患者のデータから開発されたモデルに依存していた。 近年,大規模な言語モデル (LLM) が注目されている。 本研究では,肺癌患者の予後予測におけるGPT-4o miniおよびGPT-3.5の有用性について検討した。 我々は、生存と術後合併症の2つのデータセットを収集し、モデルの性能を総合的に評価するために複数のタスクを設計した。 対物回帰モデルも比較のベースラインとして開発された。 その結果, 肺がんの予後予測において, 追加の患者データを使用しないにもかかわらず, データ駆動ロジスティック回帰モデルと比較すると, 肺がんの予後予測の性能が向上することが示唆された。 これらの結果から, LLMは肺癌の予後予測に有効である可能性が示唆された。

Prognosis prediction is crucial for determining optimal treatment plans for lung cancer patients. Traditionally, such predictions relied on models developed from retrospective patient data. Recently, large language models (LLMs) have gained attention for their ability to process and generate text based on extensive learned knowledge. In this study, we evaluate the potential of GPT-4o mini and GPT-3.5 in predicting the prognosis of lung cancer patients. We collected two prognosis datasets, i.e., survival and post-operative complication datasets, and designed multiple tasks to assess the models' performance comprehensively. Logistic regression models were also developed as baselines for comparison. The experimental results demonstrate that LLMs can achieve competitive, and in some tasks superior, performance in lung cancer prognosis prediction compared to data-driven logistic regression models despite not using additional patient data. These findings suggest that LLMs can be effective tools for prognosis prediction in lung cancer, particularly when patient data is limited or unavailable.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# Polaris: Syn2Realビジュアルグラウンドと大規模言語モデルによるオープンエンドインタラクティブロボットマニピュレーション

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models ( http://arxiv.org/abs/2408.07975v1 )

ライセンス: Link先を確認
Tianyu Wang, Haitao Lin, Junqiu Yu, Yanwei Fu, (参考訳) 本稿では,テーブルトップシナリオにおけるオープンエンド対話型ロボット操作の課題について検討する。 近年のLarge Language Models (LLM) では,ロボットによるユーザ指示の理解が促進されているが,視覚的基盤の欠如は,環境と物理的に対話する能力を制限している。 これは、ロボットが物理的な作業空間内で操作するための対象物を見つける必要があるためである。 そこで我々は,GPT-4と接地型視覚モデルを利用して知覚と相互作用を統合する,Polarisという対話型ロボット操作フレームワークを導入する。 正確な操作のためには、画像に写っているピクセルを単に識別するのではなく、対象物に対する詳細なオブジェクトポーズを生成することが不可欠である。 そこで本研究では,Syn2Real(Synthetic-to-Real)のポーズ推定パイプラインを提案する。 このパイプラインは、レンダリングされた合成データをトレーニングに利用し、実世界の操作タスクに転送する。 実世界の性能は、提案したパイプラインの有効性を示し、より一般的なカテゴリへの拡張の可能性を強調している。 さらに、実ロボット実験は、複数の操作タスクの把握と実行において、我々のフレームワークの素晴らしいパフォーマンスを示した。 これはテーブルトップ以外のシナリオに一般化する可能性を示している。 詳しい情報とビデオはこちらから入手できる。

This paper investigates the task of the open-ended interactive robotic manipulation on table-top scenarios. While recent Large Language Models (LLMs) enhance robots' comprehension of user instructions, their lack of visual grounding constrains their ability to physically interact with the environment. This is because the robot needs to locate the target object for manipulation within the physical workspace. To this end, we introduce an interactive robotic manipulation framework called Polaris, which integrates perception and interaction by utilizing GPT-4 alongside grounded vision models. For precise manipulation, it is essential that such grounded vision models produce detailed object pose for the target object, rather than merely identifying pixels belonging to them in the image. Consequently, we propose a novel Synthetic-to-Real (Syn2Real) pose estimation pipeline. This pipeline utilizes rendered synthetic data for training and is then transferred to real-world manipulation tasks. The real-world performance demonstrates the efficacy of our proposed pipeline and underscores its potential for extension to more general categories. Moreover, real-robot experiments have showcased the impressive performance of our framework in grasping and executing multiple manipulation tasks. This indicates its potential to generalize to scenarios beyond the tabletop. More information and video results are available here: https://star-uu-wang.github.io/Polaris/
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# 通信のない結合と引き数不変な投機的復号化

Coupling without Communication and Drafter-Invariant Speculative Decoding ( http://arxiv.org/abs/2408.07978v1 )

ライセンス: Link先を確認
Majid Daliri, Christopher Musco, Ananda Theertha Suresh, (参考訳) アリスが分布$P$を持ち、ボブが分布$Q$を持っていると仮定する。 Alice はサンプル $a\sim P$ と Bob のサンプル $b \sim Q$ を生成したいので、$a = b$ は可能な限り高い確率を持つ。 分布間の最適結合からサンプリングすることで、アリスとボブは$Pr[a = b] = 1 - D_{TV}(P,Q)$を得ることができ、$D_{TV}(P,Q)$は全変動距離である。 もしAliceとBobがコミュニケーションなしで同じ問題を解決しなければならないとしたら? おそらく、公開ランダム性にアクセスしても、$Pr[a = b] \geq \frac{1 - D_{TV}(P,Q)}{1 + D_{TV}(P,Q) \geq 1-2D_{TV}(P,Q)$を達成できる。 実際、この境界はWeighted MinHashアルゴリズムに基づいた単純なプロトコルで得ることができる。 本研究では,コミュニケーション自由結合を深く検討する。 まず、Gumbelサンプリングに基づく等しく単純なプロトコルは、Weighted MinHashアプローチの最悪のケース保証と一致するが、実際のパフォーマンスは向上する傾向にあることを示す。 通信のないプロトコルでは、最悪の場合、$Pr[a=b]>\frac{1 - D_{TV}(P,Q)}{1 + D_{TV}(P,Q)$を達成できない。 最後に、$n$以上の分布に対して、$O(\log(n/\epsilon))$ bits of communication を用いて$Pr[a = b] = 1 - D_{TV}(P,Q) - \epsilon$,すなわち、本質的に最適結合に一致するようなスキームが存在することを証明する。 提案手法は, 自動回帰型大言語モデル (Leviathan, Kalman, Matias, ICML 2023) を高速化する手法である。 通信不要なプロトコルは、投機的復号法(Drafter-Invariant Speculative Decoding, Drafter-Invariant Speculative Decoding)と呼ばれる、投機的復号法の一種であることを示す。

Suppose Alice has a distribution $P$ and Bob has a distribution $Q$. Alice wants to generate a sample $a\sim P$ and Bob a sample $b \sim Q$ such that $a = b$ with has as high of probability as possible. It is well-known that, by sampling from an optimal coupling between the distributions, Alice and Bob can achieve $Pr[a = b] = 1 - D_{TV}(P,Q)$, where $D_{TV}(P,Q)$ is the total variation distance. What if Alice and Bob must solve this same problem without communicating at all? Perhaps surprisingly, with access to public randomness, they can still achieve $Pr[a = b] \geq \frac{1 - D_{TV}(P,Q)}{1 + D_{TV}(P,Q)} \geq 1-2D_{TV}(P,Q)$. In fact, this bound can be obtained using a simple protocol based on the Weighted MinHash algorithm. In this work, we explore the communication-free coupling in greater depth. First, we show that an equally simple protocol based on Gumbel sampling matches the worst-case guarantees of the Weighted MinHash approach, but tends to perform better in practice. Conversely, we prove that both approaches are actually sharp: no communication-free protocol can achieve $Pr[a=b]>\frac{1 - D_{TV}(P,Q)}{1 + D_{TV}(P,Q)}$ in the worst-case. Finally, we prove that, for distributions over $n$ items, there exists a scheme that uses just $O(\log(n/\epsilon))$ bits of communication to achieve $Pr[a = b] = 1 - D_{TV}(P,Q) - \epsilon$, i.e. to essentially match optimal coupling. Beyond our theoretical results, we demonstrate an application of communication-free coupling to speculative decoding, a recent method for accelerating autoregressive large language models [Leviathan, Kalman, Matias, ICML 2023]. We show that communication-free protocols yield a variant of speculative decoding that we call Drafter-Invariant Speculative Decoding, which has the desirable property that the output of the method is fixed given a fixed random seed, regardless of what drafter is used for speculation.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# LLaVA-Surg:構造化手術ビデオ学習によるマルチモーダル手術支援を目指して

LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning ( http://arxiv.org/abs/2408.07981v1 )

ライセンス: Link先を確認
Jiajie Li, Garrett Skinner, Gene Yang, Brian R Quaranto, Steven D Schwaitzberg, Peter C W Kim, Jinjun Xiong, (参考訳) マルチモーダル大言語モデル (LLM) は様々な領域で顕著な成功を収めている一方、医学分野の研究は単調な画像に重点を置いている。 一方、現在のビデオの一般ドメインマルチモーダルモデルは、外科的ビデオに関する会話を理解し、関与する能力に欠けています。 主要な要因の1つは、外科領域におけるデータセットの欠如である。 本稿では,これまでで最大規模の102,000の手術用ビデオインストラクションペアからなる新しいデータセットであるSurg-QAを作成する。 このようなデータセットを構築するために, LLMを用いた2段階質問応答生成パイプラインを提案し, 一般に公開されている外科的講義ビデオから, 構造化された方法で外科的知識を学習する。 パイプラインは、タスクの複雑さを大幅に削減するために、生成プロセスを2段階に分解します。 また、質問応答生成時のLLM幻覚のリスクを軽減し、生成したデータの全体的な品質を向上させる。 さらに、このSurg-QAデータセット上で、手術ビデオに関するオープンな質問に答えられる新しい視覚言語会話アシスタントであるLLaVA-Surgを訓練し、ゼロショット手術ビデオ質問応答タスクに関する包括的な評価を行う。 LLaVA-Surgは従来の汎用ドメインモデルよりも大幅に優れており,手術ビデオに関するオープンな疑問に答える上で,例外的な多モーダルな会話スキルを誇示している。 コード、モデル、命令チューニングデータセットをリリースします。

Multimodal large language models (LLMs) have achieved notable success across various domains, while research in the medical field has largely focused on unimodal images. Meanwhile, current general-domain multimodal models for videos still lack the capabilities to understand and engage in conversations about surgical videos. One major contributing factor is the absence of datasets in the surgical field. In this paper, we create a new dataset, Surg-QA, consisting of 102,000 surgical video-instruction pairs, the largest of its kind so far. To build such a dataset, we propose a novel two-stage question-answer generation pipeline with LLM to learn surgical knowledge in a structured manner from the publicly available surgical lecture videos. The pipeline breaks down the generation process into two stages to significantly reduce the task complexity, allowing us to use a more affordable, locally deployed open-source LLM than the premium paid LLM services. It also mitigates the risk of LLM hallucinations during question-answer generation, thereby enhancing the overall quality of the generated data. We further train LLaVA-Surg, a novel vision-language conversational assistant capable of answering open-ended questions about surgical videos, on this Surg-QA dataset, and conduct comprehensive evaluations on zero-shot surgical video question-answering tasks. We show that LLaVA-Surg significantly outperforms all previous general-domain models, demonstrating exceptional multimodal conversational skills in answering open-ended questions about surgical videos. We will release our code, model, and the instruction-tuning dataset.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# 大規模言語モデルを用いた対話システムに向けて : カメラによるユーザ感情認識

Toward a Dialogue System Using a Large Language Model to Recognize User Emotions with a Camera ( http://arxiv.org/abs/2408.07982v1 )

ライセンス: Link先を確認
Hiroki Tanioka, Tetsushi Ueta, Masahiko Sano, (参考訳) ChatGPT\copyright{} などの LLM の性能は大幅に向上し,オンライン環境においては,Web ページ上の ChatBot や音声対話を用いたコールセンタ操作,エージェントを用いた対話機能など,さまざまな状況で使用される傾向にある。 オフライン環境では、タブレット端末を用いた人工知能エージェント(AIエージェント)による指導や、ロボットに搭載されたLDMの形での対話システムなど、マルチモーダルな対話機能も実現されている。 このマルチモーダル対話では、AIとユーザ間の相互感情認識が重要になる。 これまでのところ、AIエージェントの一部に感情を表現する方法や、ユーザの発話のテキスト情報や音声情報を用いてそれらを認識する方法があるが、AIエージェントがユーザーの表情から感情を認識する方法は研究されていない。 本研究では、LLMベースのAIエージェントが、カメラとの対話でユーザを捉え、表情から感情を認識し、その感情情報をプロンプトに追加することで、ユーザーの感情状態に応じてユーザーと対話できるかどうかを検討した。 その結果、AIエージェントは、HappyやAngryのような比較的高いスコアを持つ感情状態の感情状態に応じて会話できることを確認した。

The performance of ChatGPT\copyright{} and other LLMs has improved tremendously, and in online environments, they are increasingly likely to be used in a wide variety of situations, such as ChatBot on web pages, call center operations using voice interaction, and dialogue functions using agents. In the offline environment, multimodal dialogue functions are also being realized, such as guidance by Artificial Intelligence agents (AI agents) using tablet terminals and dialogue systems in the form of LLMs mounted on robots. In this multimodal dialogue, mutual emotion recognition between the AI and the user will become important. So far, there have been methods for expressing emotions on the part of the AI agent or for recognizing them using textual or voice information of the user's utterances, but methods for AI agents to recognize emotions from the user's facial expressions have not been studied. In this study, we examined whether or not LLM-based AI agents can interact with users according to their emotional states by capturing the user in dialogue with a camera, recognizing emotions from facial expressions, and adding such emotion information to prompts. The results confirmed that AI agents can have conversations according to the emotional state for emotional states with relatively high scores, such as Happy and Angry.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# ArabLegalEval: 大規模言語モデルにおけるアラビア語法知識の評価のためのマルチタスクベンチマーク

ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models ( http://arxiv.org/abs/2408.07983v1 )

ライセンス: Link先を確認
Faris Hijazi, Somayah AlHarbi, Abdulaziz AlHussein, Harethah Abu Shairah, Reem AlZahrani, Hebah AlShamlan, Omar Knio, George Turkiyyah, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、様々な自然言語処理タスクが大幅に改善されている。 しかし、特にアラビア語のような英語以外の言語では、LLMの法的な知識の評価は未熟である。 このギャップに対処するために、私たちは、LLMのアラビア語法的知識を評価するためのマルチタスクベンチマークデータセットであるA ArabLegalEvalを紹介した。 MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。 本研究は,アラビア語の法的問題を解くために必要な能力を分析し,最先端のLDMの性能をベンチマークすることを目的とする。 テキスト内学習の影響について検討し,様々な評価手法について検討する。 さらに、データセットの品質を高めるために、自動バリデーションによる質問を生成するワークフローについても検討する。 GPT-4 や Jais などの多言語・アラビア語中心の LLM をそれぞれベンチマークする。 データセットとバリデーションを作成するための方法論も共有しています。 アラビア法典領域におけるAI研究を加速するためには、ArabLegalEvalデータセットとコードを公開したいと思っています。

The rapid advancements in Large Language Models (LLMs) have led to significant improvements in various natural language processing tasks. However, the evaluation of LLMs' legal knowledge, particularly in non-English languages such as Arabic, remains under-explored. To address this gap, we introduce ArabLegalEval, a multitask benchmark dataset for assessing the Arabic legal knowledge of LLMs. Inspired by the MMLU and LegalBench datasets, ArabLegalEval consists of multiple tasks sourced from Saudi legal documents and synthesized questions. In this work, we aim to analyze the capabilities required to solve legal problems in Arabic and benchmark the performance of state-of-the-art LLMs. We explore the impact of in-context learning and investigate various evaluation methods. Additionally, we explore workflows for generating questions with automatic validation to enhance the dataset's quality. We benchmark multilingual and Arabic-centric LLMs, such as GPT-4 and Jais, respectively. We also share our methodology for creating the dataset and validation, which can be generalized to other domains. We hope to accelerate AI research in the Arabic Legal domain by releasing the ArabLegalEval dataset and code: https://github.com/Thiqah/ArabLegalEval
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# マルチタスク学習における解析的不確かさに基づく損失重み付け

Analytical Uncertainty-Based Loss Weighting in Multi-Task Learning ( http://arxiv.org/abs/2408.07985v1 )

ライセンス: Link先を確認
Lukas Kirchdorfer, Cathrin Elich, Simon Kutsche, Heiner Stuckenschmidt, Lukas Schott, Jan M. Köhler, (参考訳) 様々なドメインにおけるニューラルネットワークの台頭により、マルチタスク学習(MTL)は大きな関連性を得た。 MTLにおける重要な課題は、ニューラルネットワークトレーニング中の個々のタスク損失のバランスをとることで、タスク間の知識共有を通じて、パフォーマンスと効率を改善することである。 これらの課題に対処するために,不確かさ重み付けの最も一般的なアプローチと解析学的に最適な不確実性に基づく重み付けの計算に基づいて,可変温度のソフトマックス関数によって正規化される新しいタスク重み付け手法を提案する。 我々のアプローチは、よりコスト効率が良く高いパフォーマンスの代替手段を提供しながら、組合せ的に禁止され、ブルートフォースのScalarizationアプローチに匹敵する結果をもたらす。 さまざまなデータセットやアーキテクチャに関する広範なベンチマークを実施します。 我々の手法は、他の6つの一般的な重み付け法より一貫して優れている。 さらに,MTLを実用化するための実験結果も報告した。 例えば、より大きなネットワークは重み付け方法の影響を減らし、重み付けの調整は学習率よりも低い影響を持つ。

With the rise of neural networks in various domains, multi-task learning (MTL) gained significant relevance. A key challenge in MTL is balancing individual task losses during neural network training to improve performance and efficiency through knowledge sharing across tasks. To address these challenges, we propose a novel task-weighting method by building on the most prevalent approach of Uncertainty Weighting and computing analytically optimal uncertainty-based weights, normalized by a softmax function with tunable temperature. Our approach yields comparable results to the combinatorially prohibitive, brute-force approach of Scalarization while offering a more cost-effective yet high-performing alternative. We conduct an extensive benchmark on various datasets and architectures. Our method consistently outperforms six other common weighting methods. Furthermore, we report noteworthy experimental findings for the practical application of MTL. For example, larger networks diminish the influence of weighting methods, and tuning the weight decay has a low impact compared to the learning rate.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# 建物におけるHVAC制御のためのオフライン強化学習の実験的検討

Experimental evaluation of offline reinforcement learning for HVAC control in buildings ( http://arxiv.org/abs/2408.07986v1 )

ライセンス: Link先を確認
Jun Wang, Linyan Li, Qi Liu, Yu Yang, (参考訳) 建物における動的HVAC制御のために, 強化学習(RL)技術がますます研究されている。 しかし、ほとんどの研究は、純粋にオフラインのデータセットやトラジェクトリを扱う実装の実現可能性や有効性について詳細に議論することなく、オンラインまたは非政治シナリオでのソリューションの探索に重点を置いている。 これらの研究の欠如は、歴史的データが豊富であることを考えると、RLベースのHVACコントローラの実際の展開を制限する。 そこで本研究では,解析的および数値的研究により,最先端のオフラインRLアルゴリズムの強みと限界を包括的に評価する。 この分析はアルゴリズムとデータセットの特徴の2つの観点から行われる。 前提条件として、オフラインRLアルゴリズムを適用する必要性は、2つの構築環境で最初に確認される。 観察履歴モデリングによる違反の低減と性能向上の可能性について検討した。 次に,制約満足度や消費電力など,定性的・定量的条件の異なるデータセット下でのRL制御の性能について検討した。 最後に、ある種のハイパーパラメータの感度も評価する。 その結果, ある準最適レベルと比較的小さなスケールのデータセットを用いて, 良好なRLベースのHVACコントローラを効果的に訓練できることが示唆された。 具体的には、そのようなコントローラは、室内温度の少なくとも28.5%の違反率を減らし、ベースラインコントローラと比較して少なくとも12.1%の省電力を達成することができる。 本稿は,HVACシステム構築にオフライン強化学習を適用した際のよく構造化された調査と新たな知見について述べる。

Reinforcement learning (RL) techniques have been increasingly investigated for dynamic HVAC control in buildings. However, most studies focus on exploring solutions in online or off-policy scenarios without discussing in detail the implementation feasibility or effectiveness of dealing with purely offline datasets or trajectories. The lack of these works limits the real-world deployment of RL-based HVAC controllers, especially considering the abundance of historical data. To this end, this paper comprehensively evaluates the strengths and limitations of state-of-the-art offline RL algorithms by conducting analytical and numerical studies. The analysis is conducted from two perspectives: algorithms and dataset characteristics. As a prerequisite, the necessity of applying offline RL algorithms is first confirmed in two building environments. The ability of observation history modeling to reduce violations and enhance performance is subsequently studied. Next, the performance of RL-based controllers under datasets with different qualitative and quantitative conditions is investigated, including constraint satisfaction and power consumption. Finally, the sensitivity of certain hyperparameters is also evaluated. The results indicate that datasets of a certain suboptimality level and relatively small scale can be utilized to effectively train a well-performed RL-based HVAC controller. Specifically, such controllers can reduce at most 28.5% violation ratios of indoor temperatures and achieve at most 12.1% power savings compared to the baseline controller. In summary, this paper presents our well-structured investigations and new findings when applying offline reinforcement learning to building HVAC systems.
翻訳日:2024-08-16 14:46:15 公開日:2024-08-15
# ラベル効率のよい癌診断のための学習環境の探索

Exploring learning environments for label\-efficient cancer diagnosis ( http://arxiv.org/abs/2408.07988v1 )

ライセンス: Link先を確認
Samta Rani, Tanvir Ahmad, Sarfaraz Masood, Chandni Saxena, (参考訳) 研究努力と進歩にもかかわらず、がんは依然として死の主因である。 早期がん予測は、患者のケアを効率化し、治療結果を改善するために、がん研究において重要な焦点となっている。 病理学者による手動腫瘍検出は時間を要するため、治療計画の迅速化のためにコンピュータ化された方法が必要である。 従来の腫瘍検出のアプローチは教師付き学習に依存しており、モデルトレーニングには大量の注釈付きデータが必要である。 しかし、そのような広範囲なラベル付きデータを取得するのは手間がかかるし、時間もかかる。 本研究では, 腎臓, 肺, 乳癌の3つの学習環境について検討した。 事前学習した3つのディープラーニングモデル(Residual Network\-50, Visual Geometry Group\-16, EfficientNetB0)を、これらの学習設定に基づいて、7つの慎重にキュレートされたトレーニングセットを用いて評価する。 第1のトレーニングセット(TS1)を作成するには、すべてのアノテーション付きイメージサンプルにSLを適用する。 ラベル付き画像とラベルなし画像の比率が異なる5つのトレーニングセット(TS2\-TS6)を用いてSemi\-SLを評価する。 最終訓練セット(TS7)からの未ラベルのがん画像を用いて自己-SL評価を行う。 学習環境の違いの中で,Semi\-SL設定の結果は,SL設定で達成した結果と強い一致を示した。 3つのデータセットの全てにまたがる事前訓練されたモデルからの観測の均一パターンは、研究の方法論と技術を検証する。 本研究は,ラベル付きサンプルの軽度数と最小計算コストに基づいて,ラベルアノテーション制約シナリオ下で,Semi\-SLオプションがSLオプションの代用として有効であることが示唆された。

Despite significant research efforts and advancements, cancer remains a leading cause of mortality. Early cancer prediction has become a crucial focus in cancer research to streamline patient care and improve treatment outcomes. Manual tumor detection by histopathologists can be time consuming, prompting the need for computerized methods to expedite treatment planning. Traditional approaches to tumor detection rely on supervised learning, necessitates a large amount of annotated data for model training. However, acquiring such extensive labeled data can be laborious and time\-intensive. This research examines the three learning environments: supervised learning (SL), semi\-supervised learning (Semi\-SL), and self\-supervised learning (Self\-SL): to predict kidney, lung, and breast cancer. Three pre\-trained deep learning models (Residual Network\-50, Visual Geometry Group\-16, and EfficientNetB0) are evaluated based on these learning settings using seven carefully curated training sets. To create the first training set (TS1), SL is applied to all annotated image samples. Five training sets (TS2\-TS6) with different ratios of labeled and unlabeled cancer images are used to evaluateSemi\-SL. Unlabeled cancer images from the final training set (TS7) are utilized for Self\-SL assessment. Among different learning environments, outcomes from the Semi\-SL setting show a strong degree of agreement with the outcomes achieved in the SL setting. The uniform pattern of observations from the pre\-trained models across all three datasets validates the methodology and techniques of the research. Based on modest number of labeled samples and minimal computing cost, our study suggests that the Semi\-SL option can be a highly viable replacement for the SL option under label annotation constraint scenarios.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# IIU:知識に基づく視覚質問応答のための独立推論ユニット

IIU: Independent Inference Units for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2408.07989v1 )

ライセンス: Link先を確認
Yili Li, Jing Yu, Keke Gai, Gang Xiong, (参考訳) 知識に基づく視覚的質問応答は、その質問に正しく答えるために、目に見えるコンテンツ以外の外部知識を必要とする。 既存の手法の1つの制限は、暗黙の埋め込みによって複雑なマルチモーダル手がかりを絡ませ、解釈可能性や一般化能力に欠ける、モーダル間およびモーダル内相関のモデリングに焦点が当てられていることである。 上記の問題を解決する上で重要な課題は、情報を分離し、機能レベルで個別に処理することだ。 各処理ユニットを再利用することにより、異なるデータを扱うモデルの一般化能力を高めることができる。 本稿では,機能的に独立な単位によってモーダル内情報を分解するための細粒度マルチモーダル推論のための独立推論ユニット(IIU)を提案する。 特に、IIUは、個別の推論ユニットによって各意味特異的なモーダルヒントを処理し、異なるユニットからの通信によって補完情報を収集する。 冗長な情報の影響をさらに軽減するため,意味的関連メモリを段階的に保持するメモリ更新モジュールを提案する。 従来の非事前学習型マルチモーダル推論モデルと比較して,我々のモデルは新たな最先端技術を実現し,性能を3%向上し,基礎的事前学習型マルチモーダルモデルを上回っている。 実験結果から,本モデルがモーダル内手がかりと推論ユニットを混同して説明可能な推論証拠を提供するのに有効であることが示唆された。 私たちのコードはhttps://github.com/Lilidamowang/IIU.comで公開されています。

Knowledge-based visual question answering requires external knowledge beyond visible content to answer the question correctly. One limitation of existing methods is that they focus more on modeling the inter-modal and intra-modal correlations, which entangles complex multimodal clues by implicit embeddings and lacks interpretability and generalization ability. The key challenge to solve the above problem is to separate the information and process it separately at the functional level. By reusing each processing unit, the generalization ability of the model to deal with different data can be increased. In this paper, we propose Independent Inference Units (IIU) for fine-grained multi-modal reasoning to decompose intra-modal information by the functionally independent units. Specifically, IIU processes each semantic-specific intra-modal clue by an independent inference unit, which also collects complementary information by communication from different units. To further reduce the impact of redundant information, we propose a memory update module to maintain semantic-relevant memory along with the reasoning process gradually. In comparison with existing non-pretrained multi-modal reasoning models on standard datasets, our model achieves a new state-of-the-art, enhancing performance by 3%, and surpassing basic pretrained multi-modal models. The experimental results show that our IIU model is effective in disentangling intra-modal clues as well as reasoning units to provide explainable reasoning evidence. Our code is available at https://github.com/Lilidamowang/IIU.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# FuseChat: チャットモデルの知識融合

FuseChat: Knowledge Fusion of Chat Models ( http://arxiv.org/abs/2408.07990v1 )

ライセンス: Link先を確認
Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan, (参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながる可能性があるが、かなりのコストがかかり、能力の冗長性につながる可能性がある。 知識融合は、軽量な連続的なトレーニングを通じて、多様なアーキテクチャと能力を持つ既存のLLMをより強力なLLMに統合することで、コストのかかるLLM開発の必要性を減らすことを目的としている。 本研究では,チャットLLMの知識融合のための新しいフレームワークを提案する。 まず、異なる構造とスケールのソースチャットLLM上でペアワイズ知識融合を行い、軽量な微調整により同一の構造とサイズを持つ複数のターゲットLLMを作成する。 この過程で、異なる構造を持つLLMを融合させる基盤として、統計に基づくトークンアライメント手法が導入された。 次に, パラメータ空間内にこれらのLLMをマージし, 微調整前後のパラメータ更新の大きさに基づいて, マージ係数を決定する手法を提案する。 我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。 AlpacaEval 2.0 と MT-Bench という2つの命令追従ベンチマークの実験結果から,FuseChat-7B の様々なサイズに対する優位性が示された。 我々のモデルはMixtral-8x7B-Instructに匹敵し、MT-Bench上でGPT-3.5-Turbo-1106にアプローチする。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseAI}で公開されています。

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseAI}.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# イベントカメラシミュレーションにおけるモンテカルロ経路追跡と統計的事象検出

Monte Carlo Path Tracing and Statistical Event Detection for Event Camera Simulation ( http://arxiv.org/abs/2408.07996v1 )

ライセンス: Link先を確認
Yuichiro Manabe, Tatsuya Yatagawa, Shigeo Morishima, Hiroyuki Kubo, (参考訳) 本稿では,適応的経路サンプリングによるモンテカルロ経路トレースを物理ベースとした新しいイベントカメラシミュレーションシステムを提案する。 提案手法で行った適応サンプリングは, 2つの遠隔時間における対数輝度差が, 予め定義された事象閾値よりもかなり大きいかどうかを仮説として, 統計的手法に基づく。 この目的のために、従来のRGBカメラを模倣したレンダリングシステムとは対照的に、レンダリングシステムは生の輝度よりも対数輝度を収集する。 そして、中心極限定理に基づき、対数輝度の集団平均の分布を正規分布としてモデル化することができ、対数輝度の差の分布を正規分布としてモデル化することができると合理的に仮定する。 次に,学生のt-testを用いて仮説を検証し,イベント非発生に対するヌル仮説を破棄するかどうかを判定する。 中心極限定理を満たすために十分な数の経路サンプルをサンプリングし,クリーンな事象の集合を得る場合,本手法は,各画素で一様にサンプリングされた経路の単純なアプローチに比べて,大幅に高速化される。 我々の知る限り、モンテカルロ経路追跡における適応サンプリング手法を用いて、イベントカメラの挙動を物理的に正確にシミュレートし、この研究がイベントカメラを用いたコンピュータビジョンアプリケーションの開発に寄与すると信じている。

This paper presents a novel event camera simulation system fully based on physically based Monte Carlo path tracing with adaptive path sampling. The adaptive sampling performed in the proposed method is based on a statistical technique, hypothesis testing for the hypothesis whether the difference of logarithmic luminances at two distant periods is significantly larger than a predefined event threshold. To this end, our rendering system collects logarithmic luminances rather than raw luminance in contrast to the conventional rendering system imitating conventional RGB cameras. Then, based on the central limit theorem, we reasonably assume that the distribution of the population mean of logarithmic luminance can be modeled as a normal distribution, allowing us to model the distribution of the difference of logarithmic luminance as a normal distribution. Then, using Student's t-test, we can test the hypothesis and determine whether to discard the null hypothesis for event non-occurrence. When we sample a sufficiently large number of path samples to satisfy the central limit theorem and obtain a clean set of events, our method achieves significant speed up compared to a simple approach of sampling paths uniformly at every pixel. To our knowledge, we are the first to simulate the behavior of event cameras in a physically accurate manner using an adaptive sampling technique in Monte Carlo path tracing, and we believe this study will contribute to the development of computer vision applications using event cameras.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# 3Qubitシステムを用いた量子エネルギーテレポーテーション

Enhanced Quantum Energy Teleportation using a 3-Qubit System ( http://arxiv.org/abs/2408.07997v1 )

ライセンス: Link先を確認
Md Shoyib Hassan, Syed Emad Uddin Shubha, M. R. C Mahdy, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、量子絡み合いを利用して、エネルギーを物理的に動かさずに2つの離れた場所間でエネルギーを伝達する新しい方法である。 超伝導ハードウェア上でのQETの最初の実現は、2キュービットのシステムを利用して、受信機Bobによって平均エネルギー回収効率が11.4%であることを示した。 本稿では,QETのエネルギー効率を高めるために,3量子システムを用いた新しい手法を提案する。 我々はこれを達成するために、ゼロ平均エネルギーの制約を満たす新しい3量子基底状態ハミルトニアンHを組み込んだ。 実験の結果, 平均効率は46.4%であり, 2キュービット系に比べて有意に向上した。 この進歩は、実用的な量子エネルギー応用の一歩であるだけでなく、将来の量子エネルギーテレポーテーションおよび関連する量子技術研究のための新しいフレームワークも提供する。

Quantum Energy Teleportation (QET) is a novel method that leverages quantum entanglement to transfer energy between two distant locations without any physical movement of the energy. The first realization of QET on superconducting hardware, utilizing a 2-qubit system, demonstrated an average energy retrieval efficiency of 11.4% by the receiver, Bob. In this paper, we present a new approach using a 3-qubit system to enhance the energy efficiency of QET. We have incorporated a novel 3-qubit ground state hamiltonian H to achieve this, that conforms the constraints of Zero mean energy. Our experimental results show a significant improvement in energy retrieval, achieving an average efficiency of 46.4%, which is significantly higher than that of the 2-qubit system. This advancement not only marks a step forward in practical quantum energy applications but also provides a new framework for future research in quantum energy teleportation and related quantum technologies.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# Co-Fix3D:コラボレーティブリファインメントによる3次元物体検出の強化

Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement ( http://arxiv.org/abs/2408.07999v1 )

ライセンス: Link先を確認
Wenxuan Li, Qin Zou, Chi Chen, Bo Du, Long Chen, (参考訳) 自律運転の領域では、隠蔽された物体や遠方の物体を正確に検出し、弱い正のサンプルとして評価すると、重大な課題が示される。 これらの課題は主にクエリ初期化時に発生し、ヒートマップの信頼性の過度な信頼性は、しばしば偽陽性の頻度を高くし、結果として弱い検出とシステム性能の低下を隠蔽する。 この問題を軽減するために,BEV表現のための協調型マルチステージ並列クエリ生成機構であるCo-Fix3Dを提案する。 提案手法では,BEV機能を改良し,弱い正のサンプルをより効果的に強調するLGEモジュールを組み込んだ。 離散ウェーブレット変換(DWT)を高精度なノイズ低減に利用し、ローカライズされた領域における改善を特徴とし、グローバルなBEV機能をより包括的に最適化するアテンションメカニズムを取り入れている。 さらに,LGEの多段並列処理によりBEVクエリのボリュームを増大させ,弱い正のサンプルを選択する確率を大幅に向上させる。 この強化により、デコーダフレームワーク内のトレーニング効率が向上するだけでなく、システム全体のパフォーマンスも向上する。 特に、Co-Fix3Dは、厳密なnuScenesベンチマークにおいて、テスト時間拡張や追加データセットに頼ることなく、LiDARベンチマークで69.1%のmAPと72.9%のNDS、マルチモダリティベンチマークで72.3%のmAPと74.1%のNDSで、以前のすべてのモデルよりも優れた結果を得る。 ソースコードは受理時に公開されます。

In the realm of autonomous driving,accurately detecting occluded or distant objects,referred to as weak positive sample ,presents significant challenges. These challenges predominantly arise during query initialization, where an over-reliance on heatmap confidence often results in a high rate of false positives, consequently masking weaker detections and impairing system performance. To alleviate this issue, we propose a novel approach, Co-Fix3D, which employs a collaborative hybrid multi-stage parallel query generation mechanism for BEV representations. Our method incorporates the Local-Global Feature Enhancement (LGE) module, which refines BEV features to more effectively highlight weak positive samples. It uniquely leverages the Discrete Wavelet Transform (DWT) for accurate noise reduction and features refinement in localized areas, and incorporates an attention mechanism to more comprehensively optimize global BEV features. Moreover, our method increases the volume of BEV queries through a multi-stage parallel processing of the LGE, significantly enhancing the probability of selecting weak positive samples. This enhancement not only improves training efficiency within the decoder framework but also boosts overall system performance. Notably, Co-Fix3D achieves superior results on the stringent nuScenes benchmark, outperforming all previous models with a 69.1% mAP and 72.9% NDS on the LiDAR-based benchmark, and 72.3% mAP and 74.1% NDS on the multi-modality benchmark, without relying on test-time augmentation or additional datasets. The source code will be made publicly available upon acceptance.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# MVInpainter:2Dと3D編集を橋渡しするマルチビュー・コンシステント・インペインティングを学習する

MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing ( http://arxiv.org/abs/2408.08000v1 )

ライセンス: Link先を確認
Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue, (参考訳) 新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。 しかし、これらは主に、限定されたカテゴリや合成3Dアセットに焦点が当てられている。 さらに、これらの手法はカメラのポーズに大きく依存し、実際の応用を制限する。 これらの課題を克服するため,MVInpainterを提案し,マルチビュー2Dインペインティングタスクとして3D編集を再構成する。 具体的には、MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。 クロスビューの整合性を確保するため、MVInpainterは、モーションコンポーネントからの動画先行と、連結された参照キー/バリューアテンションからの外観ガイダンスによって強化される。 さらに、MVInpainterはスロットアテンションを取り入れて、未成熟領域からの高レベル光フローの特徴を集約し、ポーズなしのトレーニングと推論でカメラの動きを制御する。 オブジェクト中心と前方の両方のデータセットに対する十分なシーンレベルの実験は、多視点オブジェクト除去、合成、挿入、置換といった様々なタスクを含むMVInpainterの有効性を検証する。 プロジェクトページはhttps://ewrfcas.github.io/MVInpainter/。

Novel View Synthesis (NVS) and 3D generation have recently achieved prominent improvements. However, these works mainly focus on confined categories or synthetic 3D assets, which are discouraged from generalizing to challenging in-the-wild scenes and fail to be employed with 2D synthesis directly. Moreover, these methods heavily depended on camera poses, limiting their real-world applications. To overcome these issues, we propose MVInpainter, re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically, MVInpainter partially inpaints multi-view images with the reference guidance rather than intractably generating an entirely novel view from scratch, which largely simplifies the difficulty of in-the-wild NVS and leverages unmasked clues instead of explicit pose conditions. To ensure cross-view consistency, MVInpainter is enhanced by video priors from motion components and appearance guidance from concatenated reference key&value attention. Furthermore, MVInpainter incorporates slot attention to aggregate high-level optical flow features from unmasked regions to control the camera movement with pose-free training and inference. Sufficient scene-level experiments on both object-centric and forward-facing datasets verify the effectiveness of MVInpainter, including diverse tasks, such as multi-view object removal, synthesis, insertion, and replacement. The project page is https://ewrfcas.github.io/MVInpainter/.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# サードパーティクラウドサービスとFHE(回路深度管理におけるデータエンコーディングの回転)を用いた実用的プライバシ保護アイデンティティ検証

Practical Privacy-Preserving Identity Verification using Third-Party Cloud Services and FHE (Role of Data Encoding in Circuit Depth Management) ( http://arxiv.org/abs/2408.08002v1 )

ライセンス: Link先を確認
Deep Inder Mohan, Srinivas Vivek, (参考訳) 国家デジタルID認証システムは、特に発展途上国において、商品やサービスの効果的な流通において重要な役割を担っている。 このようなシステムのデプロイとメンテナンスに要するコストと、社内の技術的専門知識の欠如が相まって、政府はこのサービスを可能な限りサードパーティのクラウドサービスプロバイダにアウトソースしようとしている。 これにより、ユーザの個人情報のプライバシーに関する懸念が高まる。 本研究では,サードパーティのクラウドサービスが,BFVなどのFHE方式を用いて暗号化されたIDデータを処理する,実用的なプライバシ保護デジタルID(ID)検証プロトコルを提案する。 政府のような信頼できる組織の役割は完全には排除されていないが、我々のプロトコルはそのような関係者の計算負荷を大幅に削減する。 FHEを用いたプライバシー保護ID認証プロトコルを実装する上での課題は、正確なおよび/またはファジィな人口統計や、安全な年齢比較を含む生体認証マッチングなど、さまざまなタイプのクエリをサポートすることである。 暗号工学の観点からは、我々の主な技術的貢献は、人口統計学的および生体的ユーザーデータを2つのBFV暗号文にエンコードするユーザーデータ符号化方式であり、また、様々な種類のID検証クエリをサードパーティのクラウドにアウトソースするのに役立つ。 私たちの符号化方式は、信頼できるエンティティによって実行される唯一の計算が、クエリ非依存の"拡張"復号化であることも保証します。 これは、信頼されたサーバに非論理的操作をアウトソースする最近の作業とは対照的である。 我々は,Microsoft SEAL FHEライブラリを用いてプロトコルを実装し,その実用性を実証する。

National digital identity verification systems have played a critical role in the effective distribution of goods and services, particularly, in developing countries. Due to the cost involved in deploying and maintaining such systems, combined with a lack of in-house technical expertise, governments seek to outsource this service to third-party cloud service providers to the extent possible. This leads to increased concerns regarding the privacy of users' personal data. In this work, we propose a practical privacy-preserving digital identity (ID) verification protocol where the third-party cloud services process the identity data encrypted using a (single-key) Fully Homomorphic Encryption (FHE) scheme such as BFV. Though the role of a trusted entity such as government is not completely eliminated, our protocol does significantly reduces the computation load on such parties. A challenge in implementing a privacy-preserving ID verification protocol using FHE is to support various types of queries such as exact and/or fuzzy demographic and biometric matches including secure age comparisons. From a cryptographic engineering perspective, our main technical contribution is a user data encoding scheme that encodes demographic and biometric user data in only two BFV ciphertexts and yet facilitates us to outsource various types of ID verification queries to a third-party cloud. Our encoding scheme also ensures that the only computation done by the trusted entity is a query-agnostic "extended" decryption. This is in stark contrast with recent works that outsource all the non-arithmetic operations to a trusted server. We implement our protocol using the Microsoft SEAL FHE library and demonstrate its practicality.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# 高品質ファインチューニングのためのWebクローリングデータの活用

Leveraging Web-Crawled Data for High-Quality Fine-Tuning ( http://arxiv.org/abs/2408.08003v1 )

ライセンス: Link先を確認
Jing Zhou, Chenglin Jiang, Wei Shen, Xiao Zhou, Xiaonan He, (参考訳) ほとんどの大きな言語モデルは、高価な人間アノテーション付きデータか、特定のドメインのパフォーマンスを保証できないGPT-4生成データを使って微調整される。 GPT-4のような高度なモデルに頼ることなく、特定のドメインにおける高品質な教師付き微調整のための貴重な情報源として役立てることができる。 この目的のために、Webcrawledデータをより小さな高品質なデータセットに整列させることで、ペア化されたトレーニングデータセットを自動生成する。 このデータセット上で言語モデルをトレーニングすることにより、不規則なフォーマットでWebデータを高品質なものに変換することができる。 実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。 さらに、我々の7Bモデルは32B以上のオープンソースモデルより優れており、GPT-3.5のような有名なクローズドソースモデルよりも優れており、我々のアプローチの有効性を強調している。

Most large language models are fine-tuned using either expensive human-annotated data or GPT-4 generated data which cannot guarantee performance in certain domains. We argue that although the web-crawled data often has formatting errors causing semantic inaccuracies, it can still serve as a valuable source for high-quality supervised fine-tuning in specific domains without relying on advanced models like GPT-4. To this end, we create a paired training dataset automatically by aligning web-crawled data with a smaller set of high-quality data. By training a language model on this dataset, we can convert web data with irregular formats into high-quality ones. Our experiments show that training with the model-transformed data yields better results, surpassing training with only high-quality data by an average score of 9.4% in Chinese math problems. Additionally, our 7B model outperforms several open-source models larger than 32B and surpasses well-known closed-source models such as GPT-3.5, highlighting the efficacy of our approach.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# Inversion-DeepONet:フルウェーブフォームインバージョンのためのエンコーダデコーダを備えた新しいDeepONetベースネットワーク

Inversion-DeepONet: A Novel DeepONet-Based Network with Encoder-Decoder for Full Waveform Inversion ( http://arxiv.org/abs/2408.08005v1 )

ライセンス: Link先を確認
Zekai Guo, Lihui Chai, Shengjun Huang, Ye Li, (参考訳) フルウェーブフォーム・インバージョン(FWI)は、地球物理学の分野において重要な役割を担っている。 深層学習(DL)手法をFWIに適用する研究は数多く行われている。 DL-FWIの成功はデータセットの量と多様性に大きく依存している。 それでも、ソースが固定された位置または同一の周波数を持つOpenFWIのような既存のFWIデータセットは、限られた情報を提供し、複雑な現実世界のシーンを表現しない。 例えば、低周波は大規模な構造を解くのに役立つ。 高周波数はより詳細な地下構造を可能にする。 % 単音源周波数は地下構造特性を記述するには不十分である。 我々は、低周波データを用いて逆変換を行う代わりに、異なる周波数のソースを同時に使用することにより、より高周波データを徐々に導入するのではなく、合理的かつ潜在的な利点があると考えている。 そこで,OpenFWIをベースとした3つの拡張データセットを開発し,それぞれのソースが異なる位置,周波数,あるいはその両方を持つようにした。 さらに、FWIのための新しいディープオペレータネットワーク(DeepONet)アーキテクチャInversion-DeepONetを提案する。 分岐網内の地震データから特徴を抽出するために畳み込みニューラルネットワーク(CNN)を用いる。 位置や周波数などのソースパラメータは、トランクネットに供給される。 次に、DeepONetのデコーダとして別のCNNを使用し、ベロシティモデルをより効率的に再構築する。 実験により、既存のデータ駆動FWI法と比較して、ネットワークの精度と一般化能力の優れた性能を確認した。

Full waveform inversion (FWI) plays a crucial role in the field of geophysics. There has been lots of research about applying deep learning (DL) methods to FWI. The success of DL-FWI relies significantly on the quantity and diversity of the datasets. Nevertheless, existing FWI datasets, like OpenFWI, where sources have fixed locations or identical frequencies, provide limited information and do not represent the complex real-world scene. For instance, low frequencies help in resolving larger-scale structures. High frequencies allow for a more detailed subsurface features. %A single source frequency is insufficient to describe subsurface structural properties. We consider that simultaneously using sources with different frequencies, instead of performing inversion using low frequencies data and then gradually introducing higher frequencies data, has rationale and potential advantages. Hence, we develop three enhanced datasets based on OpenFWI where each source have varying locations, frequencies or both. Moreover, we propose a novel deep operator network (DeepONet) architecture Inversion-DeepONet for FWI. We utilize convolutional neural network (CNN) to extract the features from seismic data in branch net. Source parameters, such as locations and frequencies, are fed to trunk net. Then another CNN is employed as the decoder of DeepONet to reconstruct the velocity models more effectively. Through experiments, we confirm the superior performance on accuracy and generalization ability of our network, compared with existing data-driven FWI methods.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# ヘシアンQM9:暗黙の溶媒中の分子ヘシアンの量子化学データベース

Hessian QM9: A quantum chemistry database of molecular Hessians in implicit solvents ( http://arxiv.org/abs/2408.08006v1 )

ライセンス: Link先を確認
Nicholas J. Williams, Lara Kabalan, Ljiljana Stojanovic, Viktor Zolyomi, Edward O. Pyzer-Knapp, (参考訳) 計算化学における重要な課題は、精度を保ちながら \emph{ab initio} 法を加速する近似を開発することである。 機械学習原子間ポテンシャル(MLIP)は、異なる分子系と結晶系に転移可能な原子性ポテンシャルを構築するための有望な解決策として登場した。 ほとんどのMLIPは真空中のエネルギーと力でしか訓練されないが、ポテンシャルエネルギー表面の曲率を含めることで、ポテンシャルエネルギー表面の描写を改良することができる。 本報告では,QM9データセットから41,645個の分子からなる平衡配置と数値ヘッセン行列のデータベースであるHessian QM9を,$\omega$B97x/6-31G*レベルで提示する。 水、テトラヒドロフラン、トルエンを暗黙の溶媒モデルを用いて真空で計算した。 本データセットの有用性を実証するため,MLIPの損失関数にポテンシャルエネルギー表面の2次誘導体を組み込むことで,全ての溶媒環境における振動周波数の予測が大幅に向上することを示し,本データセットを現実的な溶媒環境における有機分子の研究に極めて有用であることを示す。

A significant challenge in computational chemistry is developing approximations that accelerate \emph{ab initio} methods while preserving accuracy. Machine learning interatomic potentials (MLIPs) have emerged as a promising solution for constructing atomistic potentials that can be transferred across different molecular and crystalline systems. Most MLIPs are trained only on energies and forces in vacuum, while an improved description of the potential energy surface could be achieved by including the curvature of the potential energy surface. We present Hessian QM9, the first database of equilibrium configurations and numerical Hessian matrices, consisting of 41,645 molecules from the QM9 dataset at the $\omega$B97x/6-31G* level. Molecular Hessians were calculated in vacuum, as well as water, tetrahydrofuran, and toluene using an implicit solvation model. To demonstrate the utility of this dataset, we show that incorporating second derivatives of the potential energy surface into the loss function of a MLIP significantly improves the prediction of vibrational frequencies in all solvent environments, thus making this dataset extremely useful for studying organic molecules in realistic solvent environments for experimental characterization.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# 閉カオス量子系における「時間関数の狭さ」のエビデンス

Evidence for simple "arrow of time functions" in closed chaotic quantum systems ( http://arxiv.org/abs/2408.08007v1 )

ライセンス: Link先を確認
Merlin Füllgraf, Jiaozi Wang, Jochen Gemmer, (参考訳) 明示的な構成により、任意の無限温度自己相関関数 $C(t)$ に関数の集合 $\alpha^n(t)$ を割り当てる。 C(t)$ からの $\alpha^n(t)$ の構成は、$C(t)$ の最初の 2n$ 時間微分を 0$ および $t$ で要求する。 私たちの焦点は$\alpha^n(t)$で、(ほとんど)単調に減少し、これらの ``arrows of Time Function" (AOTFs) と呼ばれます。 低い$n$を特徴とするAOTFは、ある系のパラメータの変動に関して、システムが非カオス的な状態にあるか、あるいは近いかでない限り、常に見つかる。 すべての $\alpha^n(t)$ は各自己相関関数、すなわち $\alpha^n(t) \geq C^2(t)$ に上限を置く。 したがって、AOTFの存在の含意は、平衡への直接的アプローチを示すため、H-定理の含意に匹敵する。 さらに、我々の数値的な発見は、ある程度は作用素の成長仮説に遡ることができると論じる。 この議論は、いわゆる再帰法(recursion method)の枠組みで述べられている。

Through an explicit construction, we assign to any infinite temperature autocorrelation function $C(t)$ a set of functions $\alpha^n(t)$. The construction of $\alpha^n(t)$ from $C(t)$ requires the first $2n$ temporal derivatives of $C(t)$ at times $0$ and $t$. Our focus is on $\alpha^n(t)$ that (almost) monotonously decrease, we call these ``arrows of time functions" (AOTFs). For autocorrelation functions of few body observables we numerically observe the following: An AOTF featuring a low $n$ may always be found unless the the system is in or close to a nonchaotic regime with respect to a variation of some system parameter. All $\alpha^n(t)$ put upper bounds to the respective autocorrelation functions, i.e. $\alpha^n(t) \geq C^2(t)$. Thus the implication of the existence of an AOTF is comparable to that of the H-Theorem, as it indicates a directed approach to equilibrium. We furthermore argue that our numerical finding may to some extent be traced back to the operator growth hypothesis. This argument is laid out in the framework of the so-called recursion method.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# 測定デバイス非依存量子鍵分布における強度相関

Intensity correlations in measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2408.08011v1 )

ライセンス: Link先を確認
Junxuan Liu, Tianyi Xing, Ruiyin Liu, Zihao Chen, Hao Tan, Anqi Huang, (参考訳) 測定デバイス非依存量子鍵分布(MDI QKD)システムにおける量子状態準備中の不完全な変調による強度相関は、そのセキュリティ性能を損なう。 したがって、MDI QKDシステムの実用セキュリティに対する強度相関の影響を評価することが重要である。 本研究では,MDI QKDシステムのキーレートを,強度相関の下で定量的に解析する理論モデルを提案する。 さらに,この理論モデルを実測強度相関を用いたMDI QKDシステムに適用することにより,本モデルの下で鍵を効率よく生成することが困難であることを示す。 また、秘密鍵を生成するために強度相関の境界条件についても検討する。 本研究は,MDI QKDプロトコルに対する強度相関のセキュリティ解析を拡張し,MDI QKDシステムの実用的セキュリティを評価する方法論を提供する。

The intensity correlations due to imperfect modulation during the quantum-state preparation in a measurement-device-independent quantum key distribution (MDI QKD) system compromise its security performance. Therefore, it is crucial to assess the impact of intensity correlations on the practical security of MDI QKD systems. In this work, we propose a theoretical model that quantitatively analyzes the secure key rate of MDI QKD systems under intensity correlations. Furthermore, we apply the theoretical model to a practical MDI QKD system with measured intensity correlations, which shows that the system struggles to generate keys efficiently under this model. We also explore the boundary conditions of intensity correlations to generate secret keys. This study extends the security analysis of intensity correlations to MDI QKD protocols, providing a methodology to evaluate the practical security of MDI QKD systems.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# フェイクニュース検出のための一貫性と不整合情報の適応学習

Adaptive Learning of Consistency and Inconsistency Information for Fake News Detection ( http://arxiv.org/abs/2408.08013v1 )

ライセンス: Link先を確認
Aohan Li, Jiaxin Chen, Xin Liao, Dengyong Zhang, (参考訳) ソーシャルメディアプラットフォームの急速な進歩は、情報発信のコストを大幅に削減した一方で、偽ニュースの拡散を招き、社会的信頼と信頼性を脅かしている。 フェイクニュース検出研究の大半は、ニュースコンテンツにおける複数のモードの一貫性を表現するために、テキストと画像情報を統合することに焦点を当て、一貫性のない情報に注意を払っていない。 さらに、一貫性のない情報を活用する既存の手法は、しばしば別のモードをシャドーイングする1つのモードを引き起こし、一貫性のない手がかりを効果的に利用した。 これらの問題に対処するために,適応型マルチモーダル機能融合ネットワーク(MFF-Net)を提案する。 MFF-Netは、ニュースの真偽を判断する人間の判断プロセスにインスパイアされ、ニュースコンテンツが概して一貫性のある、一貫性のない部分である場合に、一貫性のない部分に焦点を当てる。 具体的には、画像とテキストから意味的特徴とグローバルな特徴を抽出し、複数の特徴融合モジュールを通じてモード間の一貫性情報を学習する。 モーダル情報をマスキングし易い問題に対処するため,対応モードから不整合情報を分離する単一モーダル特徴フィルタリング戦略を設計する。 最後に、一貫した特徴と矛盾しない特徴の重み付き融合を実現するための適応調整を施した大域的特徴に基づいて類似度スコアを算出する。 MFF-Netは、実際のソーシャルメディアから派生した3つの公開ニュースデータセットにおいて、最先端の手法よりも優れていることを示す。

The rapid advancement of social media platforms has significantly reduced the cost of information dissemination, yet it has also led to a proliferation of fake news, posing a threat to societal trust and credibility. Most of fake news detection research focused on integrating text and image information to represent the consistency of multiple modes in news content, while paying less attention to inconsistent information. Besides, existing methods that leveraged inconsistent information often caused one mode overshadowing another, leading to ineffective use of inconsistent clue. To address these issues, we propose an adaptive multi-modal feature fusion network (MFF-Net). Inspired by human judgment processes for determining truth and falsity in news, MFF-Net focuses on inconsistent parts when news content is generally consistent and consistent parts when it is generally inconsistent. Specifically, MFF-Net extracts semantic and global features from images and texts respectively, and learns consistency information between modes through a multiple feature fusion module. To deal with the problem of modal information being easily masked, we design a single modal feature filtering strategy to capture inconsistent information from corresponding modes separately. Finally, similarity scores are calculated based on global features with adaptive adjustments made to achieve weighted fusion of consistent and inconsistent features. Extensive experimental results demonstrate that MFF-Net outperforms state-of-the-art methods across three public news datasets derived from real social medias.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# Asteroid: 異種エッジデバイスを用いた協調DNNトレーニングのための資源効率の良いハイブリッドパイプライン並列性

Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices ( http://arxiv.org/abs/2408.08015v1 )

ライセンス: Link先を確認
Shengyuan Ye, Liekang Zeng, Xiaowen Chu, Guoliang Xing, Xu Chen, (参考訳) デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。 しかし、集中的なトレーニングワークロードと限られたオンボードコンピューティングリソースは、モデルトレーニングの可用性と効率に重大な課題をもたらす。 既存の作業では、ネイティブリソース管理の最適化を通じてこれらの課題に対処していますが、エッジ環境は通常、単一の端末を超えたアイドルリソースを備えた信頼できるエッジデバイスのリッチなセットで構成されています。 Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。 Asteroidは、分散トレーニングをオーケストレーションするためにハイブリッドパイプライン並列性を採用し、特定のリソース制約下でスループットを最大化するための司法並列性を計画している。 さらに、耐障害性がありながら軽量なパイプライン再生機構が開発され、堅牢性と性能安定性をトレーニングするためのデバイスレベルのダイナミクスが実現された。 我々は、視覚モデルと言語モデルの両方で異種エッジデバイスにAsteroidを実装し、従来の並列化法よりも最大12.2倍、最先端のハイブリッド並列化法より2.1倍の高速なトレーニングを評価を通して実施した。 さらに、Asteroidは、予想外のデバイス離脱と障害にもかかわらず、同等のスループットを維持しながら、ベースラインメソッドよりも14倍早くトレーニングパイプラインを回復することができる。

On-device Deep Neural Network (DNN) training has been recognized as crucial for privacy-preserving machine learning at the edge. However, the intensive training workload and limited onboard computing resources pose significant challenges to the availability and efficiency of model training. While existing works address these challenges through native resource management optimization, we instead leverage our observation that edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources beyond a single terminal. We propose Asteroid, a distributed edge training system that breaks the resource walls across heterogeneous edge devices for efficient model training acceleration. Asteroid adopts a hybrid pipeline parallelism to orchestrate distributed training, along with a judicious parallelism planning for maximizing throughput under certain resource constraints. Furthermore, a fault-tolerant yet lightweight pipeline replay mechanism is developed to tame the device-level dynamics for training robustness and performance stability. We implement Asteroid on heterogeneous edge devices with both vision and language models, demonstrating up to 12.2x faster training than conventional parallelism methods and 2.1x faster than state-of-the-art hybrid parallelism methods through evaluations. Furthermore, Asteroid can recover training pipeline 14x faster than baseline methods while preserving comparable throughput despite unexpected device exiting and failure.
翻訳日:2024-08-16 14:36:26 公開日:2024-08-15
# Liouville量子マスター方程式による生体伝導の計算

Computation of Biological Conductance with Liouville Quantum Master Equation ( http://arxiv.org/abs/2408.08017v1 )

ライセンス: Link先を確認
Eszter Papp, Gabor Vattay, (参考訳) 近年の研究では、単一のタンパク質は、低温で有限に保たれる高い伝導性を示し、ゆっくりと距離を保ち、高導電性で強い絶縁ドメインを特徴とする豊富な空間構造を示すことが示されている。 ここでは,ナノスケールデバイスにおける量子輸送をシミュレートするLiouville-Master方程式の密度行列と,タンパク質のコンダクタンスの観測距離と温度依存性を考慮に入れた分子による電子伝導の現象論的モデルを組み合わせることで,新しい式を導出する。 導電性および絶縁性部品の配置に関心があるため, 電子配線を計算し, 可視化することで, 新たなアプローチを立証できる可能性が示唆された, 高導電性細胞外シトクロムナノワイヤにおいて, その有効性を示す。 タンパク質とタンパク質ナノワイヤは、エネルギー生産やセンシングを含む多様な用途に有意な可能性を秘めているため、我々の計算技術はナノバイオエレクトロニクスデバイスの設計を加速させることができる。

Recent experiments have revealed that single proteins can display high conductivity, which stays finite for low temperatures, decays slowly with distance, and exhibits a rich spatial structure featuring highly conducting and strongly insulating domains. Here, we intruduce a new formula by combining the density matrix of the Liouville-Master Equation simulating quantum transport in nanoscale devices, and the phenomenological model of electronic conductance through molecules, that can account for the observed distance- and temperature dependence of conductance in proteins. We demonstrate its efficacy on experimentally highly conductive extracellular cytochrome nanowires, which are good candidates to illustrate our new approach by calculating and visualizing their electronic wiring, given the interest in the arrangement of their conducting and insulating parts. As proteins and protein nanowires exhibit significant potential for diverse applications, including energy production and sensing, our computational technique can accelerate the design of nano-bioelectronic devices.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 逆流マッチング最適化による高忠実度波形生成の高速化

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization ( http://arxiv.org/abs/2408.08019v1 )

ライセンス: Link先を確認
Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee, (参考訳) 本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。 近年,条件付きフローマッチング(CFM)生成モデルが波形生成タスクに成功し,単一のベクトル場推定目標をトレーニングに活用している。 これらのモデルは高忠実度波形信号を生成することができるが、単一の生成ステップしか必要としないGANベースのモデルに比べて、ODEのステップがかなり必要である。 さらに、生成したサンプルはノイズベクトル場推定による高周波情報を欠くことが多く、高周波再生の確保に失敗する。 この制限に対処するために、固定ステップジェネレータを組み込むことにより、事前訓練されたCFMベースの生成モデルを強化する。 我々は,高忠実度波形生成を高速化するために,再建損失と対向フィードバックを利用した。 逆流整合最適化により、様々な客観的指標をまたいだ最先端のパフォーマンスを達成するためには、1,000ステップの微調整しか必要としない。 さらに、推論速度を16段階から2段階または4段階に大幅に削減する。 さらに、一般化を改善するために、周期波のバックボーンを29Mから70Mパラメータにスケールアップすることにより、LibriTTSデータセット上での音声品質(PESQ)スコアの4.454を知覚的に評価し、前例のない性能を達成する。 オーディオサンプル、ソースコード、チェックポイントはhttps://github.com/sh-lee-prml/PeriodWave.comで入手できる。

This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient waveform generation model via adversarial flow matching optimization. Recently, conditional flow matching (CFM) generative models have been successfully adopted for waveform generation tasks, leveraging a single vector field estimation objective for training. Although these models can generate high-fidelity waveform signals, they require significantly more ODE steps compared to GAN-based models, which only need a single generation step. Additionally, the generated samples often lack high-frequency information due to noisy vector field estimation, which fails to ensure high-frequency reproduction. To address this limitation, we enhance pre-trained CFM-based generative models by incorporating a fixed-step generator modification. We utilized reconstruction losses and adversarial feedback to accelerate high-fidelity waveform generation. Through adversarial flow matching optimization, it only requires 1,000 steps of fine-tuning to achieve state-of-the-art performance across various objective metrics. Moreover, we significantly reduce inference speed from 16 steps to 2 or 4 steps. Additionally, by scaling up the backbone of PeriodWave from 29M to 70M parameters for improved generalization, PeriodWave-Turbo achieves unprecedented performance, with a perceptual evaluation of speech quality (PESQ) score of 4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will be available at https://github.com/sh-lee-prml/PeriodWave.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# DIVE: Descriptive and Diverse Visual Commonsense Generationを目指して

DIVE: Towards Descriptive and Diverse Visual Commonsense Generation ( http://arxiv.org/abs/2408.08021v1 )

ライセンス: Link先を確認
Jun-Hyung Park, Hyuntae Park, Youjin Kang, Eojin Jeon, SangKeun Lee, (参考訳) 人間レベルの視覚的理解に向けて、画像以外のコモンセンス推論を生成するために視覚的コモンセンス生成が導入されている。 しかしながら、視覚的コモンセンス生成に関する現在の研究は、記述的で多様な推論を生成するという重要な人間の認知能力を見落としている。 本研究では、生成した推論の記述性と多様性を改善することを目的とした、DIVEと呼ばれる新しいビジュアルコモンセンス生成フレームワークを提案する。 DIVEには、ジェネリック推論フィルタリングとコントラスト検索学習という2つの方法が含まれており、既存のビジュアルコモンセンスリソースの限界とトレーニング目標に対処する。 実験結果から,DIVEは記述性と多様性の両面から,視覚的コモンセンス生成のための最先端モデルよりも優れており,独特かつ斬新な推論を生成する上で,優れた品質を示す。 特に、DIVEはVisual Commonsense Graphsの人間レベルの記述性と多様性を実現している。 さらに、人間の評価では、DIVEは記述性や多様性に関する人間の判断と密接に一致していることが確認されている。

Towards human-level visual understanding, visual commonsense generation has been introduced to generate commonsense inferences beyond images. However, current research on visual commonsense generation has overlooked an important human cognitive ability: generating descriptive and diverse inferences. In this work, we propose a novel visual commonsense generation framework, called DIVE, which aims to improve the descriptiveness and diversity of generated inferences. DIVE involves two methods, generic inference filtering and contrastive retrieval learning, which address the limitations of existing visual commonsense resources and training objectives. Experimental results verify that DIVE outperforms state-of-the-art models for visual commonsense generation in terms of both descriptiveness and diversity, while showing a superior quality in generating unique and novel inferences. Notably, DIVE achieves human-level descriptiveness and diversity on Visual Commonsense Graphs. Furthermore, human evaluations confirm that DIVE aligns closely with human judgments on descriptiveness and diversity\footnote{Our code and dataset are available at https://github.com/Park-ing-lot/DIVE.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 短時間の不変性に基づく畳み込みニューラルネットワークを用いた時系列データからの因果発見

Causal Discovery from Time-Series Data with Short-Term Invariance-Based Convolutional Neural Networks ( http://arxiv.org/abs/2408.08023v1 )

ライセンス: Link先を確認
Rujia Shen, Boran Wang, Chao Zhao, Yi Guan, Jingchi Jiang, (参考訳) 時系列データによる因果発見は、時間連鎖内の変数間のスライス内(同時)とインタースライス間(同時)の因果関係を捉えることを目的としており、これは様々な科学分野において不可欠である。 非時系列データからの因果的発見と比較して、時系列データからの因果的発見は、より大きな観測時間ステップでよりシリアライズされたサンプルを必要とする。 これらの課題に対処するため、我々は、時系列データから因果関係を明らかにするために、新しい勾配に基づく因果発見アプローチ STIC を提案し、これは \textbf{S}hort-\textbf{T}erm \textbf{I}nvariance に着目している。 具体的には、STICは、独立性を持つ各ウィンドウ観察における因果関係の短期的時間と機構的不変性の両方を活用して、サンプル効率を向上させる。 さらに、窓因果グラフを推定するために、短期時間とメカニズムのばらつきに対応する2つの因果畳み込みカーネルを構築した。 時系列データから因果的発見を行うための畳み込みニューラルネットワークの必要性を示すため,加算雑音モデルが同定可能であるという仮定の下で,畳み込みと基本生成原理との等価性を理論的に導出する。 合成およびFMRIベンチマークを用いて行った実験により、STICはベースラインを著しく上回り、特に観測時間ステップが限られている場合、最先端の性能を達成することが示された。 コードは \url{https://github.com/HITshenrj/STIC} で入手できる。

Causal discovery from time-series data aims to capture both intra-slice (contemporaneous) and inter-slice (time-lagged) causality between variables within the temporal chain, which is crucial for various scientific disciplines. Compared to causal discovery from non-time-series data, causal discovery from time-series data necessitates more serialized samples with a larger amount of observed time steps. To address the challenges, we propose a novel gradient-based causal discovery approach STIC, which focuses on \textbf{S}hort-\textbf{T}erm \textbf{I}nvariance using \textbf{C}onvolutional neural networks to uncover the causal relationships from time-series data. Specifically, STIC leverages both the short-term time and mechanism invariance of causality within each window observation, which possesses the property of independence, to enhance sample efficiency. Furthermore, we construct two causal convolution kernels, which correspond to the short-term time and mechanism invariance respectively, to estimate the window causal graph. To demonstrate the necessity of convolutional neural networks for causal discovery from time-series data, we theoretically derive the equivalence between convolution and the underlying generative principle of time-series data under the assumption that the additive noise model is identifiable. Experimental evaluations conducted on both synthetic and FMRI benchmark datasets demonstrate that our STIC outperforms baselines significantly and achieves the state-of-the-art performance, particularly when the datasets contain a limited number of observed time steps. Code is available at \url{https://github.com/HITshenrj/STIC}.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 強化学習によるPharma Eコマースにおける適応的ユーザジャーニー:SwipeRxからの洞察

Adaptive User Journeys in Pharma E-Commerce with Reinforcement Learning: Insights from SwipeRx ( http://arxiv.org/abs/2408.08024v1 )

ライセンス: Link先を確認
Ana Fernández del Río, Michael Brennan Leong, Paulo Saraiva, Ivan Nazarov, Aditya Rastogi, Moiz Hassan, Dexian Tang, África Periáñez, (参考訳) 本稿では、個人化による医療デジタルツールのエンド・ツー・エンドのユーザジャーニーを強化するための強化学習(RL)プラットフォームを提案する。 SwipeRxは東南アジアの薬剤師にとって最も人気のあるオールインワンのアプリで、このプラットフォームがユーザー体験をパーソナライズし、適応するのにどのように使えるかを実証している。 我々のRLフレームワークは、購入履歴とアプリ内エンゲージメントのリアルタイム情報に基づいて、各薬局に合わせた製品レコメンデーションによる一連の実験を通じてテストされ、バスケットサイズが大幅に増加した。 既存のモバイル医療ソリューションへの適応的介入とユーザジャーニーの充実により、当社のプラットフォームは、医薬品サプライチェーン管理、医療従事者の能力構築、臨床決定と患者ケアを改善するためのスケーラブルなソリューションを提供し、最終的には医療の成果に寄与する。

This paper introduces a reinforcement learning (RL) platform that enhances end-to-end user journeys in healthcare digital tools through personalization. We explore a case study with SwipeRx, the most popular all-in-one app for pharmacists in Southeast Asia, demonstrating how the platform can be used to personalize and adapt user experiences. Our RL framework is tested through a series of experiments with product recommendations tailored to each pharmacy based on real-time information on their purchasing history and in-app engagement, showing a significant increase in basket size. By integrating adaptive interventions into existing mobile health solutions and enriching user journeys, our platform offers a scalable solution to improve pharmaceutical supply chain management, health worker capacity building, and clinical decision and patient care, ultimately contributing to better healthcare outcomes.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 希少・曖昧な単語の文脈化による大規模言語モデルに基づく音声認識の強化

Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words ( http://arxiv.org/abs/2408.08027v1 )

ライセンス: Link先を確認
Kento Nozawa, Takashi Masuko, Toru Taniguchi, (参考訳) 我々は,テキストプロンプトの先行情報としてキーワードを提供することで,文脈認識が可能な大規模言語モデル (LLM) に基づく自動音声認識システムを開発した。 我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。 我々は、事前訓練されたWhisperエンコーダをオーディオエンコーダとして採用し、オーディオエンコーダからのオーディオ埋め込みをアダプタ層によりテキスト埋め込み空間に投影し、テキストプロンプトから変換されたテキスト埋め込みと結合してデコーダへの入力を形成する。 テキストプロンプトの先行情報としてキーワードを提供することにより、入力音声中の曖昧な単語を正確に書き起こすためにモデルアーキテクチャを変更することなく、LLMベースのASRシステムを文脈化することができる。 実験結果から,デコーダにキーワードを付与することで,希少かつ曖昧な単語の認識性能を大幅に向上させることができることがわかった。

We develop a large language model (LLM) based automatic speech recognition (ASR) system that can be contextualized by providing keywords as prior information in text prompts. We adopt decoder-only architecture and use our in-house LLM, PLaMo-100B, pre-trained from scratch using datasets dominated by Japanese and English texts as the decoder. We adopt a pre-trained Whisper encoder as an audio encoder, and the audio embeddings from the audio encoder are projected to the text embedding space by an adapter layer and concatenated with text embeddings converted from text prompts to form inputs to the decoder. By providing keywords as prior information in the text prompts, we can contextualize our LLM-based ASR system without modifying the model architecture to transcribe ambiguous words in the input audio accurately. Experimental results demonstrate that providing keywords to the decoder can significantly improve the recognition performance of rare and ambiguous words.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 量子場理論における密度行列のスペクトル射影

Spectral Projections for Density Matrices in Quantum Field Theories ( http://arxiv.org/abs/2408.08031v1 )

ライセンス: Link先を確認
Wu-zhong Guo, (参考訳) 本稿では,量子場理論における密度行列のスペクトル投影について検討する。 適切な正則化により、密度行列のスペクトルプロジェクターは適切に定義されることが期待される。 これらのプロジェクタはリースの射影公式を用いて得られるので、射影状態における固有値の密度と局所作用素の期待値の両方を計算することができる。 応力エネルギーテンソルの期待値には普遍的な発散項が存在し、係数は固有値の密度と境界位置への固有値の依存性を記述する関数に普遍的に依存する。 射影状態を用いて、場の量子論における一連の新しい状態を構築し、ホログラフィック的な側面に焦点をあててそれらの一般的な性質を議論することができる。 量子ゆらぎは半古典的極限で抑制される。 また、重力経路積分を用いて以前に構築された固定領域状態は、近似量の投射状態の重ね合わせにより、適切に構築可能であることも示している。 さらに、遷移行列のような非エルミート作用素にスペクトル射影を適用し、それらの固有値と密度を得る。 最後に、新しい密度と遷移行列の構築や幾何状態の重ね合わせの理解など、スペクトル射影の潜在的な応用を強調した。

In this paper, we investigate the spectral projection of density matrices in quantum field theory. With appropriate regularization, the spectral projectors of density matrices are expected to be well-defined. These projectors can be obtained using the Riesz projection formula, which allows us to compute both the density of eigenvalues and the expectation values of local operators in the projected states. We find that there are universal divergent terms in the expectation value of the stress energy tensor, where the coefficients depend universally on the density of eigenvalues and a function that describes the dependence of eigenvalues on boundary location. Using projection states, we can construct a series of new states in quantum field theories and discuss their general properties, focusing on the holographic aspects. We observe that quantum fluctuations are suppressed in the semiclassical limit. We also demonstrate that the fixed area state, previously constructed using gravitational path integrals, can be constructed by suitably superposition of appromiate amount of projection states. Additionally, we apply spectral projection to non-Hermitian operators, such as transition matrices, to obtain their eigenvalues and densities. Finally, we highlight potential applications of spectral projections, including the construction of new density and transition matrices and the understanding of superpositions of geometric states.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 量子応用における非古典性向上のための特殊化低雑音増幅器の設計

Design of a Specialized Low Noise Amplifier for Enhancing Non-Classicality in Quantum Applications ( http://arxiv.org/abs/2408.08032v1 )

ライセンス: Link先を確認
Ahmad Salmanogli, (参考訳) 本研究では,量子応用に特化した低雑音増幅器の設計と解析について述べる。 我々は、HEMTを独自のノイズ低減特性として選択し、量子工学に不可欠である。 主な目的は、Cバンド周波数範囲 (4-8 GHz) 内のノイズフィギュアを最小化し、量子信号の非古典性を誘導することである。 この帯域内で0.065dB未満のノイズフィギュアを達成する一方で、ゲインとのトレードオフを認識し、最適なレベルのノイズフィギュアを維持するために追加のステージを組み込むことによって緩和した。 HEMTの単純化されたモデルを用いた回路の量子解析により、その非線形特性と回路成分と環境因子との相互作用に関する知見が明らかになった。 PythonでQutipツールボックスを活用することで,極低温条件下でのオープン量子システムとしての回路の挙動を明らかにするとともに,システムの時間進化解析を行った。 我々の研究は、量子相関(量子不協和)とノイズフィギュアとの関係を定量化し、その最小化が極低温における回路非古典性に与える影響について重要な疑問を投げかけた。 この包括的研究は、回路設計間の複雑な相互作用とノイズフィギュアと量子相関の関係に光を当てる。

In this study, we present the design and analysis of a Low Noise Amplifier tailored specifically for quantum applications. We selected the HEMT for its unique noise reduction properties, crucial for quantum engineering. The main goal is to minimize the noise figure within the C-band frequency range (4-8 GHz) to induce nonclassicality in quantum signals. While achieving a noise figure of less than 0.065 dB within this band, we recognized the trade-off with gain, mitigated by incorporating additional stages to maintain noise figure at optimal levels. Quantum analysis of the circuit, employing a simplified model of HEMT due to its complexity, revealed insights into its nonlinear properties and interactions between circuit components and environmental factors. Leveraging Qutip toolbox in Python, we conducted time-evolution analysis of the system, revealing the circuit's behavior as an open quantum system under cryogenic conditions. Our investigation extends to quantifying quantum correlation (quantum discord) and its relationship with noise figure, posing important questions regarding the direct impact of its minimization on circuit nonclassicality at cryogenic temperatures. This comprehensive study sheds light on the intricate interplay between circuit design, and its influence on the relationship between the noise figure and quantum correlation.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# ダイナミックハンドジェスチャ認識のための深層学習に基づく3ストリームハイブリッドモデル

An Advanced Deep Learning Based Three-Stream Hybrid Model for Dynamic Hand Gesture Recognition ( http://arxiv.org/abs/2408.08035v1 )

ライセンス: Link先を確認
Md Abdur Rahim, Abu Saleh Musa Miah, Hemel Sharker Akash, Jungpil Shin, Md. Imran Hossain, Md. Najmul Hossain, (参考訳) 現代の文脈では、手の動き認識が焦点として現れている。 これは、手話、工場、ハンズフリーデバイス、ガイドロボットなど、幅広い応用のおかげだ。 多くの研究者がこれらの手の動きを認識するためのより効果的な手法を開発しようと試みている。 しかし、データセットの制限、手形の変化、外部環境、一貫性のない照明条件といった課題がある。 これらの課題に対処するために,RGBピクセルとスケルトンに基づく特徴を組み合わせた3ストリームハイブリッドモデルを提案する。 手順では、拡張を含むデータセットを前処理し、回転、翻訳、独立系をスケールしました。 深層学習モジュールのパワーを用いて多機能融合を抽出するために,3ストリームハイブリッドモデルを用いた。 最初のストリームでは,事前訓練したImagenetモジュールを用いて初期特徴を抽出し,GRUおよびLSTMモジュールの多層構造を用いて拡張した。 第2のストリームでは、事前訓練されたReseNetモジュールで初期特徴を抽出し、GRUとLSTMモジュールの様々な組み合わせで拡張した。 第3のストリームでは,メディアパイプを用いて手ポーズキーポイントを抽出し,積み重ねLSTMを用いて拡張し,階層的特徴を得た。 その後、ファイナルを生成するために3つの特徴をまとめました。 最後に,予測出力を生成するための確率写像を生成するために分類モジュールを用いた。 我々は主に、画素ベースの深層学習機能とポス推定に基づく積み重ね深層学習機能を活用して強力な特徴ベクトルを作成し、その中には、不等化ジェスチャー検出機能のためのスクラッチ付き深部学習モデルを含む事前学習モデルが含まれていた。

In the modern context, hand gesture recognition has emerged as a focal point. This is due to its wide range of applications, which include comprehending sign language, factories, hands-free devices, and guiding robots. Many researchers have attempted to develop more effective techniques for recognizing these hand gestures. However, there are challenges like dataset limitations, variations in hand forms, external environments, and inconsistent lighting conditions. To address these challenges, we proposed a novel three-stream hybrid model that combines RGB pixel and skeleton-based features to recognize hand gestures. In the procedure, we preprocessed the dataset, including augmentation, to make rotation, translation, and scaling independent systems. We employed a three-stream hybrid model to extract the multi-feature fusion using the power of the deep learning module. In the first stream, we extracted the initial feature using the pre-trained Imagenet module and then enhanced this feature by using a multi-layer of the GRU and LSTM modules. In the second stream, we extracted the initial feature with the pre-trained ReseNet module and enhanced it with the various combinations of the GRU and LSTM modules. In the third stream, we extracted the hand pose key points using the media pipe and then enhanced them using the stacked LSTM to produce the hierarchical feature. After that, we concatenated the three features to produce the final. Finally, we employed a classification module to produce the probabilistic map to generate predicted output. We mainly produced a powerful feature vector by taking advantage of the pixel-based deep learning feature and pos-estimation-based stacked deep learning feature, including a pre-trained model with a scratched deep learning model for unequalled gesture detection capabilities.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# PI-Att:適応パーシステンス画像表現によるセグメンテーションネットワークのトポロジーアテンション

PI-Att: Topology Attention for Segmentation Networks through Adaptive Persistence Image Representation ( http://arxiv.org/abs/2408.08038v1 )

ライセンス: Link先を確認
Mehmet Bahadir Erden, Sinan Unver, Ilke Ali Gurses, Rustu Turkay, Cigdem Gunduz-Demir, (参考訳) 医療画像中の複数の物体(例えば臓器)を分割するには、しばしばそのトポロジーを理解する必要がある。 この理解は、医療画像解析に共通する限られたトレーニングデータにより、セグメンテーションネットワークをより一般化する上で重要である。 しかし、多くの人気ネットワークは、セグメンテーションのトポロジカルな正確さを無視して、ピクセルワイドのパフォーマンスのみを最適化するように訓練された。 本稿では,PI-Attと呼ばれる新たなトポロジ認識損失関数を提案する。 セグメント化ネットワーク損失の文脈において,各マップのトポロジを永続画像表現によって定量化する。 さらに,ネットワークの性能に基づいて,各エポックの終端における永続画像を適応的に算出する機構を提案する。 この適応計算により、ネットワークは最初のエポックでトポロジーのアウトラインを学習し、その後、トレーニングの終了に向けてトポロジーの詳細を学習することができる。 提案したPI-Att損失は, 大動脈と大血管のセグメンテーションの2つの異なるデータセットで評価された。

Segmenting multiple objects (e.g., organs) in medical images often requires an understanding of their topology, which simultaneously quantifies the shape of the objects and their positions relative to each other. This understanding is important for segmentation networks to generalize better with limited training data, which is common in medical image analysis. However, many popular networks were trained to optimize only pixel-wise performance, ignoring the topological correctness of the segmentation. In this paper, we introduce a new topology-aware loss function, which we call PI-Att, that explicitly forces the network to minimize the topological dissimilarity between the ground truth and prediction maps. We quantify the topology of each map by the persistence image representation, for the first time in the context of a segmentation network loss. Besides, we propose a new mechanism to adaptively calculate the persistence image at the end of each epoch based on the network's performance. This adaptive calculation enables the network to learn topology outline in the first epochs, and then topology details towards the end of training. The effectiveness of the proposed PI-Att loss is demonstrated on two different datasets for aorta and great vessel segmentation in computed tomography images.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 教師なし学習におけるクレバーハンズの効果

The Clever Hans Effect in Unsupervised Learning ( http://arxiv.org/abs/2408.08041v1 )

ライセンス: Link先を確認
Jacob Kauffmann, Jonas Dippel, Lukas Ruff, Wojciech Samek, Klaus-Robert Müller, Grégoire Montavon, (参考訳) 教師なし学習は、AIシステムの不可欠な構成要素となっている。 ファンデーションモデルなど、同社が生成する表現は、さまざまなダウンストリームアプリケーションに不可欠である。 したがって、教師なしモデルを調べて正確な予測を行うだけでなく、これらの予測が「間違った理由のために正しい」のではなく、いわゆる「クレバーハンズ(CH)」効果であることを示すことが重要である。 特別に開発された説明可能なAI技術を用いて、教師なし学習においてCH効果が広まることを示す。 これは、教師なし学習機械における誘導バイアスをCH効果の主源として示している。 全体として、我々の研究は、教師なし学習の実践的応用に関連する探索されていないリスクに光を当て、教師なし学習をより堅牢にする方法を提案する。

Unsupervised learning has become an essential building block of AI systems. The representations it produces, e.g. in foundation models, are critical to a wide variety of downstream applications. It is therefore important to carefully examine unsupervised models to ensure not only that they produce accurate predictions, but also that these predictions are not "right for the wrong reasons", the so-called Clever Hans (CH) effect. Using specially developed Explainable AI techniques, we show for the first time that CH effects are widespread in unsupervised learning. Our empirical findings are enriched by theoretical insights, which interestingly point to inductive biases in the unsupervised learning machine as a primary source of CH effects. Overall, our work sheds light on unexplored risks associated with practical applications of unsupervised learning and suggests ways to make unsupervised learning more robust.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 強化学習に基づくシーケンスレコメンデーションのための効率的な継続的制御

An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation ( http://arxiv.org/abs/2408.08047v1 )

ライセンス: Link先を確認
Jun Wang, Likang Wu, Qi Liu, Yu Yang, (参考訳) シーケンシャル・レコメンデーション(シーケンシャル・レコメンデーション)は、ユーザの嗜好がシーケンシャル・ヒストリカルな行動から動的に推測されるもので、レコメンダ・システム(RS)において重要な課題である。 長期のユーザエンゲージメントをさらに最適化するため、オフライン強化学習ベースのRSは、オンラインユーザエクスペリエンスを損なう可能性のあるグローバルな探索を避ける上で、さらなるアドバンテージを提供するため、主流のテクニックとなっている。 しかし、従来の研究は主に個別の行動と政策空間に焦点を合わせており、それは劇的に成長するアイテムを効率的に扱うのに困難である可能性がある。 本稿では,この問題を緩和するために,継続的ポリシーに適用可能なアルゴリズムフレームワークを設計することを目的とする。 低次元だが高密度なユーザ嗜好空間における制御を容易にするために,我々は,低次元かつ高密度なユーザ嗜好空間である \underline{\textbf{E}}fficient \underline{\textbf{Co}}ntinuous \underline{\textbf{C}}ontrol framework (ECoC) を提案する。 まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。 そこで我々は,対応する政策評価・政策改善手順を開発する。 このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。 さらに、統一されたアクションによって、ポリシーとバリュー関数の保守的規則化が組み合わされ、継続的なフレームワークと完全に互換性がある。 その結果、二重正規化により、RLベースのレコメンデーションポリシーのオフライントレーニングが成功する。 最後に,フレームワークの有効性を検証するための広範な実験を行った。 その結果、離散ベースラインと比較して、ECoCははるかに効率的に訓練されていることがわかった。 一方、最終的なポリシーは、オフラインデータのキャプチャと長期的な報酬の両方において、ベースラインを上回ります。

Sequential recommendation, where user preference is dynamically inferred from sequential historical behaviors, is a critical task in recommender systems (RSs). To further optimize long-term user engagement, offline reinforcement-learning-based RSs have become a mainstream technique as they provide an additional advantage in avoiding global explorations that may harm online users' experiences. However, previous studies mainly focus on discrete action and policy spaces, which might have difficulties in handling dramatically growing items efficiently. To mitigate this issue, in this paper, we aim to design an algorithmic framework applicable to continuous policies. To facilitate the control in the low-dimensional but dense user preference space, we propose an \underline{\textbf{E}}fficient \underline{\textbf{Co}}ntinuous \underline{\textbf{C}}ontrol framework (ECoC). Based on a statistically tested assumption, we first propose the novel unified action representation abstracted from normalized user and item spaces. Then, we develop the corresponding policy evaluation and policy improvement procedures. During this process, strategic exploration and directional control in terms of unified actions are carefully designed and crucial to final recommendation decisions. Moreover, beneficial from unified actions, the conservatism regularization for policies and value functions are combined and perfectly compatible with the continuous framework. The resulting dual regularization ensures the successful offline training of RL-based recommendation policies. Finally, we conduct extensive experiments to validate the effectiveness of our framework. The results show that compared to the discrete baselines, our ECoC is trained far more efficiently. Meanwhile, the final policies outperform baselines in both capturing the offline data and gaining long-term rewards.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 製造プロセスシミュレーションのための意味的能力モデル

Semantic Capability Model for the Simulation of Manufacturing Processes ( http://arxiv.org/abs/2408.08048v1 )

ライセンス: Link先を確認
Jonathan Reif, Tom Jeleniewski, Aljosha Köcher, Tim Frerich, Felix Gehlhoff, Alexander Fay, (参考訳) シミュレーションは製造工程の検査の機会を提供する。 これらは生産プロセスと関連する生産システムの様々な側面を表す。 しかし、単一のシミュレーションが特定のプロセス設定の包括的な理解を提供するのに十分ではないことが多い。 代わりに、あるシミュレーションの出力が別のシミュレーションの入力パラメータとして機能し、結果として一連のシミュレーションを行う場合、異なるシミュレーションの組み合わせが必要である。 シミュレーションシーケンスのマニュアル計画は、与えられた調査に最適なシミュレーションシナリオを選択するために、時間、コスト、結果品質などの要因を慎重に評価する必要がある要求のあるタスクである。 本稿では,シミュレーション,特定の知識を生成する能力,各品質基準を表現した情報モデルを提案する。 情報モデルは、シミュレーションシーケンスを自動生成する基盤を提供するように設計されている。 このモデルは拡張可能で適応可能なオントロジーとして実装されている。 オントロジーデザインパターンを確立された工業標準に基づいて利用し、相互運用性と再利用性を高める。 この情報モデルの実用性を実証するために、アプリケーション例を提供する。 この例は、実世界のコンテキストにおけるモデルの能力を説明するのに役立つ。

Simulations offer opportunities in the examination of manufacturing processes. They represent various aspects of the production process and the associated production systems. However, often a single simulation does not suffice to provide a comprehensive understanding of specific process settings. Instead, a combination of different simulations is necessary when the outputs of one simulation serve as the input parameters for another, resulting in a sequence of simulations. Manual planning of simulation sequences is a demanding task that requires careful evaluation of factors like time, cost, and result quality to choose the best simulation scenario for a given inquiry. In this paper, an information model is introduced, which represents simulations, their capabilities to generate certain knowledge, and their respective quality criteria. The information model is designed to provide the foundation for automatically generating simulation sequences. The model is implemented as an extendable and adaptable ontology. It utilizes Ontology Design Patterns based on established industrial standards to enhance interoperability and reusability. To demonstrate the practicality of this information model, an application example is provided. This example serves to illustrate the model's capacity in a real-world context, thereby validating its utility and potential for future applications.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# CamoTeacher:セミスーパービジョンのカモフラージュ物体検出のためのデュアル回転整合学習

CamoTeacher: Dual-Rotation Consistency Learning for Semi-Supervised Camouflaged Object Detection ( http://arxiv.org/abs/2408.08050v1 )

ライセンス: Link先を確認
Xunfa Lai, Zhiyu Yang, Jie Hu, Shengchuan Zhang, Liujuan Cao, Guannan Jiang, Zhiyu Wang, Songan Zhang, Rongrong Ji, (参考訳) 既存のcamouflaged object detection~(COD)メソッドは、大規模なピクセルレベルのアノテーションに大きく依存する。しかしながら、そのようなアノテーションを取得することは、オブジェクトの固有のカモフラージュ特性のために退屈である。半教師付き学習は、この課題に対して有望な解決策を提供する。CODの応用は、ピクセルレベルとインスタンスレベルの両方において大きな擬似ラベルノイズによって妨げられている。我々は、新しい半教師型CODフレームワークであるCamoTeacherを紹介し、これらのノイズ問題に効果的に対処するためにDual-Rotation Consistency Learning~(DRCL)を利用する。特に、DRCLは、ピクセルレベルとインスタンスレベルにおける回転ビューの整合性を活用することによって、擬似ラベルノイズを最小化している。まず、Pixel-Consistency Learning~(PCPC)を、ピクセルレベルとインスタンスレベルの両方で扱うことで、Pixel-Cal-Consistency Learning~(CCL)を適切に扱うことで、完全に比較できる。

Existing camouflaged object detection~(COD) methods depend heavily on large-scale pixel-level annotations.However, acquiring such annotations is laborious due to the inherent camouflage characteristics of the objects.Semi-supervised learning offers a promising solution to this challenge.Yet, its application in COD is hindered by significant pseudo-label noise, both pixel-level and instance-level.We introduce CamoTeacher, a novel semi-supervised COD framework, utilizing Dual-Rotation Consistency Learning~(DRCL) to effectively address these noise issues.Specifically, DRCL minimizes pseudo-label noise by leveraging rotation views' consistency in pixel-level and instance-level.First, it employs Pixel-wise Consistency Learning~(PCL) to deal with pixel-level noise by reweighting the different parts within the pseudo-label.Second, Instance-wise Consistency Learning~(ICL) is used to adjust weights for pseudo-labels, which handles instance-level noise.Extensive experiments on four COD benchmark datasets demonstrate that the proposed CamoTeacher not only achieves state-of-the-art compared with semi-supervised learning methods, but also rivals established fully-supervised learning methods.Our code will be available soon.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# 2分割射影アンサンブルによる絡み合い位相の同定

Identifying Entanglement Phases with Bipartite Projected Ensembles ( http://arxiv.org/abs/2408.08052v1 )

ライセンス: Link先を確認
Zi-Yong Ge, Franco Nori, (参考訳) 本稿では、2つの局所的なサブシステムでサポートされた純粋状態と、各状態が固定された局所的に相補的なサブシステムの射影測定結果に関連付けられている量子多体波動関数に対する二部射影アンサンブル(BPE)を紹介する。 両サブシステム間の平均エンサンブルエンタングルメント(EAE)が,エンタングルメント位相を効果的に同定できることを実証した。 体積法則の絡み合った状態において、EAEはサブシステム間の距離を増大させる非ゼロ値に収束する。 臨界系では、EAEはパワーロー崩壊を示し、エリアロー系では指数関数的に崩壊する。 このように、絡み合い相転移は障害秩序相転移と見なすことができる。 また、測定されたランダムクリフォード回路にBPEとEAEを適用し、測定誘起相転移を探索する。 EAEは相転移の証人として機能するだけでなく、動的スケーリングや表面臨界指数などの重要な現象特性も明らかにしている。 本研究は, エンタングルメント法則を診断するための代替手法を提供し, エンタングルメント相転移の理解を深めるものである。 さらに, 量子シミュレータにおけるAE測定のスケーラビリティを考えると, 量子シミュレーションへの影響が期待できる。

We introduce bipartite projected ensembles (BPEs) for quantum many-body wave functions, which consist of pure states supported on two local subsystems, with each state associated with the outcome of a projective measurement of the complementary subsystem in a fixed local basis. We demonstrate that the corresponding ensemble-averaged entanglements (EAEs) between two subsystems can effectively identify entanglement phases. In volume-law entangled states, EAE converges to a nonzero value with increasing distance between subsystems. For critical systems, EAE exhibits power-law decay, and it decays exponentially for area-law systems. Thus, entanglement phase transitions can be viewed as a disorder-order phase transition. We also apply BPE and EAE to measured random Clifford circuits to probe measurement-induced phase transitions. We show that EAE serves not only as a witness to phase transitions, but also unveils additional critical phenomena properties, including dynamical scaling and surface critical exponents. Our findings provide an alternative approach to diagnosing entanglement laws, thus enhancing the understanding of entanglement phase transitions. Moreover, given the scalability of measuring EAE in quantum simulators, our results hold promise for impacting quantum simulations.
翻訳日:2024-08-16 14:26:13 公開日:2024-08-15
# Text2BIM: 大規模言語モデルに基づくマルチエージェントフレームワークによる構築モデルの生成

Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework ( http://arxiv.org/abs/2408.08054v1 )

ライセンス: Link先を確認
Changyu Du, Sebastian Esser, Stavros Nousias, André Borrmann, (参考訳) 従来のBIMオーサリングプロセスでは、設計者はBIMオーサリングツール内で設計意図を具現化するために、複雑で退屈なモデリングコマンドをマスターする必要がある。 この追加の認知的負担は、設計プロセスを複雑化し、AEC(Architecture, Engineering, and Construction)産業におけるBIMとモデルベース設計の採用を妨げる。 より直感的な設計意図の表現を容易にするために,LLMベースのマルチエージェントフレームワークであるText2BIMを提案する。 BIMオーサリングツールのAPIを呼び出す命令コードに変換し、内部レイアウト、外部エンベロープ、セマンティック情報をソフトウェアから直接生成する。 さらに、ルールベースのモデルチェッカーがエージェントワークフローに導入され、事前に定義されたドメイン知識を利用して、LLMエージェントを誘導し、生成されたモデル内の問題を解決し、モデル品質を反復的に改善する。 提案手法に基づく3種類のLLMの性能比較と解析を行った。 評価結果は,ユーザ入力によって定義された抽象概念に整合した,高品質で構造的に合理的なビルディングモデルを効果的に生成できることを示す。 最後に、対話型ソフトウェアプロトタイプを開発し、BIMオーサリングソフトウェアであるVectorworksに統合し、チャットによるモデリングの可能性を示した。

The conventional BIM authoring process typically requires designers to master complex and tedious modeling commands in order to materialize their design intentions within BIM authoring tools. This additional cognitive burden complicates the design process and hinders the adoption of BIM and model-based design in the AEC (Architecture, Engineering, and Construction) industry. To facilitate the expression of design intentions more intuitively, we propose Text2BIM, an LLM-based multi-agent framework that can generate 3D building models from natural language instructions. This framework orchestrates multiple LLM agents to collaborate and reason, transforming textual user input into imperative code that invokes the BIM authoring tool's APIs, thereby generating editable BIM models with internal layouts, external envelopes, and semantic information directly in the software. Furthermore, a rule-based model checker is introduced into the agentic workflow, utilizing predefined domain knowledge to guide the LLM agents in resolving issues within the generated models and iteratively improving model quality. Extensive experiments were conducted to compare and analyze the performance of three different LLMs under the proposed framework. The evaluation results demonstrate that our approach can effectively generate high-quality, structurally rational building models that are aligned with the abstract concepts specified by user input. Finally, an interactive software prototype was developed to integrate the framework into the BIM authoring software Vectorworks, showcasing the potential of modeling by chatting.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# CoTODE: 事象列のモデル化のためのContinuous Trajectory Neural Ordinary Differential Equations

COTODE: COntinuous Trajectory neural Ordinary Differential Equations for modelling event sequences ( http://arxiv.org/abs/2408.08055v1 )

ライセンス: Link先を確認
Ilya Kuleshov, Galina Boeva, Vladislav Zhuzhel, Evgenia Romanenkova, Evgeni Vorsin, Alexey Zaytsev, (参考訳) イベントシーケンスを生成するアクターを観察すると、それらがしばしば連続的に進化することが明らかになる。 しかし、現代のほとんどの手法は、ほとんどの断片的に連続した軌跡を通してそのようなプロセスをモデル化する傾向にある。 これを解決するために、我々は、イベントをスタンドアローンな現象ではなく、ガウス過程の観察として見る方法を採用し、それによって俳優のダイナミクスが支配される。 得られたダイナミクスを統合することにより,広範に成功したニューラルODEモデルの連続軌道修正を実現する。 ガウス過程理論を通じて、私たちはアクターの表現の不確実性を評価することができました。 この推定により、理論上は負のフィードバック機構が新たに開発された。 実証実験により,ガウス過程補間と負のフィードバックによるモデルが最先端性能を実現し,同様のアーキテクチャに対して最大20%のAUROCの改善が得られた。

Observation of the underlying actors that generate event sequences reveals that they often evolve continuously. Most modern methods, however, tend to model such processes through at most piecewise-continuous trajectories. To address this, we adopt a way of viewing events not as standalone phenomena but instead as observations of a Gaussian Process, which in turn governs the actor's dynamics. We propose integrating these obtained dynamics, resulting in a continuous-trajectory modification of the widely successful Neural ODE model. Through Gaussian Process theory, we were able to evaluate the uncertainty in an actor's representation, which arises from not observing them between events. This estimate led us to develop a novel, theoretically backed negative feedback mechanism. Empirical studies indicate that our model with Gaussian process interpolation and negative feedback achieves state-of-the-art performance, with improvements up to 20% AUROC against similar architectures.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# DATTA:ダイナミックワイルドワールドにおける多様性適応型テスト時間適応を目指して

DATTA: Towards Diversity Adaptive Test-Time Adaptation in Dynamic Wild World ( http://arxiv.org/abs/2408.08056v1 )

ライセンス: Link先を確認
Chuyang Ye, Dongyan Wei, Zhendong Liu, Yuanyi Pang, Yixi Lin, Jiarong Liao, Qinting Jiang, Xianghua Fu, Qing Li, Jingyan Jiang, (参考訳) テスト時間適応(TTA)は、実世界のアプリケーションにおけるモデル推論の改善に不可欠であるテストサンプルのモデルを調整することで、トレーニングとテストデータの分散シフトに効果的に対処する。 しかしながら、従来のTTAメソッドは一般的に、動的データパターン(低多様性または高多様性のパターン)に対処するために固定パターンに従うため、しばしばパフォーマンスが低下し、結果としてQuality of Experience(QoE)が低下する。 異なるシナリオは異なる正規化方法を必要とする(例えば、インスタンスの正規化は混合ドメインでは最適だが、静的ドメインでは最適ではない)。 モデルファインチューニングはモデルとムダ時間に悪影響を及ぼす可能性があるため、モデル性能に対する負の影響を最小限に抑えるために、分散の多様性を効果的に測定・管理するための戦略を設計することが不可欠である。 そこで本研究では,QoEの改良を目的としたDATTA(Diversity Adaptive Test-Time Adaptation)という手法を提案する。 DATTAは、ダイバーシティスコアを利用して、ハイスコアとロースコアのバッチを区別することで、最適なバッチ正規化方法と微調整戦略を動的に選択する。 バッチの多様性を評価するダイバーシティ識別(DD)、DDの洞察に基づく正規化手法を調整するためのダイバーシティ適応バッチ正規化(DABN)、モデルを選択的に微調整するダイバーシティ適応細調整(DAFT)の3つの主要なコンポーネントが特徴である。 実験結果から,本手法は最先端手法と比較して最大21%の精度向上を実現し,ロバスト性を示しながら良好なモデル性能を保っていることが示された。 私たちのコードはまもなくリリースされるでしょう。

Test-time adaptation (TTA) effectively addresses distribution shifts between training and testing data by adjusting models on test samples, which is crucial for improving model inference in real-world applications. However, traditional TTA methods typically follow a fixed pattern to address the dynamic data patterns (low-diversity or high-diversity patterns) often leading to performance degradation and consequently a decline in Quality of Experience (QoE). The primary issues we observed are:Different scenarios require different normalization methods (e.g., Instance Normalization is optimal in mixed domains but not in static domains). Model fine-tuning can potentially harm the model and waste time.Hence, it is crucial to design strategies for effectively measuring and managing distribution diversity to minimize its negative impact on model performance. Based on these observations, this paper proposes a new general method, named Diversity Adaptive Test-Time Adaptation (DATTA), aimed at improving QoE. DATTA dynamically selects the best batch normalization methods and fine-tuning strategies by leveraging the Diversity Score to differentiate between high and low diversity score batches. It features three key components: Diversity Discrimination (DD) to assess batch diversity, Diversity Adaptive Batch Normalization (DABN) to tailor normalization methods based on DD insights, and Diversity Adaptive Fine-Tuning (DAFT) to selectively fine-tune the model. Experimental results show that our method achieves up to a 21% increase in accuracy compared to state-of-the-art methodologies, indicating that our method maintains good model performance while demonstrating its robustness. Our code will be released soon.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# 基礎モデルを用いたデータスカシティのナビゲーション:医療画像におけるFew-ShotとZero-Shot学習アプローチのベンチマーク

Navigating Data Scarcity using Foundation Models: A Benchmark of Few-Shot and Zero-Shot Learning Approaches in Medical Imaging ( http://arxiv.org/abs/2408.08058v1 )

ライセンス: Link先を確認
Stefano Woerner, Christian F. Baumgartner, (参考訳) データ不足は、現代の機械学習技術を臨床タスクに適用するための大きな制限要因である。 十分に研究された医療タスクには十分なデータが存在しているが、データ可用性が低い臨床関連タスクの長い部分がある。 近年,ファウンデーションモデルはFSLやゼロショット学習(ZSL)に高い適合性を示しており,実践者にとってより使いやすくなっている。 しかし、FSLの医用画像解析タスクにおいてどの基盤モデルが優れているか、限られたデータから学習する上で最適な方法が何かは定かではない。 ZSLとFSLの総合的なベンチマークを,19種類の医用画像データセットを用いた16の事前訓練基礎モデルを用いて行った。 以上の結果から,医療データのみに事前トレーニングされたBiomedCLIPは,非常に小さなトレーニングセットサイズで平均最高であり,LAION-2Bで事前トレーニングされた非常に大きなCLIPモデルは,わずかにトレーニングサンプルで最良であることがわかった。 しかし、ImageNetで事前訓練されたResNet-18の微調整は、クラス毎に5つ以上のトレーニング例でも同様に実行される。 また、医療応用に適した基礎モデルや、これらのモデルをトレーニングするためのデータセットの収集について、さらなる研究の必要性も浮き彫りにしています。

Data scarcity is a major limiting factor for applying modern machine learning techniques to clinical tasks. Although sufficient data exists for some well-studied medical tasks, there remains a long tail of clinically relevant tasks with poor data availability. Recently, numerous foundation models have demonstrated high suitability for few-shot learning (FSL) and zero-shot learning (ZSL), potentially making them more accessible to practitioners. However, it remains unclear which foundation model performs best on FSL medical image analysis tasks and what the optimal methods are for learning from limited data. We conducted a comprehensive benchmark study of ZSL and FSL using 16 pretrained foundation models on 19 diverse medical imaging datasets. Our results indicate that BiomedCLIP, a model pretrained exclusively on medical data, performs best on average for very small training set sizes, while very large CLIP models pretrained on LAION-2B perform best with slightly more training samples. However, simply fine-tuning a ResNet-18 pretrained on ImageNet performs similarly with more than five training examples per class. Our findings also highlight the need for further research on foundation models specifically tailored for medical applications and the collection of more datasets to train these models.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# 最大許容リワードマシン

Maximally Permissive Reward Machines ( http://arxiv.org/abs/2408.08059v1 )

ライセンス: Link先を確認
Giovanni Varricchione, Natasha Alechina, Mehdi Dastani, Brian Logan, (参考訳) リワードマシンは、時間的に拡張されたタスクや振る舞いに対する報酬の定義を可能にする。 報酬マシンの特定は困難である。 これを解決する方法の1つは、AI計画のような技術を使用して、学習環境の高度な抽象的な記述から報酬機を生成することである。 しかし、従来の計画に基づくアプローチでは、単一の(順序または部分順序)プランに基づいて報酬マシンを生成し、学習エージェントに最大限の柔軟性を持たせることはできない。 本稿では,目標に対する部分順序計画の集合に基づく報酬機を合成するための新しいアプローチを提案する。 このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。 本研究は,本手法が実際に実施されている単一計画手法よりも高い報酬を得ることを示すことによって,我々の理論的主張を支持する実験結果を示す。

Reward machines allow the definition of rewards for temporally extended tasks and behaviors. Specifying "informative" reward machines can be challenging. One way to address this is to generate reward machines from a high-level abstract description of the learning environment, using techniques such as AI planning. However, previous planning-based approaches generate a reward machine based on a single (sequential or partial-order) plan, and do not allow maximum flexibility to the learning agent. In this paper we propose a new approach to synthesising reward machines which is based on the set of partial order plans for a goal. We prove that learning using such "maximally permissive" reward machines results in higher rewards than learning using RMs based on a single plan. We present experimental results which support our theoretical claims by showing that our approach obtains higher rewards than the single-plan approach in practice.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# 複雑な宇宙アプリケーションにおけるセキュリティ問題 : 実証的研究

Security Challenges of Complex Space Applications: An Empirical Study ( http://arxiv.org/abs/2408.08061v1 )

ライセンス: Link先を確認
Tomas Paulik, (参考訳) 宇宙や防衛産業のソフトウェアアプリケーションには、それぞれ固有の特徴がある: それらは構造が複雑で、ミッションクリティカルであり、しばしば敵国が支援する最先端のサイバー攻撃の標的である。 これらのアプリケーションは通常、ソフトウェアコンポーネントサプライチェーン、データサプライチェーン、ユーザベースに多くの利害関係者を抱えています。 前述の要因は、DevOpsのツールやプラクティスが複雑でリスクの高い環境では設計されていないため、このようなソフトウェアアプリケーションが悪役に対して潜在的に脆弱なものになる。 本研究では、複雑な空間アプリケーションの開発と管理におけるセキュリティ上の課題について検討し、そのプロセスと一般的に使われているプラクティスを区別する。 私の発見は、業界から5人のドメインエキスパートへのインタビューに基づいており、関連する出版物の総合的なレビューでさらに支持されています。 この問題のダイナミクスを説明するため,欧州宇宙機関(ESA)の最大のサプライヤーの一つであるTales Alenia Spaceの実際のソフトウェアサプライチェーン構造について論じる。 ソフトウェアアーティファクトの検証、デプロイされたアプリケーションの検証、単一セキュリティ障害点、信頼できるステークホルダによるデータ改ざん。 さらに、与えられた課題を克服するために使用できるベストプラクティスと、インタビューされた専門家が、組織がそれに取り組むための適切なツールにアクセスできると考えているかどうかを提示します。 最後に、スペースおよび防衛産業におけるソフトウェア完全性検証のより良い方法を可能にする新しいDevSecOps戦略、プラクティス、ツールの今後の研究を提案する。

Software applications in the space and defense industries have their unique characteristics: They are complex in structure, mission-critical, and often targets of state-of-the-art cyber attacks sponsored by adversary nation states. These applications have typically a high number of stakeholders in their software component supply chain, data supply chain, and user base. The aforementioned factors make such software applications potentially vulnerable to bad actors, as the widely adopted DevOps tools and practices were not designed for high-complexity and high-risk environments. In this study, I investigate the security challenges of the development and management of complex space applications, which differentiate the process from the commonly used practices. My findings are based on interviews with five domain experts from the industry and are further supported by a comprehensive review of relevant publications. To illustrate the dynamics of the problem, I present and discuss an actual software supply chain structure used by Thales Alenia Space, which is one of the largest suppliers of the European Space Agency. Subsequently, I discuss the four most critical security challenges identified by the interviewed experts: Verification of software artifacts, verification of the deployed application, single point of security failure, and data tampering by trusted stakeholders. Furthermore, I present best practices which could be used to overcome each of the given challenges, and whether the interviewed experts think their organization has access to the right tools to address them. Finally, I propose future research of new DevSecOps strategies, practices, and tools which would enable better methods of software integrity verification in the space and defense industries.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# BINDy -- 可逆ジャンプマルコフ鎖モンテカルロを持つ非線形ダイナミクスのベイズ的同定

BINDy -- Bayesian identification of nonlinear dynamics with reversible-jump Markov-chain Monte-Carlo ( http://arxiv.org/abs/2408.08062v1 )

ライセンス: Link先を確認
Max D. Champneys, Timothy J. Rogers, (参考訳) モデルパシモニーは、データ駆動型モデリングにおいて重要な‘emph{認識バイアス’であり、解釈可能性を助け、過度な適合を防ぐのに役立つ。 非線形力学(SINDy)手法のスパース同定は、ライブラリ関数の基底として、データから直接複素力学のスパース表現を学習することができる。 本研究では,SINDyの代替として,辞書学習システム識別のベイズ的手法を提案する。 提案手法 - 非線形力学のベイズ的同定(BINDy) - は、ライブラリ内の項とモデル内のパラメータ化の両方に対する完全な結合後部分布を対象とする従来の手法とは異なる。 この定式化は、任意の事前をモデル構造の上に配置して、パラメータ空間ではなくモデル空間内でスパースなモデルを生成するという利点を与える。 この後部は次元の変化が可能なパラメータベクトル上で定義されるので、推論は標準手法では実行できない。 代わりに、可逆ジャンプ型マルコフ鎖モンテカルロに基づくギブスサンプリング器が提案されている。 BINDyは3つのベンチマークケーススタディでSINDyをアンサンブルしている。 特に,提案手法はモデル項の修正に高い確率を割り当てる方がよいと考えられる。

Model parsimony is an important \emph{cognitive bias} in data-driven modelling that aids interpretability and helps to prevent over-fitting. Sparse identification of nonlinear dynamics (SINDy) methods are able to learn sparse representations of complex dynamics directly from data, given a basis of library functions. In this work, a novel Bayesian treatment of dictionary learning system identification, as an alternative to SINDy, is envisaged. The proposed method -- Bayesian identification of nonlinear dynamics (BINDy) -- is distinct from previous approaches in that it targets the full joint posterior distribution over both the terms in the library and their parameterisation in the model. This formulation confers the advantage that an arbitrary prior may be placed over the model structure to produce models that are sparse in the model space rather than in parameter space. Because this posterior is defined over parameter vectors that can change in dimension, the inference cannot be performed by standard techniques. Instead, a Gibbs sampler based on reversible-jump Markov-chain Monte-Carlo is proposed. BINDy is shown to compare favourably to ensemble SINDy in three benchmark case-studies. In particular, it is seen that the proposed method is better able to assign high probability to correct model terms.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# SPEED: 自己監督型学習のための脳波データのスケーラブルな前処理

SPEED: Scalable Preprocessing of EEG Data for Self-Supervised Learning ( http://arxiv.org/abs/2408.08065v1 )

ライセンス: Link先を確認
Anders Gjølbye, Lina Skerath, William Lehn-Schiøler, Nicolas Langer, Lars Kai Hansen, (参考訳) 電脳波法(EEG)の研究は通常、狭義の目的を持つタスクに焦点を当てるが、近年の研究はより大きなモデル内でラベルのないデータの使用に拡大し、幅広い応用を目指している。 これは脳波研究における重要な課題に対処する。 例えば、Kostas et al (2021) は、自己教師あり学習(SSL)が従来の教師あり学習方法より優れていることを示した。 脳波データのノイズレベルが高いことから、我々はさらなる事前処理によりさらなる改善が可能であると論じる。 現在の前処理方法は、最適化の欠如、主観的な手動修正への依存、SSLを制限する検証プロセスや柔軟性のないプロトコルなどにより、SSLに必要な大規模なデータボリュームを効率的に管理できないことが多い。 大規模データを効率的に処理するための自己教師付き学習に最適化したPythonベースのEEG前処理パイプラインを提案する。 この最適化は、自己教師付きトレーニングを安定化するだけでなく、生データによるトレーニングと比較して下流タスクのパフォーマンスを向上させる。

Electroencephalography (EEG) research typically focuses on tasks with narrowly defined objectives, but recent studies are expanding into the use of unlabeled data within larger models, aiming for a broader range of applications. This addresses a critical challenge in EEG research. For example, Kostas et al. (2021) show that self-supervised learning (SSL) outperforms traditional supervised methods. Given the high noise levels in EEG data, we argue that further improvements are possible with additional preprocessing. Current preprocessing methods often fail to efficiently manage the large data volumes required for SSL, due to their lack of optimization, reliance on subjective manual corrections, and validation processes or inflexible protocols that limit SSL. We propose a Python-based EEG preprocessing pipeline optimized for self-supervised learning, designed to efficiently process large-scale data. This optimization not only stabilizes self-supervised training but also enhances performance on downstream tasks compared to training with raw data.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# RAGChecker:Retrieval-Augmented Generationを診断するためのきめ細かいフレームワーク

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.08067v1 )

ライセンス: Link先を確認
Dongyu Ru, Lin Qiu, Xiangkun Hu, Tianhang Zhang, Peng Shi, Shuaichen Chang, Jiayang Cheng, Cunxiang Wang, Shichao Sun, Huanyu Li, Zizhao Zhang, Binjie Wang, Jiarong Jiang, Tong He, Zhiguo Wang, Pengfei Liu, Yue Zhang, Zheng Zhang, (参考訳) Retrieval-Augmented Generation (RAG) は、外部知識を活用する上で有望な能力を示しているが、RAGのモジュール性、長期応答の評価、測定の信頼性などにより、RAGシステムの総合的な評価は依然として困難である。 本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。 メタ評価は、RAGCheckerが他の評価指標よりも人間の判断との相関が著しく優れていることを検証している。 RAGCheckerを用いて、8つのRAGシステムを評価し、その性能を詳細に分析し、RAGアーキテクチャの設計選択における洞察に富んだパターンとトレードオフを明らかにする。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。

Despite Retrieval-Augmented Generation (RAG) has shown promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability of measurements. In this paper, we propose a fine-grained evaluation framework, RAGChecker, that incorporates a suite of diagnostic metrics for both the retrieval and generation modules. Meta evaluation verifies that RAGChecker has significantly better correlations with human judgments than other evaluation metrics. Using RAGChecker, we evaluate 8 RAG systems and conduct an in-depth analysis of their performance, revealing insightful patterns and trade-offs in the design choices of RAG architectures. The metrics of RAGChecker can guide researchers and practitioners in developing more effective RAG systems.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# マンバミム:国家空間トーケン補間によるプレトレーニングマンバ

MambaMIM: Pre-training Mamba with State Space Token-interpolation ( http://arxiv.org/abs/2408.08070v1 )

ライセンス: Link先を確認
Fenghe Tang, Bingkun Nian, Yingtai Li, Jie Yang, Liu Wei, S. Kevin Zhou, (参考訳) 生成的自己教師型学習は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方において、卓越した表現学習能力を示す。 しかし、現在、長距離依存を効果的に扱える選択状態空間モデル(Mamba)に関連する生成事前学習手法は存在しない。 この課題に対処するために,任意のマンバアーキテクチャのための汎用事前学習手法であるS6T(Selective Structure State Space Sequence Token-interpolation)に基づく,マンバ(MambaMIM)の自己教師型学習手法を提案する。 本手法は,エンコーダにボトムアップ型3Dハイブリットマスキング戦略を組み込んで,異なるアーキテクチャ間のマスキング一貫性を維持する。 さらに、S6Tは状態空間におけるマスク配列間の因果関係を学習するために用いられる。 MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。 広範囲な下流実験は、医療画像タスクの事前訓練にMambaを使用することの可能性と進歩を明らかにしている。 コードは、https://github.com/FengheTan9/MambaMIMで入手できる。

Generative self-supervised learning demonstrates outstanding representation learning capabilities in both Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). However, there are currently no generative pre-training methods related to selective state space models (Mamba) that can handle long-range dependencies effectively. To address this challenge, we introduce a generative self-supervised learning method for Mamba (MambaMIM) based on Selective Structure State Space Sequence Token-interpolation (S6T), a general-purpose pre-training method for arbitrary Mamba architectures. Our method, MambaMIM, incorporates a bottom-up 3D hybrid masking strategy in the encoder to maintain masking consistency across different architectures. Additionally, S6T is employed to learn causal relationships between the masked sequence in the state space. MambaMIM can be used on any single or hybrid Mamba architectures to enhance the Mamba long-range representation capability. Extensive downstream experiments reveal the feasibility and advancement of using Mamba for pre-training medical image tasks. The code is available at: https://github.com/FengheTan9/MambaMIM
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# リアル・ミニマル複雑貯留層の普遍性

Universality of Real Minimal Complexity Reservoir ( http://arxiv.org/abs/2408.08071v1 )

ライセンス: Link先を確認
Robert Simon Fong, Boyu Li, Peter Tiňo, (参考訳) リカレントニューラルネットワークのサブクラスであるReservoir Computing(RC)モデルは、固定された非トレーニング可能な入力層と動的に結合された貯留層によって区別される。 この設計は、時間経過によるエラー信号のバックプロパゲーションに関連する問題を回避し、安定性と訓練効率を両立させる。 RCモデルは、広範囲のアプリケーションドメインでうまく適用されています。 重要なことは、これらは、近似ノルムや入力駆動源の様々な設定の下で、記憶が消える時間不変な動的フィルタの普遍的な近似器であることが示されている。 Simple Cycle Reservoirs (SCR) は、高度に制約された貯水池構造を持つRCモデルの特殊なクラスであり、一様リング接続と周期的な符号パターンを持つ二値入力-貯水池重みが特徴である。 貯水池の大きさを考えると、貯水池の建設は1自由度(貯水池サイクルの重量)しか持たない。 このようなアーキテクチャは、ハードウェアの実装に特に適しており、多くの実用的なタスクにおいて性能が大幅に低下することはない。 本研究では,実領域で動作しているSCRが,時間不変な動的フィルタとフェージングメモリとの共通近似器であることを証明し,これらの観測を固い理論的基礎と組み合わせた。 本研究は, 複素領域のSCRが任意の精度で, 非線形読み出しを伴う任意の非制限線形貯水池に近似可能であることを示す最近の研究を補完するものである。 さらに、SCRユニットの数を劇的に削減する新しい手法を導入し、そのような制約の高いアーキテクチャを低複雑さハードウェア実装の候補として自然に採用する。 本研究は実世界の時系列データセットに関する実証研究によって裏付けられている。

Reservoir Computing (RC) models, a subclass of recurrent neural networks, are distinguished by their fixed, non-trainable input layer and dynamically coupled reservoir, with only the static readout layer being trained. This design circumvents the issues associated with backpropagating error signals through time, thereby enhancing both stability and training efficiency. RC models have been successfully applied across a broad range of application domains. Crucially, they have been demonstrated to be universal approximators of time-invariant dynamic filters with fading memory, under various settings of approximation norms and input driving sources. Simple Cycle Reservoirs (SCR) represent a specialized class of RC models with a highly constrained reservoir architecture, characterized by uniform ring connectivity and binary input-to-reservoir weights with an aperiodic sign pattern. For linear reservoirs, given the reservoir size, the reservoir construction has only one degree of freedom -- the reservoir cycle weight. Such architectures are particularly amenable to hardware implementations without significant performance degradation in many practical tasks. In this study we endow these observations with solid theoretical foundations by proving that SCRs operating in real domain are universal approximators of time-invariant dynamic filters with fading memory. Our results supplement recent research showing that SCRs in the complex domain can approximate, to arbitrary precision, any unrestricted linear reservoir with a non-linear readout. We furthermore introduce a novel method to drastically reduce the number of SCR units, making such highly constrained architectures natural candidates for low-complexity hardware implementations. Our findings are supported by empirical studies on real-world time series datasets.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# I-SHEEP:反復的自己拡張パラダイムによるLCMのスクラッチからの自己アライメント

I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm ( http://arxiv.org/abs/2408.08072v1 )

ライセンス: Link先を確認
Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang, (参考訳) 大規模言語モデル(LLM)は大きな進歩を遂げてきたが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱い、アクティブな学習とアライメントの可能性を無視している。 一部のアプローチでは、独自の合成データを用いてLSMを訓練し、アクティブアライメントの可能性を探る。 しかし、この1回アライメント法と人間の連続的な自動アライメントの間にはまだ大きなギャップがある。 本稿では, テキストbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigmを紹介する。 In this paper, I-SHEEP can significantly enhance capacity on Qwen and Llama model。 I-SHEEPは、Alpaca Evalの78.2\%の最大相対改善、MT Benchの24.0\%、Qwen-1.5 72Bモデルでのその後のイテレーションに比べて、IFEvalの精度が8.88\%の絶対的に向上する。 さらに、I-SHEEPは様々な標準ベンチマーク生成タスクのベースモデルを超え、コード生成タスクの24.77\%、TrivialQAの12.04\%、SQuADの20.29\%の平均的な改善を実現している。 実験結果に基づいた新たな洞察も提供する。 私たちのコード、データセット、モデルは、 \textbf{https://anonymous.4open.science/r/I-SHEEP}で利用可能です。

Large Language Models (LLMs) have achieved significant advancements, however, the common learning paradigm treats LLMs as passive information repositories, neglecting their potential for active learning and alignment. Some approaches train LLMs using their own generated synthetic data, exploring the possibility of active alignment. However, there is still a huge gap between these one-time alignment methods and the continuous automatic alignment of humans. In this paper, we introduce \textbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigm.This human-like paradigm enables LLMs to \textbf{continuously self-align from scratch with nothing}. Compared to the one-time alignment method Dromedary \cite{sun2023principledriven}, which refers to the first iteration in this paper, I-SHEEP can significantly enhance capacities on both Qwen and Llama models. I-SHEEP achieves a maximum relative improvement of 78.2\% in the Alpaca Eval, 24.0\% in the MT Bench, and an absolute increase of 8.88\% in the IFEval accuracy over subsequent iterations in Qwen-1.5 72B model. Additionally, I-SHEEP surpasses the base model in various standard benchmark generation tasks, achieving an average improvement of 24.77\% in code generation tasks, 12.04\% in TrivialQA, and 20.29\% in SQuAD. We also provide new insights based on the experiment results. Our codes, datasets, and models are available at \textbf{https://anonymous.4open.science/r/I-SHEEP}.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# 事前学習した変圧器モデルからの文埋め込み抽出

Extracting Sentence Embeddings from Pretrained Transformer Models ( http://arxiv.org/abs/2408.08073v1 )

ライセンス: Link先を確認
Lukas Stankevičius, Mantas Lukoševičius, (参考訳) 背景/意図: 事前学習されたトランスフォーマーモデルは、多くの自然言語処理タスクで輝き、入力文やテキストの意味を表現することが期待される。 これらの文レベルの埋め込みは、検索強化世代においても重要である。 しかし、一般的な平均化やプロンプトテンプレートは、十分に表面化していますか? 方法: BERTの複数の層および複数のトークンからの隠された表現を110万個のパラメータに与え, 最適な文表現を抽出する様々な方法を試みた。 さまざまなトークン集合と表現後処理手法を検証した。 また、汎用Wikitextデータセットを用いてBERTの文表現を補完する複数の方法についても検討した。 全手法がセマンティックテキスト類似性(STS)、8つの短いテキストクラスタリング、6つの分類タスクでテストされた。 また、ランダムトークン表現を含む他の静的モデル上での表現形成手法の評価を行った。 結果: 提案した表現抽出手法により, STSにおける性能が向上し, 検討された全てのモデルに対するクラスタリングタスクが向上した。 静的トークンベースのモデル、特にSTSタスクのランダムな埋め込みは、BERTから派生した表現のパフォーマンスにほぼ達する。 結論: 私たちの研究は、複数のタスクにおいて、表現整形技術による単純なベースラインが、より複雑なBERTベースのモデルに到達したり、さらに優れたりするか、あるいはそれらのパフォーマンスに貢献できることを示す。

Background/introduction: Pre-trained transformer models shine in many natural language processing tasks and therefore are expected to bear the representation of the input sentence or text meaning. These sentence-level embeddings are also important in retrieval-augmented generation. But do commonly used plain averaging or prompt templates surface it enough? Methods: Given 110M parameters BERT's hidden representations from multiple layers and multiple tokens we tried various ways to extract optimal sentence representations. We tested various token aggregation and representation post-processing techniques. We also tested multiple ways of using a general Wikitext dataset to complement BERTs sentence representations. All methods were tested on 8 Semantic Textual Similarity (STS), 6 short text clustering, and 12 classification tasks. We also evaluated our representation-shaping techniques on other static models, including random token representations. Results: Proposed representation extraction methods improved the performance on STS and clustering tasks for all models considered. Very high improvements for static token-based models, especially random embeddings for STS tasks almost reach the performance of BERT-derived representations. Conclusions: Our work shows that for multiple tasks simple baselines with representation shaping techniques reach or even outperform more complex BERT-based models or are able to contribute to their performance.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# 統合センシング・コミュニケーション・計算に関する調査研究

A Survey on Integrated Sensing, Communication, and Computation ( http://arxiv.org/abs/2408.08074v1 )

ライセンス: Link先を確認
Dingzhu Wen, Yong Zhou, Xiaoyang Li, Yuanming Shi, Kaibin Huang, Khaled B. Letaief, (参考訳) 次世代のワイヤレス技術である6Gは、従来のデータ中心サービスを超えた革命的な飛躍を約束している。 あらゆるものが相互接続され、インテリジェントである、ユビキタスなインテリジェントサービスの時代を後押しすることを目的としています。 このビジョンには、情報取得のためのセンシング、情報共有のためのコミュニケーション、情報処理と意思決定のための計算という、3つの基本的なモジュールのシームレスな統合が必要である。 これらのモジュールは、特にエッジ学習や推論のような複雑なタスクにおいて、複雑にリンクされている。 しかし、これらのモジュールのパフォーマンスは相互依存しており、時間、エネルギー、帯域幅のリソース競争を生み出している。 統合通信と計算(ICC)、統合センシングと計算(ISC)、統合センシングと通信(ISAC)といった既存の技術は、この課題に対処するために部分的に進歩してきたが、極端な性能要件を満たすには至らなかった。 これらの制限を克服するためには、感覚、コミュニケーション、計算を包括的に統合する新しい技術を開発することが不可欠である。 この統合されたアプローチは、ISCC(Integrated Sensing, Communication, and Computation)と呼ばれ、タスクパフォーマンスを向上させるための体系的な視点を提供する。 本稿は、ICC、ICC、ISACなどの歴史的および関連する技術に関する総合的な調査から始まり、その強みと限界を強調した。 その後、ISCCに特化されたネットワークリソース管理戦略とともに、ISCCの最先端の信号設計を探求する。 さらに,今後の高度ネットワークにおけるISCC導入に向けたエキサイティングな研究機会について論じる。 ISCCを受け入れることで、インテリジェントな接続の可能性を最大限に解き放ち、アプリケーションやサービスを画期的なものにする道を開くことができます。

The forthcoming generation of wireless technology, 6G, promises a revolutionary leap beyond traditional data-centric services. It aims to usher in an era of ubiquitous intelligent services, where everything is interconnected and intelligent. This vision requires the seamless integration of three fundamental modules: Sensing for information acquisition, communication for information sharing, and computation for information processing and decision-making. These modules are intricately linked, especially in complex tasks such as edge learning and inference. However, the performance of these modules is interdependent, creating a resource competition for time, energy, and bandwidth. Existing techniques like integrated communication and computation (ICC), integrated sensing and computation (ISC), and integrated sensing and communication (ISAC) have made partial strides in addressing this challenge, but they fall short of meeting the extreme performance requirements. To overcome these limitations, it is essential to develop new techniques that comprehensively integrate sensing, communication, and computation. This integrated approach, known as Integrated Sensing, Communication, and Computation (ISCC), offers a systematic perspective for enhancing task performance. This paper begins with a comprehensive survey of historic and related techniques such as ICC, ISC, and ISAC, highlighting their strengths and limitations. It then explores the state-of-the-art signal designs for ISCC, along with network resource management strategies specifically tailored for ISCC. Furthermore, this paper discusses the exciting research opportunities that lie ahead for implementing ISCC in future advanced networks. By embracing ISCC, we can unlock the full potential of intelligent connectivity, paving the way for groundbreaking applications and services.
翻訳日:2024-08-16 14:16:19 公開日:2024-08-15
# マルコフポテンシャルゲームのための独立したポリシーミラー

Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players ( http://arxiv.org/abs/2408.08075v1 )

ライセンス: Link先を確認
Pragnya Alatur, Anas Barakat, Niao He, (参考訳) マルコフポテンシャルゲーム(MPG)はマルコフゲームの重要なサブクラスを形成し、マルチエージェント強化学習問題をモデル化するための共通のフレームワークである。 特にMPGは、すべてのエージェントが同じ報酬関数を共有するような、同一の関心の設定を特別なケースとして含んでいる。 マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。 この重要な課題に対処するために、エージェントがローカル情報にアクセスして自身のポリシーを更新できる独立した学習環境に焦点を当てる。 MPG に関する以前の作業では、$\epsilon$-Nash の遺書を取得するのに要するイテレーションの複雑さは、$N$ のエージェントの数と線形にスケールする。 本稿では,MPGに対する独立ポリシーミラー降下(PMD)アルゴリズムの反復複雑性について検討する。 我々は,自然政策勾配としても知られるKL正規化をもつPMDが,エージェント数により良い$\sqrt{N}$依存を享受し,ユークリッド正規化や先行作業によるPMDよりも改善されていることを示す。 さらに、反復複雑性はエージェントのアクション空間のサイズにも依存しない。

Markov Potential Games (MPGs) form an important sub-class of Markov games, which are a common framework to model multi-agent reinforcement learning problems. In particular, MPGs include as a special case the identical-interest setting where all the agents share the same reward function. Scaling the performance of Nash equilibrium learning algorithms to a large number of agents is crucial for multi-agent systems. To address this important challenge, we focus on the independent learning setting where agents can only have access to their local information to update their own policy. In prior work on MPGs, the iteration complexity for obtaining $\epsilon$-Nash regret scales linearly with the number of agents $N$. In this work, we investigate the iteration complexity of an independent policy mirror descent (PMD) algorithm for MPGs. We show that PMD with KL regularization, also known as natural policy gradient, enjoys a better $\sqrt{N}$ dependence on the number of agents, improving over PMD with Euclidean regularization and prior work. Furthermore, the iteration complexity is also independent of the sizes of the agents' action spaces.
翻訳日:2024-08-16 14:16:18 公開日:2024-08-15
# 運動を伴う治療 : 粗粒仮設地雷によるリモートセンシングによる変化検出

Treat Stillness with Movement: Remote Sensing Change Detection via Coarse-grained Temporal Foregrounds Mining ( http://arxiv.org/abs/2408.08078v1 )

ライセンス: Link先を確認
Xixi Wang, Zitian Wang, Jingtao Jiang, Lan Chen, Xiao Wang, Bo Jiang, (参考訳) 現在の作業は、両時間画像を用いたリモートセンシング変更検出タスクへの対処に重点を置いている。 しかし、良いパフォーマンスは達成できるが、それらが重要かもしれない動きの手がかりを考えることはめったにない。 本研究では,広範に採用されているバイテンポラルイメージベースフレームワークを再検討し,新しい粗粒度時間マイニング拡張(CTMA)フレームワークを提案する。 両時間画像に比例して,まず補間操作を用いて映像に変換する。 そして、一連の時間エンコーダを採用して、得られた映像から動き特徴を抽出し、粗い粒度変化領域予測を行う。 その後、グローバル情報とローカル情報を統合するために、粗粒度拡張空間エンコーダモジュールを設計する。 また,運動手がかりを付加出力として活用し,空間的特徴を集約して結果を向上する動き強化戦略も導入した。 一方、入力画像ペアをResNetに入力し、異なる特徴と、きめ細かい特徴学習のための空間ブロックを得る。 より重要なことは、粗い粒度の変化した領域をデコーダブロックに組み込んで最終的な変化予測を強化するマスク拡張戦略を提案することである。 複数のベンチマークデータセットに対して行われた大規模な実験は、リモートセンシング画像変化検出のためのフレームワークの有効性を十分に検証した。 この論文のソースコードはhttps://github.com/Event-AHU/CTM_Remote_Sensing_Change_Detectionで公開される。

Current works focus on addressing the remote sensing change detection task using bi-temporal images. Although good performance can be achieved, however, seldom of they consider the motion cues which may also be vital. In this work, we revisit the widely adopted bi-temporal images-based framework and propose a novel Coarse-grained Temporal Mining Augmented (CTMA) framework. To be specific, given the bi-temporal images, we first transform them into a video using interpolation operations. Then, a set of temporal encoders is adopted to extract the motion features from the obtained video for coarse-grained changed region prediction. Subsequently, we design a novel Coarse-grained Foregrounds Augmented Spatial Encoder module to integrate both global and local information. We also introduce a motion augmented strategy that leverages motion cues as an additional output to aggregate with the spatial features for improved results. Meanwhile, we feed the input image pairs into the ResNet to get the different features and also the spatial blocks for fine-grained feature learning. More importantly, we propose a mask augmented strategy that utilizes coarse-grained changed regions, incorporating them into the decoder blocks to enhance the final changed prediction. Extensive experiments conducted on multiple benchmark datasets fully validated the effectiveness of our proposed framework for remote sensing image change detection. The source code of this paper will be released on https://github.com/Event-AHU/CTM_Remote_Sensing_Change_Detection
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# 大規模システムにおける大局的局所化と因果論理の表現

Acronal Localization, Representations of the Causal Logic for massive systems ( http://arxiv.org/abs/2408.08082v1 )

ライセンス: Link先を確認
Domenico P. L. Castrigiano, (参考訳) 平地では、相対論的量子粒子の局所化はミンコフスキー時空のアクロナル領域にまで拡張される。 正確な位置決めは自動的に因果関係の要求を満たす。 量子力学系の因果原理に最も完全に準拠するフレームを構成する。 時間的局所化は因果論理の領域における局所化と等価である。 因果論理の表現は正のルベーグ測度とすべての定スピンの質量スペクトルを持つ系に対して構成される。 実際の質量系に対する因果論理の表現は過去にはなされていないようである。

On plain physical grounds localization of relativistic quantum particles is extended to the acronal regions of Minkowski spacetime. Acronal localization fulfills automatically the requirements of causality. It constitutes the frame which complies most completely with the principle of causality for quantum mechanical systems. Acronal localization is equivalent to the localization in the regions of the causal logic. Representations of the causal logic are constructed for the systems with mass spectrum of positive Lebesgue measure and every definite spin. Apparently no representation of the causal logic for a real mass system has been achieved in the past.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# 優れた意思決定のための信頼度重み付けによる人間と機械の判断の統合

Confidence-weighted integration of human and machine judgments for superior decision-making ( http://arxiv.org/abs/2408.08083v1 )

ライセンス: Link先を確認
Felipe Yáñez, Xiaoliang Luo, Omar Valerio Minero, Bradley C. Love, (参考訳) 大規模言語モデル(LLM)は、様々な領域において強力なツールとして登場してきた。 近年の研究では、LLMは神経科学研究の結果を予測するなど、特定のタスクにおいて人間を上回る可能性があることが示されている。 全体的な意思決定プロセスにおいて、これが人間にどのような役割を果たすのか? 1つの可能性として、人間はLSMよりも悪いパフォーマンスをしているにもかかわらず、チームで作業するときに価値を付加できる。 人間と機械のチームは、チームメンバーの自信が十分に調整されたときに各チームメイトを上回ることができ、チームメンバーは、彼らが難しいと感じているタスク(キャリブレーションと多様性が必要)を分散します。 われわれはベイジアンアプローチを単純化して拡張し、ロジスティック回帰フレームワークを使って、あらゆるチームメンバーに対する信頼度の高い判断を統合した判断を組み合わせました。 この簡単な方法を用いて、我々は、人間がLLMよりも劣っている場合でも、1つ以上のLLMと組み合わせることでチームのパフォーマンスを継続的に改善する神経科学予測タスクを実演した。 人間と機械の判断を統合するための、シンプルで効果的な戦略が、生産的なコラボレーションに繋がることを期待しています。

Large language models (LLMs) have emerged as powerful tools in various domains. Recent studies have shown that LLMs can surpass humans in certain tasks, such as predicting the outcomes of neuroscience studies. What role does this leave for humans in the overall decision process? One possibility is that humans, despite performing worse than LLMs, can still add value when teamed with them. A human and machine team can surpass each individual teammate when team members' confidence is well-calibrated and team members diverge in which tasks they find difficult (i.e., calibration and diversity are needed). We simplified and extended a Bayesian approach to combining judgments using a logistic regression framework that integrates confidence-weighted judgments for any number of team members. Using this straightforward method, we demonstrated in a neuroscience forecasting task that, even when humans were inferior to LLMs, their combination with one or more LLMs consistently improved team performance. Our hope is that this simple and effective strategy for integrating the judgments of humans and machines will lead to productive collaborations.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# 事前学習モデルを用いた授業増分学習のための効率的なリプレイ

An Efficient Replay for Class-Incremental Learning with Pre-trained Models ( http://arxiv.org/abs/2408.08084v1 )

ライセンス: Link先を確認
Weimin Yin, Bin Chen adn Chunzhao Xie, Zhenhao Tan, (参考訳) 一般的なクラス増分学習では、研究者は通常、連続学習中に破滅的な忘れ物を避けるツールとしてサンプルセットを使用する。 同時に、研究者たちは、クラスインクリメンタルラーニングとOracleのトレーニングの違いも指摘し、修正を試みた。 近年,事前学習モデルを用いたクラスインクリメンタル学習アルゴリズムの開発が始まっており,大きな成果を上げている。 本稿では,クラス中心が案内する重みの定常状態が破壊され,破滅的忘れと大きく相関していることを示す。 そこで本研究では, 忘れを克服する新しい手法を提案する。 いくつかのケースでは、メモリ内の各クラスの1つのサンプルユニットだけをリプレイし、単純な勾配制約を適用することで、非常に良い結果が得られる。 実験結果から, 事前学習モデルでは, 計算コストが極めて低く, クロスエントロピー損失を用いることで, 競争性能を達成できることが示唆された。

In general class-incremental learning, researchers typically use sample sets as a tool to avoid catastrophic forgetting during continuous learning. At the same time, researchers have also noted the differences between class-incremental learning and Oracle training and have attempted to make corrections. In recent years, researchers have begun to develop class-incremental learning algorithms utilizing pre-trained models, achieving significant results. This paper observes that in class-incremental learning, the steady state among the weight guided by each class center is disrupted, which is significantly correlated with catastrophic forgetting. Based on this, we propose a new method to overcoming forgetting . In some cases, by retaining only a single sample unit of each class in memory for replay and applying simple gradient constraints, very good results can be achieved. Experimental results indicate that under the condition of pre-trained models, our method can achieve competitive performance with very low computational cost and by simply using the cross-entropy loss.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# モノと人間の単一像コヒーレントな再構築

Single-image coherent reconstruction of objects and humans ( http://arxiv.org/abs/2408.08086v1 )

ライセンス: Link先を確認
Sarthak Batra, Partha P. Chakrabarti, Simon Hadfield, Armin Mustafa, (参考訳) モノクロ画像から物体と人間を再構成する既存の方法は、激しいメッシュ衝突と、物体同士の相互作用に対する性能制限に悩まされている。 本稿では,1つの画像から対話対象と人物を相互に一貫した3次元再構成する手法を提案する。 コントリビューションには以下のものがある。 1 衝突損失を特徴とし、人間・物体・人間・人間の相互作用に対処し、空間的に整合性のあるシーン再構築を確保するための最適化枠組み 2)6自由度(DOF)のポーズを強固に推定する新しい手法。 提案手法は,シーンやオブジェクトレベルの3D監視を必要とせず,現実のシナリオからの画像に対して効果的に操作する。 既存手法に対する大規模定性的・定量的評価は、複数の相互作用する人間や物体によるシーンの最終的な再構築における衝突の顕著な減少と、より一貫性のあるシーン再構築を示す。

Existing methods for reconstructing objects and humans from a monocular image suffer from severe mesh collisions and performance limitations for interacting occluding objects. This paper introduces a method to obtain a globally consistent 3D reconstruction of interacting objects and people from a single image. Our contributions include: 1) an optimization framework, featuring a collision loss, tailored to handle human-object and human-human interactions, ensuring spatially coherent scene reconstruction; and 2) a novel technique to robustly estimate 6 degrees of freedom (DOF) poses, specifically for heavily occluded objects, exploiting image inpainting. Notably, our proposed method operates effectively on images from real-world scenarios, without necessitating scene or object-level 3D supervision. Extensive qualitative and quantitative evaluation against existing methods demonstrates a significant reduction in collisions in the final reconstructions of scenes with multiple interacting humans and objects and a more coherent scene reconstruction.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# ColorMamba: Mambaによる高品質NIR-to-RGBスペクトル変換を目指して

ColorMamba: Towards High-quality NIR-to-RGB Spectral Translation with Mamba ( http://arxiv.org/abs/2408.08087v1 )

ライセンス: Link先を確認
Huiyu Zhai, Guang Jin, Xingxing Yang, Guosheng Kang, (参考訳) NIRを可視光スペクトルに変換することは、クロスドメインの複雑さのために困難である。 現在のモデルは、幅広い受容領域と計算効率のバランスをとるのに苦労し、実用的使用を制限している。 Selective Structured State Space Model、特に改良版であるMambaは、線形複雑性で長距離依存関係をキャプチャすることで、生成タスクを優れているが、2D画像を1Dシーケンスに変換するというデフォルトのアプローチは、ローカルコンテキストを無視している。 そこで本研究では,まずスペクトル翻訳タスクにマンバを導入し,カラーマンバ(ColorMamba)という,シンプルで効果的なバックボーンを提案する。 グローバルな長距離依存関係と局所コンテキストを探索し、効率的なスペクトル変換を行うため、画像境界の区別を強化し、シーケンスモデル内での潜在的な混乱を防止するために学習可能なパディングトークンを導入する。 さらに、バニラ・マンバを改善するために、局所的な畳み込みの強化とエージェントの注意が設計されている。 さらに、HSV色を利用して、より正確なスペクトル変換を行うために、再構成プロセスにおけるマルチスケールガイダンスを提供する。 広汎な実験により、我々のColorMambaは、最先端の手法と比較してPSNRの1.02の改善を実現していることがわかった。 私たちのコードはhttps://github.com/AlexYangxx/ColorMamba.comから入手可能です。

Translating NIR to the visible spectrum is challenging due to cross-domain complexities. Current models struggle to balance a broad receptive field with computational efficiency, limiting practical use. Although the Selective Structured State Space Model, especially the improved version, Mamba, excels in generative tasks by capturing long-range dependencies with linear complexity, its default approach of converting 2D images into 1D sequences neglects local context. In this work, we propose a simple but effective backbone, dubbed ColorMamba, which first introduces Mamba into spectral translation tasks. To explore global long-range dependencies and local context for efficient spectral translation, we introduce learnable padding tokens to enhance the distinction of image boundaries and prevent potential confusion within the sequence model. Furthermore, local convolutional enhancement and agent attention are designed to improve the vanilla Mamba. Moreover, we exploit the HSV color to provide multi-scale guidance in the reconstruction process for more accurate spectral translation. Extensive experiments show that our ColorMamba achieves a 1.02 improvement in terms of PSNR compared with the state-of-the-art method. Our code is available at https://github.com/AlexYangxx/ColorMamba.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# KGV:サイバー脅威情報信頼性評価のための知識グラフによる大規模言語モデルの統合

KGV: Integrating Large Language Models with Knowledge Graphs for Cyber Threat Intelligence Credibility Assessment ( http://arxiv.org/abs/2408.08088v1 )

ライセンス: Link先を確認
Zongzong Wu, Fengxiao Tang, Ming Zhao, Yufeng Li, (参考訳) サイバー脅威インテリジェンス(サイバー脅威インテリジェンス)は、多くの組織や個人が、高度で組織化され、永続的で、兵器化されたサイバー攻撃から身を守るために使用する重要なツールである。 しかし、情報プラットフォームが提供する脅威情報の品質評価に焦点を当てた研究はほとんどなく、この研究にはサイバーセキュリティの専門家による手作業による分析が必要である。 本稿では,知識グラフとLarge Language Models(LLM)を組み合わせた,新しいサイバー脅威情報(CTI)品質評価フレームワークである知識グラフベースの検証手法を提案する。 提案手法では,検証対象のOSCTIキークレームを自動的に抽出するLLMを導入し,ファクトチェックのための段落からなる知識グラフを利用する。 この方法は、エンティティをノードとして複雑な知識グラフを構築する従来の方法とは異なる。 節をノードとする知識グラフの構築とエッジとしての意味的類似性により、モデルのセマンティック理解能力を効果的に強化し、ラベル付け要求を単純化する。 さらに、研究分野のギャップを埋めるために、異種情報源からの脅威情報評価のための最初のデータセットを作成し、公開しました。 我々の知る限りでは、この研究は脅威知能信頼性検証のデータセットを初めて作成し、将来の研究の参考となる。 実験結果から,KGV (Knowledge Graph Verifier) は知能品質評価におけるLLMの性能を大幅に向上させることが示された。 従来の手法と比較して、モデルが強力な推論能力を持っている間、大量のデータアノテーションを減らします。 最後に,ネットワーク脅威評価においてXXX精度を実現する手法を提案する。

Cyber threat intelligence is a critical tool that many organizations and individuals use to protect themselves from sophisticated, organized, persistent, and weaponized cyber attacks. However, few studies have focused on the quality assessment of threat intelligence provided by intelligence platforms, and this work still requires manual analysis by cybersecurity experts. In this paper, we propose a knowledge graph-based verifier, a novel Cyber Threat Intelligence (CTI) quality assessment framework that combines knowledge graphs and Large Language Models (LLMs). Our approach introduces LLMs to automatically extract OSCTI key claims to be verified and utilizes a knowledge graph consisting of paragraphs for fact-checking. This method differs from the traditional way of constructing complex knowledge graphs with entities as nodes. By constructing knowledge graphs with paragraphs as nodes and semantic similarity as edges, it effectively enhances the semantic understanding ability of the model and simplifies labeling requirements. Additionally, to fill the gap in the research field, we created and made public the first dataset for threat intelligence assessment from heterogeneous sources. To the best of our knowledge, this work is the first to create a dataset on threat intelligence reliability verification, providing a reference for future research. Experimental results show that KGV (Knowledge Graph Verifier) significantly improves the performance of LLMs in intelligence quality assessment. Compared with traditional methods, we reduce a large amount of data annotation while the model still exhibits strong reasoning capabilities. Finally, our method can achieve XXX accuracy in network threat assessment.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# AgentCourt: 逆転可能な弁護士エージェントによる裁判所のシミュレート

AgentCourt: Simulating Court with Adversarial Evolvable Lawyer Agents ( http://arxiv.org/abs/2408.08089v1 )

ライセンス: Link先を確認
Guhong Chen, Liyang Fan, Zihan Gong, Nan Xie, Zixuan Li, Ziqiang Liu, Chengming Li, Qiang Qu, Shiwen Ni, Min Yang, (参考訳) 本稿では,裁判所全体をシミュレーションするAgentCourtというシミュレーションシステムを提案する。 裁判官、原告の弁護士、弁護人、その他の参加者は、大きな言語モデル(LLM)によって駆動される自律的なエージェントである。 私たちの中核的な目標は、法廷プロセスのシミュレーションを通じて、弁護士がケースの議論の仕方を学べるようにすることと、その全体的な法的スキルを改善することです。 この目的を達成するために,弁護士・弁護士に対する敵対的進化的アプローチを提案する。 AgentCourtは、知識ベースとLLMに基づく裁判所公聴会の発生と展開をシミュレートできるので、弁護士は、実際の裁判所事件から継続的に学び、蓄積することができる。 シミュレーション実験によると、2人の弁護士がAgentCourt(現実の弁護士には10年かかる)で1000件の敵対的訴訟に関わった後、進化した弁護士エージェントは、法的タスクを扱う能力に一貫した改善を示した。 実験結果の信頼性を高めるため,専門家のパネルでシミュレーションの評価を行った。 この評価は、進化した弁護士エージェントが、専門知識と論理的厳密さだけでなく、応答性の顕著な進歩を示したことを示している。 この研究は、法的シナリオにおけるLLM駆動エージェント技術の進歩の道を開くものである。 コードはhttps://github.com/relic-yuexi/AgentCourt.comで入手できる。

In this paper, we present a simulation system called AgentCourt that simulates the entire courtroom process. The judge, plaintiff's lawyer, defense lawyer, and other participants are autonomous agents driven by large language models (LLMs). Our core goal is to enable lawyer agents to learn how to argue a case, as well as improving their overall legal skills, through courtroom process simulation. To achieve this goal, we propose an adversarial evolutionary approach for the lawyer-agent. Since AgentCourt can simulate the occurrence and development of court hearings based on a knowledge base and LLM, the lawyer agents can continuously learn and accumulate experience from real court cases. The simulation experiments show that after two lawyer-agents have engaged in a thousand adversarial legal cases in AgentCourt (which can take a decade for real-world lawyers), compared to their pre-evolutionary state, the evolved lawyer agents exhibit consistent improvement in their ability to handle legal tasks. To enhance the credibility of our experimental results, we enlisted a panel of professional lawyers to evaluate our simulations. The evaluation indicates that the evolved lawyer agents exhibit notable advancements in responsiveness, as well as expertise and logical rigor. This work paves the way for advancing LLM-driven agent technology in legal scenarios. Code is available at https://github.com/relic-yuexi/AgentCourt.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# HAIR:Hypernetworksベースのオールインワン画像復元

HAIR: Hypernetworks-based All-in-One Image Restoration ( http://arxiv.org/abs/2408.08091v1 )

ライセンス: Link先を確認
Jin Cao, Yi Cao, Li Pang, Deyu Meng, Xiangyong Cao, (参考訳) 画像復元には、コンピュータビジョンの基本課題である劣化したバージョンから高品質なクリーンなイメージを復元することが含まれる。 画像復元の最近の進歩は、様々な劣化に同時に対処できる学習モデル、すなわちオールインワン画像復元モデルの有効性を実証している。 しかしながら、これらの既存手法は一般的に、異なる劣化型を持つ画像に対して同じパラメータを使用するため、モデルが劣化型間でのトレードオフを余儀なくされるため、全体的なパフォーマンスが損なわれる。 この問題を解決するために,Hypernetworksベースのプラグイン・アンド・プレイ方式であるHAIRを提案し,入力画像の内容に基づいて,対応するネットワークのパラメータを動的に生成する。 HAIRは、分類器(Cl)とHyper Selecting Net(HSN)の2つの主要コンポーネントで構成されている。 より具体的に言うと、分類器は、入力画像の劣化情報を含むGIV(Global Information Vector)を生成するために使用される単純な画像分類網であり、HSNは、GIVを受け取り、対応するモジュールの出力パラメータを出力する単純なフル接続ニューラルネットワークと見なすことができる。 大規模な実験では、HAIRをアーキテクチャに組み込むことで、画像復元タスクにおけるさまざまなモデルの性能を低コストで大幅に向上させることができることが示されている。 提案手法は,HAIRを一般的なアーキテクチャRestormerに組み込むことで,画像復元タスクにおける現在の最先端手法よりも優れた,あるいは少なくとも同等のパフォーマンスが得られる。 href{https://github.com/toummHus/HAIR}{\textcolor{blue}{$\underline{\textbf{Code and pre-trained checkpointsはここで利用できる。 }}$}}

Image restoration involves recovering a high-quality clean image from its degraded version, which is a fundamental task in computer vision. Recent progress in image restoration has demonstrated the effectiveness of learning models capable of addressing various degradations simultaneously, i.e., the All-in-One image restoration models. However, these existing methods typically utilize the same parameters facing images with different degradation types, which causes the model to be forced to trade off between degradation types, therefore impair the total performance. To solve this problem, we propose HAIR, a Hypernetworks-based plug-in-and-play method that dynamically generated parameters for the corresponding networks based on the contents of input images. HAIR consists of 2 main components: Classifier (Cl) and Hyper Selecting Net (HSN). To be more specific, the Classifier is a simple image classification network which is used to generate a Global Information Vector (GIV) that contains the degradation information of the input image; And the HSNs can be seen as a simple Fully-connected Neural Network that receive the GIV and output parameters for the corresponding modules. Extensive experiments shows that incorporating HAIR into the architectures can significantly improve the performance of different models on image restoration tasks at a low cost, \textbf{although HAIR only generate parameters and haven't change these models' logical structures at all.} With incorporating HAIR into the popular architecture Restormer, our method obtains superior or at least comparable performance to current state-of-the-art methods on a range of image restoration tasks. \href{https://github.com/toummHus/HAIR}{\textcolor{blue}{$\underline{\textbf{Code and pre-trained checkpoints are available here.}}$}}
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# OC3D:粗いクリックアノテートのみによる屋外3Dオブジェクト検出を弱めに監視

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation ( http://arxiv.org/abs/2408.08092v1 )

ライセンス: Link先を確認
Qiming Xia, Hongwei Lin, Wei Ye, Hai Wu, Yadan Luo, Shijia Zhao, Xin Li, Chenglu Wen, (参考訳) LiDARベースの屋外3Dオブジェクト検出は広く注目を集めている。 しかし、LiDARポイントクラウドからの3D検出器のトレーニングは通常、高価なバウンディングボックスアノテーションに依存している。 本稿では,3D 点雲の鳥の目視のみを粗いクリックで操作する,革新的な弱制御手法である OC3D を提案する。 ここでの重要な課題は、このような単純なクリックアノテーションからターゲットオブジェクトの完全な幾何学的記述がないことである。 この問題に対処するため,提案したOC3Dは2段階戦略を採用する。 最初の段階では、新しい動的分類戦略と静的分類戦略を設計し、次にClick2BoxとClick2Maskモジュールを提案し、それぞれ静的および動的インスタンス用のボックスレベルとマスクレベルの擬似ラベルを生成する。 第2段階では、ニューラルネットワークの学習能力を活用して、少ない情報を含むマスクレベルの擬似ラベルをボックスレベルの擬似ラベルに更新するMask2Boxモジュールを設計する。 広く使われているKITTIとnuScenesデータセットの実験結果から, 粗いクリックしか持たないOC3Dは, 弱教師付き3D検出法と比較して, 最先端の性能を実現することが示された。 OC3Dと欠落したクリックマイニング戦略を組み合わせたOC3D++パイプラインを提案する。

LiDAR-based outdoor 3D object detection has received widespread attention. However, training 3D detectors from the LiDAR point cloud typically relies on expensive bounding box annotations. This paper presents OC3D, an innovative weakly supervised method requiring only coarse clicks on the bird' s eye view of the 3D point cloud. A key challenge here is the absence of complete geometric descriptions of the target objects from such simple click annotations. To address this problem, our proposed OC3D adopts a two-stage strategy. In the first stage, we initially design a novel dynamic and static classification strategy and then propose the Click2Box and Click2Mask modules to generate box-level and mask-level pseudo-labels for static and dynamic instances, respectively. In the second stage, we design a Mask2Box module, leveraging the learning capabilities of neural networks to update mask-level pseudo-labels, which contain less information, to box level pseudo-labels. Experimental results on the widely used KITTI and nuScenes datasets demonstrate that our OC3D with only coarse clicks achieves state-of-the-art performance compared to weakly-supervised 3D detection methods. Combining OC3D with a missing click mining strategy, we propose a OC3D++ pipeline, which requires only 0.2% annotation cost in the KITTI dataset to achieve performance comparable to fully supervised methods.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# ビデオ符号化とマルチモーダル大言語モデル:ビデオ符号化の統一パラダイム

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding ( http://arxiv.org/abs/2408.08093v1 )

ライセンス: Link先を確認
Pingping Zhang, Jinlong Li, Meng Wang, Nicu Sebe, Sam Kwong, Shiqi Wang, (参考訳) 既存のコーデックは、圧縮のためのコンパクトな表現を作成するために固有の冗長性を排除するように設計されている。 しかし,Multimodal Large Language Models (MLLMs) からの強い外的先行性はビデオ圧縮において明らかに検討されていない。 本稿では,ビデオ符号化におけるマルチモーダル表現とビデオ生成モデルを探索するための先駆的アプローチである,CMVC(Cross-Modality Video Coding)の統一パラダイムを紹介する。 具体的には,エンコーダ側で映像を空間コンテンツとモーションコンポーネントに切り離し,その後,MLLMを利用して非常にコンパクトな表現を実現する。 復号の際には、事前に符号化されたコンポーネントとビデオ生成モデルを利用して、高い品質のセマンティック情報を保証するテキストテキスト・トゥ・ビデオ(TT2V)モードや、超過知覚整合性を実現する画像テキスト・トゥ・ビデオ(IT2V)モードなど、特定の復号要求に対してビデオ再構成品質を最適化する複数の符号化・復号モードを作成する。 さらに,Low-Rank Adaption (LoRA) チューニングによるIT2Vモードのフレーム補間モデルを提案する。 ベンチマーク実験の結果、TT2Vは効果的なセマンティック再構築を実現し、IT2Vは競合する知覚整合性を示すことが示された。 これらの結果は将来のビデオ符号化研究の方向性を浮き彫りにしている。

Existing codecs are designed to eliminate intrinsic redundancies to create a compact representation for compression. However, strong external priors from Multimodal Large Language Models (MLLMs) have not been explicitly explored in video compression. Herein, we introduce a unified paradigm for Cross-Modality Video Coding (CMVC), which is a pioneering approach to explore multimodality representation and video generative models in video coding. Specifically, on the encoder side, we disentangle a video into spatial content and motion components, which are subsequently transformed into distinct modalities to achieve very compact representation by leveraging MLLMs. During decoding, previously encoded components and video generation models are leveraged to create multiple encoding-decoding modes that optimize video reconstruction quality for specific decoding requirements, including Text-Text-to-Video (TT2V) mode to ensure high-quality semantic information and Image-Text-to-Video (IT2V) mode to achieve superb perceptual consistency. In addition, we propose an efficient frame interpolation model for IT2V mode via Low-Rank Adaption (LoRA) tuning to guarantee perceptual quality, which allows the generated motion cues to behave smoothly. Experiments on benchmarks indicate that TT2V achieves effective semantic reconstruction, while IT2V exhibits competitive perceptual consistency. These results highlight potential directions for future research in video coding.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# コード技術的負債予測における時間依存手法の評価と季節効果

Evaluating Time-Dependent Methods and Seasonal Effects in Code Technical Debt Prediction ( http://arxiv.org/abs/2408.08095v1 )

ライセンス: Link先を確認
Mikel Robredo, Nyyti Saarimaki, Davide Taibi, Rafael Penaloza, Valentina Lenarduzzi, (参考訳) コード技術的負債の予測は、最近のソフトウェア工学の文献で人気のある研究ニッチとなっている。 技術的負債(Technical Debt)は、プロフェッショナルがコードをきれいにするための労力を測定するため、ソフトウェアプロジェクトにおいて重要な指標である。 そのため、将来の行動を予測することが重要な課題となる。 しかしながら、明確に定義された一貫性のあるアプローチでは、Code Technical Debtの進化に影響を与える機能を完全に把握できない。 本研究の目的は,Code Technical Debtのコンテキスト内での予測性能において,時間依存技術と時間的データに対する季節的影響を考慮することによる影響を評価することである。 この研究は、広くは採用されていないが、時間に依存した予測技術を採用し、それらの予測性能を一般的な機械学習モデルと比較する。 さらに,Code Technical Debtデータにおける季節性の影響を捉えるために解析を拡張し,時間依存手法の評価を強化する。 Javaで開発された31のオープンソースプロジェクトのコミット履歴を使って、11の予測モデルをトレーニングしました。 我々は,SQALE指数の将来観測を予測し,その予測性能を評価した。 本研究は, 時間依存的手法を検討することによる肯定的な影響を検証した。 採用した多変量時系列解析モデルであるARIMAXは、他のモデルに匹敵する。 季節効果を取り入れることで、採用した時間依存手法の予測性能が向上した。 しかし、この効果の影響は比較的緩やかであることが判明した。 本研究の成果は,ソフトウェアメトリクスの履歴データ,特にCode Technical Debtの文脈において,既存の時間依存性を捉える手法の実装を優先して,我々の立場を裏付けるものである。 これはこの証拠に効果的に対処できる技術を活用する必要がある。

Code Technical Debt prediction has become a popular research niche in recent software engineering literature. Technical Debt is an important metric in software projects as it measures professionals' effort to clean the code. Therefore, predicting its future behavior becomes a crucial task. However, no well-defined and consistent approach can completely capture the features that impact the evolution of Code Technical Debt. The goal of this study is to evaluate the impact of considering time-dependent techniques as well as seasonal effects in temporal data in the prediction performance within the context of Code Technical Debt. The study adopts existing, yet not extensively adopted, time-dependent prediction techniques and compares their prediction performance to commonly used Machine Learning models. Further, the study strengthens the evaluation of time-dependent methods by extending the analysis to capture the impact of seasonality in Code Technical Debt data. We trained 11 prediction models using the commit history of 31 open-source projects developed with Java. We predicted the future observations of the SQALE index to evaluate their predictive performance. Our study confirms the positive impact of considering time-dependent techniques. The adopted multivariate time series analysis model ARIMAX overcame the rest of the adopted models. Incorporating seasonal effects led to an enhancement in the predictive performance of the adopted time-dependent techniques. However, the impact of this effect was found to be relatively modest. The findings of this study corroborate our position in favor of implementing techniques that capture the existing time dependence within historical data of software metrics, specifically in the context of this study, namely, Code Technical Debt. This necessitates the utilization of techniques that can effectively address this evidence.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# 量子シミュレーションと高性能コンピューティングの統合フレームワーク

A Framework for Integrating Quantum Simulation and High Performance Computing ( http://arxiv.org/abs/2408.08098v1 )

ライセンス: Link先を確認
Amir Shehata, Thomas Naughton, In-Saeng Suh, (参考訳) 科学的な応用が量子コンピューティングの可能性を探求し始めている。 この探索は通常、既存の古典的なプラットフォーム上で実行できる量子シミュレーションから始まるが、実際の量子リソースのパフォーマンス上の利点はない。 ハイパフォーマンスコンピューティング(HPC)の文脈では、シミュレーションソフトウェアの導入は、しばしば、シミュレーションサイズをスケールアップするのに役立つ強力なリソースを活用することができる。 HPCリソース上のこれらの量子シミュレーションパッケージの構成、インストール、運用は、しばしば、科学アプリケーション開発者による実験の摩擦を増大させる。 本稿では,HPCリソース上で動作する量子シミュレーションソフトウェアへのアクセスを効率化するフレームワークについて述べる。 これには、回路ベースの量子コンピューティングタスクのためのインターフェースと、基盤となるHPCリソースを効果的に利用するために必要なリソース管理インフラストラクチャが含まれる。 この研究の主な貢献は、HPCコンテキストにおける量子シミュレーションの異なる利用モデルの分類、我々のアプローチのためのソフトウェアアーキテクチャのレビュー、そして2つの異なるシミュレータ(TNQVM \&NWQ-Sim)を用いてこれらのアイデアを実験するためのプロトタイプ実装の詳細な説明である。 我々は、SupermarQ量子ベンチマークフレームワークを介して生成された合成ワークロードを使用して、オークリッジリーダーシップコンピューティング施設(OLCF)のフロンティアスーパーコンピュータ上で実行された実験結果を含む。

Scientific applications are starting to explore the viability of quantum computing. This exploration typically begins with quantum simulations that can run on existing classical platforms, albeit without the performance advantages of real quantum resources. In the context of high-performance computing (HPC), the incorporation of simulation software can often take advantage of the powerful resources to help scale-up the simulation size. The configuration, installation and operation of these quantum simulation packages on HPC resources can often be rather daunting and increases friction for experimentation by scientific application developers. We describe a framework to help streamline access to quantum simulation software running on HPC resources. This includes an interface for circuit-based quantum computing tasks, as well as the necessary resource management infrastructure to make effective use of the underlying HPC resources. The primary contributions of this work include a classification of different usage models for quantum simulation in an HPC context, a review of the software architecture for our approach and a detailed description of the prototype implementation to experiment with these ideas using two different simulators (TNQVM \& NWQ-Sim). We include initial experimental results running on the Frontier supercomputer at the Oak Ridge Leadership Computing Facility (OLCF) using a synthetic workload generated via the SupermarQ quantum benchmarking framework.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# マルチモーダル因果推論ベンチマーク:シームズ画像間の因果関係を推測する視覚大言語モデル

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images ( http://arxiv.org/abs/2408.08105v1 )

ライセンス: Link先を確認
Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai, (参考訳) 大規模言語モデル(LLM)は、テキスト情報からの因果推論において、例外的な能力を示した。 しかし、視覚的ヒントのみを提供する場合、これらの因果関係はVision Large Language Models (VLLMs) にとって依然として単純であるだろうか? そこで本研究では,動作,外観,衣服,環境などの視覚的手がかりにのみ依存する場合に,意味的原因と効果の関係を推測するために,VLLMに挑戦する新しいマルチモーダル因果推論ベンチマークである MuCR を提案する。 具体的には、VLLMの因果推論能力を効果的に評価できる、セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための、プロンプト駆動画像合成手法を提案する。 さらに、VLLMの理解能力を総合的に評価するために、画像レベルのマッチング、フレーズレベルの理解、文レベルの説明など、複数の視点から調整されたメトリクスを開発する。 我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。 さらに、これらのモデルの欠点を異なる視点から理解し、今後の研究の方向性を示唆する包括的分析を行う。 マルチモーダル因果推論研究において, MuCR が貴重な資源および基礎ベンチマークとして機能することを願っている。 このプロジェクトは、https://github.com/Zhiyuan-Li-John/MuCRで入手できる。

Large Language Models (LLMs) have showcased exceptional ability in causal reasoning from textual information. However, will these causalities remain straightforward for Vision Large Language Models (VLLMs) when only visual hints are provided? Motivated by this, we propose a novel Multimodal Causal Reasoning benchmark, namely MuCR, to challenge VLLMs to infer semantic cause-and-effect relationship when solely relying on visual cues such as action, appearance, clothing, and environment. Specifically, we introduce a prompt-driven image synthesis approach to create siamese images with embedded semantic causality and visual cues, which can effectively evaluate VLLMs' causal reasoning capabilities. Additionally, we develop tailored metrics from multiple perspectives, including image-level match, phrase-level understanding, and sentence-level explanation, to comprehensively assess VLLMs' comprehension abilities. Our extensive experiments reveal that the current state-of-the-art VLLMs are not as skilled at multimodal causal reasoning as we might have hoped. Furthermore, we perform a comprehensive analysis to understand these models' shortcomings from different views and suggest directions for future research. We hope MuCR can serve as a valuable resource and foundational benchmark in multimodal causal reasoning research. The project is available at: https://github.com/Zhiyuan-Li-John/MuCR
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# パラメトリック偏微分方程式発見のための不確実性補償ベイズ情報規準の適応

Adaptation of uncertainty-penalized Bayesian information criterion for parametric partial differential equation discovery ( http://arxiv.org/abs/2408.08106v1 )

ライセンス: Link先を確認
Pongpisit Thanasutives, Ken-ichi Fukui, (参考訳) データ駆動による偏微分方程式(PDE)の発見は、観測データに関するドメイン知識が限られている場合に、制御物理学を導出するための有望なアプローチとして現れてきた。 近年の進歩にもかかわらず、従来の情報基準を用いた支配方程式とそのパラメトリック依存関係の同定は、過度に複雑なPDEを選択する傾向にあるため、ノイズの多い状況では難しいままである。 本稿では、計算コストのかかるPDEシミュレーションを必要とせず、パラメトリックPDE発見問題を効率的に解くために適応した不確実性ペナル化ベイズ情報量規準(UBIC)の拡張を提案する。 この拡張UBICは、異なる時間的または空間的な点に対する定量化されたPDE不確実性を使用して、モデル選択における過度な適合を防止する。 UBICは、パワースペクトル密度に基づくデータ変換を用いて計算され、周波数空間の定性的特徴をいくつかの重要な項とパラメトリック依存(つまり、異なるPDE係数)で真に捉え、信頼区間で評価するパラメトリックPDEの統治的特徴を発見する。 標準PDEの数値実験により, UBICの拡張により, ノイズの存在下においても, 実数の項数とその変動係数を正確に同定できることが示されている。 コードは \url{https://github.com/Pongpisit-Thanasutives/parametric-Discovery} で公開されている。

Data-driven discovery of partial differential equations (PDEs) has emerged as a promising approach for deriving governing physics when domain knowledge about observed data is limited. Despite recent progress, the identification of governing equations and their parametric dependencies using conventional information criteria remains challenging in noisy situations, as the criteria tend to select overly complex PDEs. In this paper, we introduce an extension of the uncertainty-penalized Bayesian information criterion (UBIC), which is adapted to solve parametric PDE discovery problems efficiently without requiring computationally expensive PDE simulations. This extended UBIC uses quantified PDE uncertainty over different temporal or spatial points to prevent overfitting in model selection. The UBIC is computed with data transformation based on power spectral densities to discover the governing parametric PDE that truly captures qualitative features in frequency space with a few significant terms and their parametric dependencies (i.e., the varying PDE coefficients), evaluated with confidence intervals. Numerical experiments on canonical PDEs demonstrate that our extended UBIC can identify the true number of terms and their varying coefficients accurately, even in the presence of noise. The code is available at \url{https://github.com/Pongpisit-Thanasutives/parametric-discovery}.
翻訳日:2024-08-16 14:05:59 公開日:2024-08-15
# 二重表現アライメントによる非教師なし部分発見

Unsupervised Part Discovery via Dual Representation Alignment ( http://arxiv.org/abs/2408.08108v1 )

ライセンス: Link先を確認
Jiahao Xia, Wenjian Huang, Min Xu, Jianguo Zhang, Haimin Zhang, Ziyu Sheng, Dong Xu, (参考訳) オブジェクト部分は様々な下流タスクにおいて重要な中間表現として機能するが、部分レベルの表現学習は他の視覚タスクほど注目されていない。 これまでの研究は、Vision Transformerがラベルなしでインスタンスレベルの注意を学習できることを確立し、下流タスクの強化のために高品質なインスタンスレベルの表現を抽出した。 本稿では、新しいパラダイムを用いた非教師なしの注意学習を実現し、さらにその部分表現を用いて、部分発見性能を向上させる。 具体的には、異なる幾何変換を持つ同一画像からペア画像を生成し、これらのペア画像から複数の部分表現を、PartFormerという新しいモジュールを用いて抽出する。 ペア画像からのこれらの部分表現は、幾何学的変換不変性を改善するために交換される。 その後、特徴マップエンコーダにより抽出された特徴マップに部分表現を整列させ、対応する部分領域の画素表現と高い類似性、および無関係領域における低類似性を実現する。 最後に、幾何学的および意味的な制約を、部分固有の注意学習のアライメントの中間結果を通じて、部分表現に適用し、PartFormerが局所的なフォーカスを奨励し、部分表現が対応する部分の情報を明確に含めるように促します。 さらに、アライメントされた部分表現は、テストフェーズにおける一連の信頼できる検出器として機能し、部分発見のためのピクセルマスクを予測する。 広範に使用されている4つのデータセットに対して大規模な実験を行い,提案手法が性能と頑健性を両立させることを実証した。

Object parts serve as crucial intermediate representations in various downstream tasks, but part-level representation learning still has not received as much attention as other vision tasks. Previous research has established that Vision Transformer can learn instance-level attention without labels, extracting high-quality instance-level representations for boosting downstream tasks. In this paper, we achieve unsupervised part-specific attention learning using a novel paradigm and further employ the part representations to improve part discovery performance. Specifically, paired images are generated from the same image with different geometric transformations, and multiple part representations are extracted from these paired images using a novel module, named PartFormer. These part representations from the paired images are then exchanged to improve geometric transformation invariance. Subsequently, the part representations are aligned with the feature map extracted by a feature map encoder, achieving high similarity with the pixel representations of the corresponding part regions and low similarity in irrelevant regions. Finally, the geometric and semantic constraints are applied to the part representations through the intermediate results in alignment for part-specific attention learning, encouraging the PartFormer to focus locally and the part representations to explicitly include the information of the corresponding parts. Moreover, the aligned part representations can further serve as a series of reliable detectors in the testing phase, predicting pixel masks for part discovery. Extensive experiments are carried out on four widely used datasets, and our results demonstrate that the proposed method achieves competitive performance and robustness due to its part-specific attention.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 血液糖を聴く:単純な声信号を通して非侵襲的なグルコース測定を行い、あらゆる音声を機械学習でセンサーに変換する

Hearing Your Blood Sugar: Non-Invasive Glucose Measurement Through Simple Vocal Signals, Transforming any Speech into a Sensor with Machine Learning ( http://arxiv.org/abs/2408.08109v1 )

ライセンス: Link先を確認
Nihat Ahmadli, Mehmet Ali Sarsil, Onur Ergen, (参考訳) 効果的な糖尿病管理は、伝統的に侵襲的で不快な方法で達成された血糖値の継続的なモニタリングに大きく依存している。 光学、マイクロ波、電気化学といった様々な非侵襲的手法が研究されているが、複雑さ、精度、コストに関する問題により、これらの侵襲的技術を効果的に置き換えた者はいない。 本研究では,音声解析を用いて血糖値を予測する変換的,簡便な手法を提案する。 本研究は, 発声時の血管動態の影響に着目し, 血糖変動と発声特性の関係について検討した。 高度な機械学習アルゴリズムを適用することで,音声信号の変動を分析し,血糖値と有意な相関性を確立した。 音声記録とそれに対応するグルコース測定に基づいて,ロジスティック回帰とリッジ正規化を用いた人工知能を用いた予測モデルを開発した。 以上の結果から,音声分析はグルコースモニタリングの非侵襲的代替手段として有用である可能性が示唆された。 この革新的なアプローチは、糖尿病管理に関連するコストを合理化し、削減するだけでなく、無痛でユーザーフレンドリーな血糖値モニタリング方法を提供することで、糖尿病患者にとっての生活の質を高めることを目的としている。

Effective diabetes management relies heavily on the continuous monitoring of blood glucose levels, traditionally achieved through invasive and uncomfortable methods. While various non-invasive techniques have been explored, such as optical, microwave, and electrochemical approaches, none have effectively supplanted these invasive technologies due to issues related to complexity, accuracy, and cost. In this study, we present a transformative and straightforward method that utilizes voice analysis to predict blood glucose levels. Our research investigates the relationship between fluctuations in blood glucose and vocal characteristics, highlighting the influence of blood vessel dynamics during voice production. By applying advanced machine learning algorithms, we analyzed vocal signal variations and established a significant correlation with blood glucose levels. We developed a predictive model using artificial intelligence, based on voice recordings and corresponding glucose measurements from participants, utilizing logistic regression and Ridge regularization. Our findings indicate that voice analysis may serve as a viable non-invasive alternative for glucose monitoring. This innovative approach not only has the potential to streamline and reduce the costs associated with diabetes management but also aims to enhance the quality of life for individuals living with diabetes by providing a painless and user-friendly method for monitoring blood sugar levels.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 模擬および実験用低用量CTデータによる難聴の学習

Learned denoising with simulated and experimental low-dose CT data ( http://arxiv.org/abs/2408.08115v1 )

ライセンス: Link先を確認
Maximilian B. Kiss, Ander Biguri, Carola-Bibiane Schönlieb, K. Joost Batenburg, Felix Lucka, (参考訳) 他の多くの研究分野と同様に、近年の計算画像の発達は機械学習(ML)アプローチの開発に重点を置いており、その主な課題に対処している。 画像処理アルゴリズムの性能向上のために,ノイズ低減などの画像処理タスクに機械学習を用いる。 一般的に、これらのMLメソッドはトレーニング対象の高品質なデータの可用性に大きく依存している。 本研究は,CT画像のノイズ低減におけるML手法,特に畳み込みニューラルネットワーク(CNN)の適用について検討する。 シミュレーションノイズデータと実世界の実験ノイズデータで学習したアルゴリズムの観測性能の違いを総合的に調査するため,機械学習に大規模な2次元CTデータセットを用いた。 この研究は、2つの一般的なCNNアーキテクチャ(U-NetとMSD-Net)の性能を比較し、シミュレーションと実験の両方のノイズデータに基づいて訓練し評価する。 その結果, 実験ノイズデータを用いたトレーニングでは, 実験ノイズデータの復調性能が向上し, 再現領域では, 実験ノイズデータの復調性能が向上することが示唆された。 シングラムから再構成までのエンド・ツー・エンドの方法でのアルゴリズムのトレーニングは, モデル性能を著しく向上させ, 高品質なCT再構成に生計測データを合わせることの重要性を強調した。 さらにこの研究は、CT画像におけるシミュレーションデータと実世界のギャップを埋める、より洗練されたノイズシミュレーションアプローチの必要性を示唆し、シミュレーションデータを機械学習に活用する際の課題と機会についての洞察を提供する。

Like in many other research fields, recent developments in computational imaging have focused on developing machine learning (ML) approaches to tackle its main challenges. To improve the performance of computational imaging algorithms, machine learning methods are used for image processing tasks such as noise reduction. Generally, these ML methods heavily rely on the availability of high-quality data on which they are trained. This work explores the application of ML methods, specifically convolutional neural networks (CNNs), in the context of noise reduction for computed tomography (CT) imaging. We utilize a large 2D computed tomography dataset for machine learning to carry out for the first time a comprehensive study on the differences between the observed performances of algorithms trained on simulated noisy data and on real-world experimental noisy data. The study compares the performance of two common CNN architectures, U-Net and MSD-Net, that are trained and evaluated on both simulated and experimental noisy data. The results show that while sinogram denoising performed better with simulated noisy data if evaluated in the sinogram domain, the performance did not carry over to the reconstruction domain where training on experimental noisy data shows a higher performance in denoising experimental noisy data. Training the algorithms in an end-to-end fashion from sinogram to reconstruction significantly improved model performance, emphasizing the importance of matching raw measurement data to high-quality CT reconstructions. The study furthermore suggests the need for more sophisticated noise simulation approaches to bridge the gap between simulated and real-world data in CT image denoising applications and gives insights into the challenges and opportunities in leveraging simulated data for machine learning in computational imaging.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# ニューラルネットワークを用いた逆問題解法の有効性

The Unreasonable Effectiveness of Solving Inverse Problems with Neural Networks ( http://arxiv.org/abs/2408.08119v1 )

ライセンス: Link先を確認
Philipp Holl, Nils Thuerey, (参考訳) データからモデルパラメータを見つけることは、気象や気候予報からプラズマ制御に至るまで、科学や工学において重要な課題である。 従来の研究では、逆問題に対する解の発見を大幅に高速化するためにニューラルネットワークを使用していた。 特に興味深いのは、シミュレートされたプロセスからネットワーク重みへのフィードバックをバックプロファイリングし、複数のタイムステップのロールアウトを可能にするために、微分可能なシミュレーションを利用するエンドツーエンドモデルである。 これまでのところ、モデル推論は古典的な最適化よりも高速であるが、これは解の精度の低下によるものであると推測されている。 これは一般的には真実ではない。 実際、逆問題に対する解を学ぶために訓練されたニューラルネットワークは、トレーニングセットでも古典的なオプティマイザよりも優れた解を見つけることができる。 これを示すために、我々は、局所的なミニマ、カオス、ゼロ階調領域を含む課題について、理論的解析と広範な実験的な評価を行う。 高速な推論のために新しいデータに一般化するのではなく、既知のデータに対するより良い解決策を見つけるためにも使用できる。

Finding model parameters from data is an essential task in science and engineering, from weather and climate forecasts to plasma control. Previous works have employed neural networks to greatly accelerate finding solutions to inverse problems. Of particular interest are end-to-end models which utilize differentiable simulations in order to backpropagate feedback from the simulated process to the network weights and enable roll-out of multiple time steps. So far, it has been assumed that, while model inference is faster than classical optimization, this comes at the cost of a decrease in solution accuracy. We show that this is generally not true. In fact, neural networks trained to learn solutions to inverse problems can find better solutions than classical optimizers even on their training set. To demonstrate this, we perform both a theoretical analysis as well an extensive empirical evaluation on challenging problems involving local minima, chaos, and zero-gradient regions. Our findings suggest an alternative use for neural networks: rather than generalizing to new data for fast inference, they can also be used to find better solutions on known data.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 長周期マルチラベル画像分類のためのカテゴリプロンプト精細特徴学習

Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification ( http://arxiv.org/abs/2408.08125v1 )

ライセンス: Link先を確認
Jiexuan Yan, Sheng Huang, Nankun Mu, Luwen Huangfu, Bo Liu, (参考訳) 現実世界のデータは常に長い尾の分布を示し、しばしば複数のカテゴリにまたがる。 この複雑さは、特にLong-Tailed Multi-Label Image Classification (LTMLC)を必要とするシナリオにおいて、コンテンツ理解の課題を浮き彫りにする。 このような状況下では、不均衡なデータ分布と多目的認識が大きなハードルとなる。 この問題に対処するために,カテゴリー別カテゴリ間の意味的相関とカテゴリ別カテゴリ別視覚表現の疎結合を利用して,カテゴリー別プロンプト精錬特徴学習(CPRFL)と呼ばれるLTMLCの新規かつ効果的なアプローチを提案する。 具体的には、CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、視覚的特徴との相互作用を通じてカテゴリ固有の視覚表現を分離することにより、頭と尾のクラス間の意味的相関の確立を容易にする。 視覚的セマンティックな領域バイアスを軽減するために、進行的なデュアルパスバックプロパゲーション機構を設計し、文脈関連視覚情報をプロンプトに段階的に組み込むことによりプロンプトを洗練させる。 同時に、精細化プロセスは、精細化プロンプトの指導の下で、カテゴリ固有の視覚表現の段階的浄化を促進する。 さらに, 負の正のサンプル不均衡を考慮に入れ, 非対称損失を最適化の対象とし, 全クラスにまたがる負のサンプルの抑制と, ヘッド・ツー・テール認識性能の向上を図った。 2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。 コードはhttps://github.com/jiexuanyan/CPRFLで公開されている。

Real-world data consistently exhibits a long-tailed distribution, often spanning multiple categories. This complexity underscores the challenge of content comprehension, particularly in scenarios requiring Long-Tailed Multi-Label image Classification (LTMLC). In such contexts, imbalanced data distribution and multi-object recognition pose significant hurdles. To address this issue, we propose a novel and effective approach for LTMLC, termed Category-Prompt Refined Feature Learning (CPRFL), utilizing semantic correlations between different categories and decoupling category-specific visual representations for each category. Specifically, CPRFL initializes category-prompts from the pretrained CLIP's embeddings and decouples category-specific visual representations through interaction with visual features, thereby facilitating the establishment of semantic correlations between the head and tail classes. To mitigate the visual-semantic domain bias, we design a progressive Dual-Path Back-Propagation mechanism to refine the prompts by progressively incorporating context-related visual information into prompts. Simultaneously, the refinement process facilitates the progressive purification of the category-specific visual representations under the guidance of the refined prompts. Furthermore, taking into account the negative-positive sample imbalance, we adopt the Asymmetric Loss as our optimization objective to suppress negative samples across all classes and potentially enhance the head-to-tail recognition performance. We validate the effectiveness of our method on two LTMLC benchmarks and extensive experiments demonstrate the superiority of our work over baselines. The code is available at https://github.com/jiexuanyan/CPRFL.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# Decoding Memes:テンプレート識別のための機械学習モデルの比較研究

Decoding Memes: A Comparative Study of Machine Learning Models for Template Identification ( http://arxiv.org/abs/2408.08126v1 )

ライセンス: Link先を確認
Levente Murgás, Marcell Nagy, Kate Barnes, Roland Molontay, (参考訳) Image-with-textミームは、テキストと画像を組み合わせてコメディを実現するが、今日の世界では、オンラインコミュニケーションにおいて重要な役割を担い、政治、マーケティング、社会規範に影響を与える。 ミームテンプレート(meme template)は、ミームを作成するために使用される、既存のレイアウトまたはフォーマットである。 通常は、空白やキャプションをカスタマイズできる特定のビジュアル要素、キャラクター、シーンが含まれており、ユーザーはパーソナルまたはコンテキストに関連のあるコンテンツを追加することで、人気のあるミームテンプレートのバージョンを簡単に作成できる。 ミームのバイラル性に関する広範な研究にもかかわらず、ミームのテンプレートを自動的に識別する作業は依然として課題である。 本稿では,既存のミームテンプレート識別手法の総合的な比較と評価を行う。 本稿では,ミームテンプレートを正しく識別する様々な手法の能力を評価するとともに,偽の代入を伴わずに非ミームを拒否する能力をテストする厳密な評価フレームワークを提案する。 本研究は,ミームアノテーション(Imgflip)とさまざまなソーシャルメディアプラットフォーム(Reddit,X,Facebook)を提供するサイトからの広範なデータ収集による,多様で代表的なデータセットの確保に関するものである。 我々は,ミームテンプレートの識別手法を比較し,その強みと限界を強調した。 これには、畳み込みニューラルネットワーク、距離ベースの分類、密度ベースのクラスタリングなど、教師付きおよび教師なしのアプローチが含まれる。 我々の分析は、この発展途上の分野において、研究者や実践者が適切な方法と今後の研究方向性を選択するのに役立つ。

Image-with-text memes combine text with imagery to achieve comedy, but in today's world, they also play a pivotal role in online communication, influencing politics, marketing, and social norms. A "meme template" is a preexisting layout or format that is used to create memes. It typically includes specific visual elements, characters, or scenes with blank spaces or captions that can be customized, allowing users to easily create their versions of popular meme templates by adding personal or contextually relevant content. Despite extensive research on meme virality, the task of automatically identifying meme templates remains a challenge. This paper presents a comprehensive comparison and evaluation of existing meme template identification methods, including both established approaches from the literature and novel techniques. We introduce a rigorous evaluation framework that not only assesses the ability of various methods to correctly identify meme templates but also tests their capacity to reject non-memes without false assignments. Our study involves extensive data collection from sites that provide meme annotations (Imgflip) and various social media platforms (Reddit, X, and Facebook) to ensure a diverse and representative dataset. We compare meme template identification methods, highlighting their strengths and limitations. These include supervised and unsupervised approaches, such as convolutional neural networks, distance-based classification, and density-based clustering. Our analysis helps researchers and practitioners choose suitable methods and points to future research directions in this evolving field.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# Debit/Credit Card Fraudの検出と影響:被害者の経験

Detection and Impact of Debit/Credit Card Fraud: Victims' Experiences ( http://arxiv.org/abs/2408.08131v1 )

ライセンス: Link先を確認
Eman Alashwali, Ragashree Mysuru Chandrashekar, Mandy Lanyon, Lorrie Faith Cranor, (参考訳) クレジットカードやデビットカード詐欺による小規模または再支払いによる損失が、被害者に低いあるいは全く経済的影響を及ぼさないと期待するのは直感的かもしれない。 しかし, 被害者の心理的影響の程度, 被害者の発見方法, 検出方法の効率化, 不正検出・報告プロセスの改善方法については, ほとんど分かっていない。 これらの疑問に答えるために、米国におけるデビット/クレディットカード詐欺被害者150名を対象に調査を行った。 その結果,経済的よりも心理的影響が大きかったことが示唆された。 しかし, 直接的損失量と心理的影響の関係は認められず, 詐欺被害の有無にかかわらず, 心理的影響の危険性が示唆された。 銀行やカード発行者の通知が不正発見の迅速化に関連していたにもかかわらず、より多くの参加者が、通知からではなく、カードやアカウントのステートメントをレビューした後で不正を検知したと報告した。 これは通知が未使用である可能性を示唆している。 最後に、被害者の経験から抽出したレコメンデーションのセットを提供し、デビット/クレディットカード不正検出および報告プロセスを改善する。

It might be intuitive to expect that small or reimbursed financial loss resulting from credit or debit card fraud would have low or no financial impact on victims. However, little is known about the extent to which financial fraud impacts victims psychologically, how victims detect the fraud, which detection methods are most efficient, and how the fraud detection and reporting processes can be improved. To answer these questions, we conducted a 150-participant survey of debit/credit card fraud victims in the US. Our results show that significantly more participants reported that they were impacted psychologically than financially. However, we found no relationship between the amount of direct financial loss and psychological impact, suggesting that people are at risk of being psychologically impacted regardless of the amount lost to fraud. Despite the fact that bank or card issuer notifications were related to faster detection of fraud, more participants reported detecting the fraud after reviewing their card or account statements rather than from notifications. This suggests that notifications may be underutilized. Finally, we provide a set of recommendations distilled from victims' experiences to improve the debit/credit card fraud detection and reporting processes.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# EXPLAIN, AGREE, LEARN: ニューラル確率論理のスケーリング学習

EXPLAIN, AGREE, LEARN: Scaling Learning for Neural Probabilistic Logic ( http://arxiv.org/abs/2408.08133v1 )

ライセンス: Link先を確認
Victor Verreet, Lennert De Smet, Luc De Raedt, Emanuele Sansone, (参考訳) ニューラル確率論理システムは、ニューラルネットワークの知覚と学習能力と確率論理の堅牢性を組み合わせることによって、ニューラルシンボリック(NeSy)パラダイムに従う。 学習はニューラルネットワークの確率最適化に対応する。 しかし、正確には、高価な確率論的論理推論が必要である。 そこで我々は,より複雑なシステムに学習を拡大するために,サンプリングに基づく目的を最適化することを提案する。 標本数を増大させると消滅する可能性に関して、目的が有界誤差を持つことを証明する。 さらに、サンプルの多様性という新しい概念を活用することで、エラーは速く消える。 次に,この目的を用いたEXPLAIN, AGREE, LEARN (EXAL) 手法を開発した。 EXPLAINはデータの説明をサンプリングする。 AGREEは、各説明を神経成分と一致して再考する。 LEARNは、リヴァイスされた説明を学習の合図として使っている。 従来のNeSy法とは対照的に、EXALはエラーに関する理論的保証を維持しながら、より大きな問題サイズにスケールすることができる。 実験により,MNIST加算問題と Warcraft パスフィニング問題をスケールアップする場合に,我々の理論的主張が検証され,EXAL は最近の NeSy 法よりも優れていた。

Neural probabilistic logic systems follow the neuro-symbolic (NeSy) paradigm by combining the perceptive and learning capabilities of neural networks with the robustness of probabilistic logic. Learning corresponds to likelihood optimization of the neural networks. However, to obtain the likelihood exactly, expensive probabilistic logic inference is required. To scale learning to more complex systems, we therefore propose to instead optimize a sampling based objective. We prove that the objective has a bounded error with respect to the likelihood, which vanishes when increasing the sample count. Furthermore, the error vanishes faster by exploiting a new concept of sample diversity. We then develop the EXPLAIN, AGREE, LEARN (EXAL) method that uses this objective. EXPLAIN samples explanations for the data. AGREE reweighs each explanation in concordance with the neural component. LEARN uses the reweighed explanations as a signal for learning. In contrast to previous NeSy methods, EXAL can scale to larger problem sizes while retaining theoretical guarantees on the error. Experimentally, our theoretical claims are verified and EXAL outperforms recent NeSy methods when scaling up the MNIST addition and Warcraft pathfinding problems.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# CorrAdaptor: 対応処理のための適応型ローカルコンテキスト学習

CorrAdaptor: Adaptive Local Context Learning for Correspondence Pruning ( http://arxiv.org/abs/2408.08134v1 )

ライセンス: Link先を確認
Wei Zhu, Yicheng Liu, Yuping He, Tangfei Liao, Kang Zheng, Xiaoqiu Xu, Tao Wang, Tong Lu, (参考訳) コンピュータビジョンとロボティクスの分野では、構造移動や同時ローカライゼーションやマッピングといった高度なタスクを実現するために、正確なピクセルレベルの対応が不可欠である。 最近の対応プルーニング法は、通常、k-アネレスト近傍を通した局所的な一貫性の学習に重点を置いており、各対応の堅牢なコンテキストを捉えることは困難である。 明示的および暗黙的な局所グラフ学習を通じて局所的なコンテキストを適応的に調整できるデュアルブランチ構造を導入した新しいアーキテクチャであるCorrAdaptorを提案する。 具体的には、明示的なブランチは、初期近傍識別に適したKNNベースのグラフを使用し、暗黙のブランチは学習可能なマトリックスを活用して、近隣をソフトに割り当て、局所的なコンテキスト範囲を適応的に拡張し、複雑な画像のバリエーションに対するモデルの堅牢性と適応性を著しく向上させる。 さらに,外乱の影響を抑え,局所的な文脈学習を洗練させるため,動作の整合性をネットワークに組み込むモーションインジェクションモジュールを設計し,性能を大幅に向上させる。 この結果から,CorrAdaptorは定性的に,定量的に,最先端の性能を達成できることが示唆された。 コードと事前トレーニングされたモデルはhttps://github.com/TaoWangzj/CorrAdaptor.comで公開されている。

In the fields of computer vision and robotics, accurate pixel-level correspondences are essential for enabling advanced tasks such as structure-from-motion and simultaneous localization and mapping. Recent correspondence pruning methods usually focus on learning local consistency through k-nearest neighbors, which makes it difficult to capture robust context for each correspondence. We propose CorrAdaptor, a novel architecture that introduces a dual-branch structure capable of adaptively adjusting local contexts through both explicit and implicit local graph learning. Specifically, the explicit branch uses KNN-based graphs tailored for initial neighborhood identification, while the implicit branch leverages a learnable matrix to softly assign neighbors and adaptively expand the local context scope, significantly enhancing the model's robustness and adaptability to complex image variations. Moreover, we design a motion injection module to integrate motion consistency into the network to suppress the impact of outliers and refine local context learning, resulting in substantial performance improvements. The experimental results on extensive correspondence-based tasks indicate that our CorrAdaptor achieves state-of-the-art performance both qualitatively and quantitatively. The code and pre-trained models are available at https://github.com/TaoWangzj/CorrAdaptor.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 正規化AOPC:特徴属性説明可能性のためのミスリーディング忠実度尺度の修正

Normalized AOPC: Fixing Misleading Faithfulness Metrics for Feature Attribution Explainability ( http://arxiv.org/abs/2408.08137v1 )

ライセンス: Link先を確認
Joakim Edin, Andreas Geert Motzfeldt, Casper L. Christensen, Tuukka Ruotsalo, Lars Maaløe, Maria Maistro, (参考訳) ディープニューラルネットワークの予測は解釈が難しいことで知られている。 特徴属性法は、各入力特徴の寄与を識別することで、これらの予測を説明することを目的としている。 摂動曲線(AOPC)上の領域を用いてしばしば評価される忠実さは、ディープニューラルネットワークの内部メカニズムを記述する際に特徴属性の正確さを反映する。 しかし、多くの研究は、異なるモデル間の忠実さを比較するためにAOPCに依存しており、モデルの忠実さに関する誤った結論をもたらす可能性がある。 具体的には,AOPCはモデルの変動に敏感であり,信頼性の低いモデル間比較の結果が得られた。 さらに、AOPCスコアは、モデル固有の下限と上限を知らずに分離して解釈することが困難である。 これらの問題に対処するため、我々は正規化アプローチである正規化AOPC(NAOPC)を提案し、一貫したクロスモデル評価とより意味のある個々のスコアの解釈を可能にした。 我々の実験は、この正規化がAOPCの結果を根本的に変えることを実証し、先行研究の結論を疑問視し、特徴帰属忠実性を評価するためのより堅牢なフレームワークを提供する。

Deep neural network predictions are notoriously difficult to interpret. Feature attribution methods aim to explain these predictions by identifying the contribution of each input feature. Faithfulness, often evaluated using the area over the perturbation curve (AOPC), reflects feature attributions' accuracy in describing the internal mechanisms of deep neural networks. However, many studies rely on AOPC to compare faithfulness across different models, which we show can lead to false conclusions about models' faithfulness. Specifically, we find that AOPC is sensitive to variations in the model, resulting in unreliable cross-model comparisons. Moreover, AOPC scores are difficult to interpret in isolation without knowing the model-specific lower and upper limits. To address these issues, we propose a normalization approach, Normalized AOPC (NAOPC), enabling consistent cross-model evaluations and more meaningful interpretation of individual scores. Our experiments demonstrate that this normalization can radically change AOPC results, questioning the conclusions of earlier studies and offering a more robust framework for assessing feature attribution faithfulness.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 32次元単一光子を用いたショアアルゴリズムの実装

Implementation of Shor's Algorithm with a Single Photon in 32 Dimensions ( http://arxiv.org/abs/2408.08138v1 )

ライセンス: Link先を確認
Hao-Cheng Weng, Chih-Sung Chuu, (参考訳) Photonicsは、スケーラビリティと堅牢性のために量子技術を実装するための有望なプラットフォームである。 このレターでは、32の時間ビンまたは1つの光子の次元における情報の符号化を実証する。 単一光子を高次元で操作するための実用的なスキームを実験的に実現し、単一光子上にShorのアルゴリズムのコンパイル版を実装する。 我々の研究は、複雑な量子情報処理のための高次元量子システムの強力な情報処理能力を示す。

Photonics has been a promising platform for implementing quantum technologies owing to its scalability and robustness. In this Letter, we demonstrate the encoding of information in 32 time bins or dimensions of a single photon. A practical scheme for manipulating the single photon in high dimensions is experimentally realized to implement a compiled version of Shor's algorithm on a single photon. Our work demonstrates the powerful information processing capacity of a high-dimensional quantum system for complex quantum information tasks.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# ソフトウェアシティビジュアライゼーションによるコードレビューにおける静的および動的ソフトウェア解析の視覚的統合

Visual Integration of Static and Dynamic Software Analysis in Code Reviews via Software City Visualization ( http://arxiv.org/abs/2408.08141v1 )

ライセンス: Link先を確認
Alexander Krause-Glau, Lukas Damerau, Malte Hansen, Wilhelm Hasselbring, (参考訳) コードレビューのためのソフトウェアビジュアライゼーションアプローチは、静的コード分析を使用するスタンドアロンアプリケーションとして実装されることが多い。 目標は、プル/マージリクエストによって導入された構造的変更を視覚化して、レビュープロセスを容易にすることだ。 このようにして、例えば、コードの進化を妨げる構造的変化をより容易に識別できるが、変化したプログラムの振る舞いを理解することは、コードを読むことで主に行われる。 ソフトウェアビジュアライゼーションがコードレビューで成功するためには、コード変更の代替表現を越えて、開発者の日々のワークフローにうまく統合するツールを提供することが必要だ。 本稿では,ソフトウェア都市ビジュアライゼーションにおける静的解析データと動的解析データを組み合わせたWebベースの手法の,新規かつインプログレッシブな設計と実装について報告する。 私たちのアーキテクチャツールデザインには、一般的なGitホスティングサービスへの統合のようなモダンなWebテクノロジが含まれています。 結果として、コードレビュアーは、修正されたソフトウェアがどのように進化し、そのユースケースを実行するかを探ることができる。 このコンテキストでは、開発者はGitホスティングサービスのイシュートラッキングシステムから、対応するソフトウェアシティビジュアライゼーションに直接リンクすることができる。 このアプローチは、手動のデータ収集とセットアップの繰り返しアクションを排除します。 ウェブベースのソフトウェアビジュアライゼーションツールExploreVizを拡張して実装する。 私たちは他の研究者に、私たちのオープンソースソフトウェアを拡張し、このアプローチを共同で研究するよう依頼します。 ビデオURL:https://youtu.be/DYxijdCEdrY

Software visualization approaches for code reviews are often implemented as standalone applications, which use static code analysis. The goal is to visualize the structural changes introduced by a pull / merge request to facilitate the review process. In this way, for example, structural changes that hinder code evolution can be more easily identified, but understanding the changed program behavior is still mainly done by reading the code. For software visualization to be successful in code review, tools must be provided that go beyond an alternative representation of code changes and integrate well into the developers' daily workflow. In this paper, we report on the novel and in-progress design and implementation of a web-based approach capable of combining static and dynamic analysis data in software city visualizations. Our architectural tool design incorporates modern web technologies such as the integration into common Git hosting services. As a result, code reviewers can explore how the modified software evolves and execute its use cases, which is especially helpful for distributed software systems. In this context, developers can be directly linked from the Git hosting service's issue tracking system to the corresponding software city visualization. This approach eliminates the recurring action of manual data collection and setup. We implement our design by extending the web-based software visualization tool ExplorViz. We invite other researchers to extend our open source software and jointly research this approach. Video URL: https://youtu.be/DYxijdCEdrY
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 包括的データ前処理がCOVID-19死亡率予測モデルに及ぼす影響

Impact of Comprehensive Data Preprocessing on Predictive Modelling of COVID-19 Mortality ( http://arxiv.org/abs/2408.08142v1 )

ライセンス: Link先を確認
Sangita Das, Subhrajyoti Maji, (参考訳) 正確な予測モデルは、新型コロナウイルスの死亡率の傾向を分析するのに不可欠だ。 本研究は、Our World in Data (OWID)のデータを用いて、新型コロナウイルスの死亡率を予測する10の機械学習モデルに対するカスタムデータ前処理パイプラインの影響を評価する。 私たちのパイプラインは、標準的な前処理パイプラインと4つの重要なステップで異なります。 まず、毎週報告された総計を毎日のアップデートに変換し、レポートのバイアスを修正し、より正確な見積もりを提供する。 第2に、データの分散を保ち、精度を高めるために、ローカライズされた外れ値検出と処理を使用する。 第3に、列間の計算的依存関係を活用して、データの一貫性を保証する。 最後に、反復的な特徴選択プロセスを導入し、機能セットを最適化し、モデルパフォーマンスを改善する。 MLPレグレッサーは66.556のRMSEと0.991のR-squaredを達成し、標準パイプラインのDecisionTreeレグレッサーを上回り、RMSEは222.858、R-squaredは0.817であった。 これらの知見は、新型コロナウイルスの死亡率を予測するための予測モデリング精度を高めるために、調整済みの前処理技術の重要性を強調している。 この研究に特有であるが、これらの方法論は多様なデータセットやドメインに対する貴重な洞察を与え、様々な文脈における予測性能を向上させる。

Accurate predictive models are crucial for analysing COVID-19 mortality trends. This study evaluates the impact of a custom data preprocessing pipeline on ten machine learning models predicting COVID-19 mortality using data from Our World in Data (OWID). Our pipeline differs from a standard preprocessing pipeline through four key steps. Firstly, it transforms weekly reported totals into daily updates, correcting reporting biases and providing more accurate estimates. Secondly, it uses localised outlier detection and processing to preserve data variance and enhance accuracy. Thirdly, it utilises computational dependencies among columns to ensure data consistency. Finally, it incorporates an iterative feature selection process to optimise the feature set and improve model performance. Results show a significant improvement with the custom pipeline: the MLP Regressor achieved a test RMSE of 66.556 and a test R-squared of 0.991, surpassing the DecisionTree Regressor from the standard pipeline, which had a test RMSE of 222.858 and a test R-squared of 0.817. These findings highlight the importance of tailored preprocessing techniques in enhancing predictive modelling accuracy for COVID-19 mortality. Although specific to this study, these methodologies offer valuable insights into diverse datasets and domains, improving predictive performance across various contexts.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# 反復フィルタリングによる未知例検出

Unlearnable Examples Detection via Iterative Filtering ( http://arxiv.org/abs/2408.08143v1 )

ライセンス: Link先を確認
Yi Yu, Qichen Zheng, Siyuan Yang, Wenhan Yang, Jun Liu, Shijian Lu, Yap-Peng Tan, Kwok-Yan Lam, Alex Kot, (参考訳) ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。 近年、アベイラビリティー攻撃として知られる特定の種類のデータ中毒攻撃は、画像に知覚不能な摂動を加えることによって、モデル学習におけるデータ利用の失敗につながっている。 その結果、混合データセットから有毒なサンプル(Unlearnable Examples (UEs)としても知られる)を検出することは極めて有益であり、困難である。 そこで本研究では,UE識別のための反復フィルタリング手法を提案する。 この方法は、追加情報を必要としない、固有の意味マッピングルールとショートカットの区別を利用する。 UEとクリーンデータの両方を含む混合データセット上で、分類器をトレーニングする場合、モデルはクリーンデータと比較して、UEに迅速に適応する傾向があることを検証します。 クリーン/ポジショニング試料によるトレーニングの精度のギャップから, 汚染試料を正しく識別しながら, クリーンサンプルを誤分類するモデルを用いた。 追加のクラスの導入と反復的な改良により、クリーンなサンプルと有毒なサンプルを区別するモデルの能力が向上する。 各種攻撃, データセット, 毒素比に対して, 本手法が最先端検出手法よりも優れていることを示し, 従来の手法に比べてHTERの総誤差率を著しく低減した。

Deep neural networks are proven to be vulnerable to data poisoning attacks. Recently, a specific type of data poisoning attack known as availability attacks has led to the failure of data utilization for model learning by adding imperceptible perturbations to images. Consequently, it is quite beneficial and challenging to detect poisoned samples, also known as Unlearnable Examples (UEs), from a mixed dataset. In response, we propose an Iterative Filtering approach for UEs identification. This method leverages the distinction between the inherent semantic mapping rules and shortcuts, without the need for any additional information. We verify that when training a classifier on a mixed dataset containing both UEs and clean data, the model tends to quickly adapt to the UEs compared to the clean data. Due to the accuracy gaps between training with clean/poisoned samples, we employ a model to misclassify clean samples while correctly identifying the poisoned ones. The incorporation of additional classes and iterative refinement enhances the model's ability to differentiate between clean and poisoned samples. Extensive experiments demonstrate the superiority of our method over state-of-the-art detection approaches across various attacks, datasets, and poison ratios, significantly reducing the Half Total Error Rate (HTER) compared to existing methods.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# MIDAS:マルチターンNLUのための多レベルインテント,ドメイン,スロット知識蒸留

MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU ( http://arxiv.org/abs/2408.08144v1 )

ライセンス: Link先を確認
Yan Li, So-Eon Kim, Seong-Bae Park, Soyeon Caren Han, (参考訳) LLM(Large Language Models)は、コヒーレントでコンテキストに関連のあるテキストを生成することができるが、人間のクエリの背後にある意図を認識するのに苦労することが多い。 しかし、自然言語理解(NLU)モデルは、ユーザの入力の目的とキー情報を解釈し、応答性のある対話を可能にする。 既存のNLUモデルは、通常、個々の発話を文レベルの意図と単語レベルのスロットラベルを含む二重レベルのセマンティックフレームにマッピングする。 しかし、実生活会話は主に多ターン会話から成り、複雑で拡張された対話の解釈を含む。 研究者は、統一された単一NLUモデルを使用して、マルチターン対話のすべての面に対処する課題に遭遇する。 本稿では,マルチレベルインテント,ドメイン,スロット知識の蒸留を多ターンNLUに適用したMIDASを提案する。 これを実現するために,文レベルの意図検出,単語レベルのスロットフィリング,会話レベルのドメイン分類など,様々なレベルの会話知識を持つ教師を個別に構築する。 これらの教師は、指定されたレベルに関する特定の知識を取得するために微調整される。 マルチターン対話タスクにおいて学生モデルを導くことで、これらのマルチレベル教師の組み合わせを容易にするために、マルチ教師の損失が提案される。 実験の結果,多段階対話知識蒸留技術の導入によるNLUモデルの進歩の可能性を示した。

Although Large Language Models(LLMs) can generate coherent and contextually relevant text, they often struggle to recognise the intent behind the human user's query. Natural Language Understanding (NLU) models, however, interpret the purpose and key information of user's input to enable responsive interactions. Existing NLU models generally map individual utterances to a dual-level semantic frame, involving sentence-level intent and word-level slot labels. However, real-life conversations primarily consist of multi-turn conversations, involving the interpretation of complex and extended dialogues. Researchers encounter challenges addressing all facets of multi-turn dialogue conversations using a unified single NLU model. This paper introduces a novel approach, MIDAS, leveraging a multi-level intent, domain, and slot knowledge distillation for multi-turn NLU. To achieve this, we construct distinct teachers for varying levels of conversation knowledge, namely, sentence-level intent detection, word-level slot filling, and conversation-level domain classification. These teachers are then fine-tuned to acquire specific knowledge of their designated levels. A multi-teacher loss is proposed to facilitate the combination of these multi-level teachers, guiding a student model in multi-turn dialogue tasks. The experimental results demonstrate the efficacy of our model in improving the overall multi-turn conversation understanding, showcasing the potential for advancements in NLU models through the incorporation of multi-level dialogue knowledge distillation techniques.
翻訳日:2024-08-16 13:56:12 公開日:2024-08-15
# PDDL記述の自動生成のためのモデルベースワークフロー

Model-based Workflow for the Automated Generation of PDDL Descriptions ( http://arxiv.org/abs/2408.08145v1 )

ライセンス: Link先を確認
Hamied Nabizada, Tom Jeleniewski, Felix Gehlhoff, Alexander Fay, (参考訳) 計画ドメイン定義言語(PDDL)の記述を手作業で作成するのは難しく、エラーを起こしやすく、豊富な専門家の知識を必要とする。 しかし、この知識はエンジニアリングモデルにすでに組み込まれており、再利用することができる。 したがって、この貢献は統合システムと製品モデルからPDDL記述を自動生成するための包括的なワークフローを提供する。 提案するワークフローでは,MBSE(Model-Based Systems Engineering)を活用してシステム情報と製品情報を整理・管理し,自動的にPDDL構文に変換して計画する。 システムモデルと製品モデルと計画的側面を結びつけることで、これらのモデルの変更が更新されたPDDL記述に素早く反映され、効率的で適応可能な計画プロセスを容易にします。 ワークフローは、航空機の組み立てからユースケース内で検証される。

Manually creating Planning Domain Definition Language (PDDL) descriptions is difficult, error-prone, and requires extensive expert knowledge. However, this knowledge is already embedded in engineering models and can be reused. Therefore, this contribution presents a comprehensive workflow for the automated generation of PDDL descriptions from integrated system and product models. The proposed workflow leverages Model-Based Systems Engineering (MBSE) to organize and manage system and product information, translating it automatically into PDDL syntax for planning purposes. By connecting system and product models with planning aspects, it ensures that changes in these models are quickly reflected in updated PDDL descriptions, facilitating efficient and adaptable planning processes. The workflow is validated within a use case from aircraft assembly.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# KOALA: 逆学習による多層ドラフトヘッドによるLCMの投機的復号化

KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning ( http://arxiv.org/abs/2408.08146v1 )

ライセンス: Link先を確認
Kaiqi Zhang, Jing Zhao, Rui Chen, (参考訳) 大規模言語モデル(LLM)は、自己回帰的復号性のため、高い推論遅延を示す。 投機的復号化の草案はこの問題を緩和するが、その潜在能力は未解明のままである。 本稿では,原案の直交的アプローチであるKOALA(K-layer Optimized Adversarial Learning Architecture)を紹介する。 従来の単層ドラフトヘッドを多層アーキテクチャに変換し、従来の教師付きトレーニングに対向学習を取り入れることで、後のトークンを予測する際のドラフトヘッドの精度を大幅に改善し、LCMの機能をより深く反映する。 この改良は、ドラフトのオーバーヘッドをわずかに増加させるコストが伴うが、KOALAはドラフトヘッドの可能性を大幅に解放し、投機的復号化を大幅に強化する。 各種タスクにおける自己回帰と非自己回帰の両方のドラフトヘッドを含むKOALAの総合評価を行い,従来のドラフトヘッドよりも10.57%~14.09%高速な0.24x-0.41xの遅延スピードアップ比の改善を実証した。

Large Language Models (LLMs) exhibit high inference latency due to their autoregressive decoding nature. While the draft head in speculative decoding mitigates this issue, its full potential remains unexplored. In this paper, we introduce KOALA (K-layer Optimized Adversarial Learning Architecture), an orthogonal approach to the draft head. By transforming the conventional single-layer draft head into a multi-layer architecture and incorporating adversarial learning into the traditional supervised training, KOALA significantly improves the accuracy of the draft head in predicting subsequent tokens, thus more closely mirroring the functionality of LLMs. Although this improvement comes at the cost of slightly increased drafting overhead, KOALA substantially unlocks the draft head's potential, greatly enhancing speculative decoding. We conducted comprehensive evaluations of KOALA, including both autoregressive and non-autoregressive draft heads across various tasks, demonstrating a latency speedup ratio improvement of 0.24x-0.41x, which is 10.57%-14.09% faster than the original draft heads.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# P/D-Serve: 大規模に分散した大規模言語モデルの実現

P/D-Serve: Serving Disaggregated Large Language Model at Scale ( http://arxiv.org/abs/2408.08147v1 )

ライセンス: Link先を確認
Yibo Jin, Tao Wang, Huimin Lin, Mingyang Song, Peiyang Li, Yipeng Ma, Yicheng Shan, Zhengfan Yuan, Cailong Li, Yajing Sun, Tiandeng Wu, Xing Chu, Ruizhi Huan, Li Ma, Xiao You, Wenting Zhou, Yunpeng Ye, Wen Liu, Xiangkun Xu, Yongsheng Zhang, Tiantian Dong, Jiawei Zhu, Zhe Wang, Xijian Ju, Jianxun Song, Haoliang Cheng, Xiaojing Li, Jiandong Ding, Hefei Guo, Zhengyong Zhang, (参考訳) 信頼性の高いパフォーマンスを備えた数万のxPUデバイス(GPUやNPU)上で,非集約型の大規模言語モデル(LLM)を実現するには,さまざまな課題が伴う。 1) 多様性(各種の接頭辞, 干潟要求)を無視し, 混合プールにおける全てのプロンプトの処理は不十分である。 シナリオごとの類似性を容易にし、P/D処理における内部ミスマッチを最小化するためには、より優れた性能を得るためにP/D比を動的に調整し、きめ細かな組織が必要である。 2)作業負荷(キュー状態または保守された接続)の不正確な推定のため、グローバルスケジューラはプリフィル時に不要なタイムアウトを簡単に発生させる。 3)ブロック固定デバイス・ツー・デバイス(D2D) クラスタレベルのRDMA(リモートダイレクトメモリアクセス)上でのKVCache転送では,期待どおりのD2D利用が得られない。 本稿では,MLOps(機械学習操作)のパラダイムに従って,エンドツーエンド(E2E)P/D性能をモデル化し,実現可能なエンドツーエンドシステムP/D-Serveを提案する。 1)細粒度P/D組織は、P/D比の類似処理及び動的調整を容易にするため、必要に応じてRoCE(RDMA over converged ethernet)とサービスをマッピングする。 2 アイドル前処理の拒絶によりオンデマンド転送し、定期的な不正確な報告及び現地の待ち行列からスケジューラを分離し、前処理のタイムアウトを回避する。 3) 最適化D2Dアクセスによる効率的なKVCache転送。 P/D-ServeはAscendとMindSpore上に実装され、8ヶ月以上にわたって数万以上のNPUが商用利用され、E2Eスループット、TTFT(Time-to-first-token) SLO(サービスレベルの目的)、D2D転送時間において60\%、42\%、46\%の改善が達成されている。 最適化されたE2Eシステムでは、P/D-Serveは集約LDMに比べてスループットが6.7倍向上する。

Serving disaggregated large language models (LLMs) over tens of thousands of xPU devices (GPUs or NPUs) with reliable performance faces multiple challenges. 1) Ignoring the diversity (various prefixes and tidal requests), treating all the prompts in a mixed pool is inadequate. To facilitate the similarity per scenario and minimize the inner mismatch on P/D (prefill and decoding) processing, fine-grained organization is required, dynamically adjusting P/D ratios for better performance. 2) Due to inaccurate estimation on workload (queue status or maintained connections), the global scheduler easily incurs unnecessary timeouts in prefill. 3) Block-fixed device-to-device (D2D) KVCache transfer over cluster-level RDMA (remote direct memory access) fails to achieve desired D2D utilization as expected. To overcome previous problems, this paper proposes an end-to-end system P/D-Serve, complying with the paradigm of MLOps (machine learning operations), which models end-to-end (E2E) P/D performance and enables: 1) fine-grained P/D organization, mapping the service with RoCE (RDMA over converged ethernet) as needed, to facilitate similar processing and dynamic adjustments on P/D ratios; 2) on-demand forwarding upon rejections for idle prefill, decoupling the scheduler from regular inaccurate reports and local queues, to avoid timeouts in prefill; and 3) efficient KVCache transfer via optimized D2D access. P/D-Serve is implemented upon Ascend and MindSpore, has been deployed over tens of thousands of NPUs for more than eight months in commercial use, and further achieves 60\%, 42\% and 46\% improvements on E2E throughput, time-to-first-token (TTFT) SLO (service level objective) and D2D transfer time. As the E2E system with optimizations, P/D-Serve achieves 6.7x increase on throughput, compared with aggregated LLMs.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 局所的性能データと構造モデルによる性能回帰の早期検出

Early Detection of Performance Regressions by Bridging Local Performance Data and Architectural Models ( http://arxiv.org/abs/2408.08148v1 )

ライセンス: Link先を確認
Lizhi Liao, Simon Eismann, Heng Li, Cor-Paul Bezemer, Diego Elias Costa, Andre van Hoorn, Weiyi Shang, (参考訳) ソフトウェア開発では、開発者は既存の問題に対処したり、新機能を実装したりするために、ソフトウェアに多くの修正を加えることが多い。 しかしながら、特定の変更がシステム全体のパフォーマンスに不注意に有害な影響を及ぼす可能性がある。 新しいソフトウェアリリースのパフォーマンスが低下しないことを保証するため、既存のプラクティスでは、負荷テストやコンポーネントレベルのパフォーマンステストといったシステムレベルのパフォーマンステストに頼り、パフォーマンスのレグレッションを検出する。 しかしながら、システム全体のパフォーマンステストは高価で時間を要することが多く、現代的なDevOpsプラクティスに共通する迅速なリリースサイクルに適応する上での課題となっている。 システムレベルのパフォーマンステストは、システムが完全にビルドされデプロイされるまで実行できません。 一方、コンポーネントレベルのテストは、独立したコンポーネントに焦点を当て、システム全体のパフォーマンスとシステムワークロードの影響を無視します。 本稿では,コンポーネントレベルのテストとシステムレベルのアーキテクチャモデルによって生成された局所的な性能データをブリッジすることで,性能劣化を早期に検出する手法を提案する。 このアプローチでは、局所的なパフォーマンスデータを使用して、コンポーネントレベルでの偏差を特定し、これらの偏差をアーキテクチャモデルに伝達します。 次に、アーキテクチャモデルを使用してシステム全体のパフォーマンスの回帰を予測する。 我々は,2つのオープンソースのベンチマークシステムに対するアプローチを評価し,異なる強度と様々なシステムワークロード下での局所的な性能偏差から,エンドツーエンドのシステム性能の回帰を効果的に検出できることを示した。 さらに重要なのは、システムを完全にビルドしてデプロイする必要がある既存のアプローチとは対照的に、当社のアプローチが開発フェーズの早期にレグレッションを検出できることです。 私たちのアプローチは軽量で、テストリソースが不足している場合、従来のシステムパフォーマンステストを補完することができます。

During software development, developers often make numerous modifications to the software to address existing issues or implement new features. However, certain changes may inadvertently have a detrimental impact on the overall system performance. To ensure that the performance of new software releases does not degrade, existing practices rely on system-level performance testing, such as load testing, or component-level performance testing to detect performance regressions. However, performance testing for the entire system is often expensive and time-consuming, posing challenges to adapting to the rapid release cycles common in modern DevOps practices. System-level performance testing cannot be conducted until the system is fully built and deployed. On the other hand, component-level testing focuses on isolated components, neglecting overall system performance and the impact of system workloads. In this paper, we propose a novel approach to early detection of performance regressions by bridging the local performance data generated by component-level testing and the system-level architectural models. Our approach uses local performance data to identify deviations at the component level, and then propagate these deviations to the architectural model. We then use the architectural model to predict regressions in the performance of the overall system. We evaluate our approach on two open-source benchmark systems and show that it can effectively detect end-to-end system performance regressions from local performance deviations with different intensities and under various system workloads. More importantly, our approach can detect regressions as early as in the development phase, in contrast to existing approaches that require the system to be fully built and deployed. Our approach is lightweight and can complement traditional system performance testing when testing resources are scarce.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# ブリッジ画像復元と高レベル視覚タスクのための教師なし変分変換器

Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks ( http://arxiv.org/abs/2408.08149v1 )

ライセンス: Link先を確認
Jiawei Wu, Zhi Jin, (参考訳) 近年の研究では、画像復元能力を人間の知覚から機械知覚に拡張し、劣化した環境下での高レベル視覚タスクの性能向上を図っている。 これらの手法は、主に教師付き学習に基づいており、典型的には修復ネットワークや高レベルの視覚ネットワークの再訓練を含む。 しかし,現実シナリオにおけるペアデータ収集や大規模モデルの再学習は困難である。 そこで本研究では,既存の修復ネットワークや高レベルビジョンネットワークの再構築を必要としない,教師なし学習手法である「textbf{Va}riational \textbf{T}ranslator (VaT)」を提案する。 代わりに、中間ブリッジとして機能する軽量ネットワークを確立する。 変動推論により、VaTは、復元出力と高レベル視覚入力の結合分布を近似し、最適化目標をコンテンツ保存に分割し、高レベル視覚タスクに関連する限界確率を最大化する。 自己学習パラダイムを巧みに活用することにより、VaTはラベルを必要とせずに上記の最適化目標を達成する。 その結果、翻訳された画像は元の内容とよく似ているが、ハイレベルな視覚タスクでは例外的な性能を示す。 脱ハージングと低照度化による検出と分類の徹底的な実験は、我々の手法が他の最先端の教師なし手法よりも優れており、複雑な実世界のシナリオでは教師付き手法をはるかに上回っていることを示している。

Recent research tries to extend image restoration capabilities from human perception to machine perception, thereby enhancing the performance of high-level vision tasks in degraded environments. These methods, primarily based on supervised learning, typically involve the retraining of restoration networks or high-level vision networks. However, collecting paired data in real-world scenarios and retraining large-scale models are challenge. To this end, we propose an unsupervised learning method called \textbf{Va}riational \textbf{T}ranslator (VaT), which does not require retraining existing restoration and high-level vision networks. Instead, it establishes a lightweight network that serves as an intermediate bridge between them. By variational inference, VaT approximates the joint distribution of restoration output and high-level vision input, dividing the optimization objective into preserving content and maximizing marginal likelihood associated with high-level vision tasks. By cleverly leveraging self-training paradigms, VaT achieves the above optimization objective without requiring labels. As a result, the translated images maintain a close resemblance to their original content while also demonstrating exceptional performance on high-level vision tasks. Extensive experiments in dehazing and low-light enhancement for detection and classification show the superiority of our method over other state-of-the-art unsupervised counterparts, even significantly surpassing supervised methods in some complex real-world scenarios.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# Winning Snake: マルチショットASPにおける設計選択

Winning Snake: Design Choices in Multi-Shot ASP ( http://arxiv.org/abs/2408.08150v1 )

ライセンス: Link先を確認
Elisa Böhl, Stefan Ellmauthaler, Sarah Alice Gaggl, (参考訳) 解答集合プログラミング(Answer set programming)は、よく理解され確立された問題解決と知識表現のパラダイムである。 科学と産業における複数の応用により、より幅広い聴衆の間で注目を集めている。 高度なプログラミングとモデリング技術の継続的な開発は、開発者とユーザのツールセットを定期的に拡張します。 本稿では、アーケードゲームスネークを解くことで、論理プログラム部品(マルチショット)を再利用する様々な手法を示す。 このゲームは、ハミルトンサイクルのNPハード問題を解くことで勝利を保証できるため、特に興味深い。 Clingoで5つのハンズオン実装を実演し、その性能を実証的な評価で比較する。 さらに,クリングラフを用いて,ゲーム進行の単純かつ情報に富んだ画像表現を生成する。

Answer set programming is a well-understood and established problem-solving and knowledge representation paradigm. It has become more prominent amongst a wider audience due to its multiple applications in science and industry. The constant development of advanced programming and modeling techniques extends the toolset for developers and users regularly. This paper demonstrates different techniques to reuse logic program parts (multi-shot) by solving the arcade game snake. This game is particularly interesting because a victory can be assured by solving the underlying NP-hard problem of Hamiltonian Cycles. We will demonstrate five hands-on implementations in clingo and compare their performance in an empirical evaluation. In addition, our implementation utilizes clingraph to generate a simple yet informative image representation of the game's progress.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# DeepSeek-Prover-V1.5:強化学習とモンテカルロ木探索のための補足フィードバックのハーネス化

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search ( http://arxiv.org/abs/2408.08152v1 )

ライセンス: Link先を確認
Huajian Xin, Z. Z. Ren, Junxiao Song, Zhihong Shao, Wanjia Zhao, Haocheng Wang, Bo Liu, Liyue Zhang, Xuan Lu, Qiushi Du, Wenjun Gao, Qihao Zhu, Dejian Yang, Zhibin Gou, Z. F. Wu, Fuli Luo, Chong Ruan, (参考訳) DeepSeek-Prover-V1.5はLean 4の定理証明用に設計されたオープンソースの言語モデルで、トレーニングと推論プロセスの両方を最適化することでDeepSeek-Prover-V1を強化します。 DeepSeekMath-Baseで事前訓練され、DeepSeek-Prover-V1から派生した拡張形式定理証明データセットを使用して、フォーマルな数学的言語で専門化されている。 さらなる改良は、証明アシスタントフィードバック(RLPAF)からの強化学習によって達成される。 本稿では,DeepSeek-Prover-V1のシングルパス全耐久生成手法の他に,モンテカルロ木探索の変種であるRMaxTSを提案する。 DeepSeek-Prover-V1.5は、DeepSeek-Prover-V1よりも大幅に改善され、高校レベルのminiF2Fベンチマーク(63.5\%$)と学部レベルのProofNetベンチマーク(25.3\%$)のテストセットで、最先端の結果が得られた。

We introduce DeepSeek-Prover-V1.5, an open-source language model designed for theorem proving in Lean 4, which enhances DeepSeek-Prover-V1 by optimizing both training and inference processes. Pre-trained on DeepSeekMath-Base with specialization in formal mathematical languages, the model undergoes supervised fine-tuning using an enhanced formal theorem proving dataset derived from DeepSeek-Prover-V1. Further refinement is achieved through reinforcement learning from proof assistant feedback (RLPAF). Beyond the single-pass whole-proof generation approach of DeepSeek-Prover-V1, we propose RMaxTS, a variant of Monte-Carlo tree search that employs an intrinsic-reward-driven exploration strategy to generate diverse proof paths. DeepSeek-Prover-V1.5 demonstrates significant improvements over DeepSeek-Prover-V1, achieving new state-of-the-art results on the test set of the high school level miniF2F benchmark ($63.5\%$) and the undergraduate level ProofNet benchmark ($25.3\%$).
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 意味的キーポイントを用いた汎用衣服操作

General-purpose Clothes Manipulation with Semantic Keypoints ( http://arxiv.org/abs/2408.08160v1 )

ライセンス: Link先を確認
Yuhong Deng, David Hsu, (参考訳) 我々は、タスク固有の衣服操作の進歩を目の当たりにしてきたが、一般化可能な衣服操作は依然として課題である。 衣服の操作にはシーケンシャルなアクションが必要であるため、目に見えないタスクに一般化することは困難である。 また、一般的な衣服状態表現法が重要である。 本稿では,衣服操作タスクを指定・分解するための言語命令を採用し,一般化を促進するための大規模言語モデルに基づく階層学習手法を提案する。 状態表現には意味キーポイントを使用し、衣服の形状を捉え、その操作方法を概説する。 シミュレーション実験により,服用操作タスクの成功率と一般化の観点から,提案手法がベースライン法より優れていることが示された。

We have seen much recent progress in task-specific clothes manipulation, but generalizable clothes manipulation is still a challenge. Clothes manipulation requires sequential actions, making it challenging to generalize to unseen tasks. Besides, a general clothes state representation method is crucial. In this paper, we adopt language instructions to specify and decompose clothes manipulation tasks, and propose a large language model based hierarchical learning method to enhance generalization. For state representation, we use semantic keypoints to capture the geometry of clothes and outline their manipulation methods. Simulation experiments show that the proposed method outperforms the baseline method in terms of success rate and generalization for clothes manipulation tasks.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 無計測テレポーテーションにおける情報バックフローの臨界評価

Critical assessment of information back-flow in measurement-free teleportation ( http://arxiv.org/abs/2408.08164v1 )

ライセンス: Link先を確認
Hannah McAleese, Mauro Paternostro, (参考訳) 我々は、その性能を支える資源の観点から、無測定量子テレポーテーションの手法を評価する。 特に,テレポートを目指す情報キャリアのダイナミクスの非マルコビアン性によってもたらされる重要な役割について,近年の主張に焦点をあてる。 テレポーテーションの効率性と情報のバックフローの関連性は,測定不要なテレポーテーションプロトコルによる様々な操作の実施方法に大きく依存するが,一般には因果関係の主張はできない。 この結果は、与えられた量子プロトコルの性能とリソースを評価する際に、基盤となる物理プラットフォームを明示的に評価することの必要性と、非マルコビアン性に関する厳密な量子リソース理論の必要性を補強する。

We assess a scheme for measurement-free quantum teleportation from the perspective of the resources underpinning its performance. In particular, we focus on recently made claims about the crucial role played by the degree of non-Markovianity of the dynamics of the information carrier whose state we aim to teleport. We prove that any link between efficiency of teleportation and back-flow of information depends fundamentally on the way the various operations entailed by the measurement-free teleportation protocol are implemented, while - in general - no claim of causal link can be made. Our result reinforces the need for the explicit assessment of the underlying physical platform when assessing the performance and resources for a given quantum protocol and the need for a rigorous quantum resource theory of non-Markovianity.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 視覚記憶によるフレキシブルな知覚に向けて

Towards flexible perception with visual memory ( http://arxiv.org/abs/2408.08172v1 )

ライセンス: Link先を確認
Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens, (参考訳) ニューラルネットワークのトレーニングはモノリシックな取り組みであり、知識を石に彫ることに似ている。プロセスが完了すると、すべての情報がネットワークの重みに分散されるため、ネットワーク内の知識を編集することはほぼ不可能である。 ここでは、ディープニューラルネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで魅力的な代替手段を探る。 画像分類のタスクを(学習済みの埋め込みから)イメージ類似性に分解し、(知識データベースから近くの高速検索を通じて)検索し、(1.) 個々のサンプルからクラス全体、および数十億のスケールのデータまで、柔軟にデータを付加する機能、(2.) 学習やメモリプルーニングを通じてデータを除去する機能、(3.) その動作を制御するための解釈可能な決定機構を構築する。 まとめると、これらの機能は明示的なビジュアルメモリの利点を包括的に示す。 深いビジョンモデルで知識をどのように表現すべきかという議論に、それが貢献することを期待しています。

Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 周波数領域における多変量時系列の局所的スパース主成分分析

Localized Sparse Principal Component Analysis of Multivariate Time Series in Frequency Domain ( http://arxiv.org/abs/2408.08177v1 )

ライセンス: Link先を確認
Jamshid Namdari, Amita Manatunga, Fabio Ferrarelli, Robert Krafty, (参考訳) 主成分分析は、低次元線形部分空間を推定する多変量解析において主要なツールであり、データのばらつきの大半を説明する。 しかし、高次元のレジームでは、主荷重のナイーブな推定は一貫性がなく、解釈が難しい。 時系列の文脈において、スペクトル密度行列の主成分分析は、特に主成分が座標で疎結合であり周波数帯域で局所化されていると解釈される場合、基礎過程の挙動に関する貴重な同相情報を与えることができる。 本稿では,周波数領域における高次元時系列の主成分分析の定式化と一貫した推定手法を提案する。 信号プロセスの低次元主部分空間のスパース局所化推定を計算するために,効率的な周波数系列アルゴリズムを開発した。 この方法は、第1話の精神病の研究において、高密度安静状態脳波から神経学的メカニズムを理解するために動機付けられ、使用される。

Principal component analysis has been a main tool in multivariate analysis for estimating a low dimensional linear subspace that explains most of the variability in the data. However, in high-dimensional regimes, naive estimates of the principal loadings are not consistent and difficult to interpret. In the context of time series, principal component analysis of spectral density matrices can provide valuable, parsimonious information about the behavior of the underlying process, particularly if the principal components are interpretable in that they are sparse in coordinates and localized in frequency bands. In this paper, we introduce a formulation and consistent estimation procedure for interpretable principal component analysis for high-dimensional time series in the frequency domain. An efficient frequency-sequential algorithm is developed to compute sparse-localized estimates of the low-dimensional principal subspaces of the signal process. The method is motivated by and used to understand neurological mechanisms from high-density resting-state EEG in a study of first episode psychosis.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 機械学習によるOFDM信号の変調検出

Machine learning empowered Modulation detection for OFDM-based signals ( http://arxiv.org/abs/2408.08179v1 )

ライセンス: Link先を確認
Ali Pourranjbar, Georges Kaddoum, Verdier Assoume Mba, Sahil Garg, Satinder Singh, (参考訳) 視覚的MLに基づくOFDM技術のための変調検出法を提案する。 プリキャリア数やサイクリックプレフィックス位置を正確に把握した理想的な環境を前提とした従来の研究とは異なり,現実的な環境パラメータや不完全性を考慮したブラインド変調検出を考慮に入れた。 提案手法では,ResNetネットワークを用いて変調型を同時に検出し,サイクリックプレフィックスを正確に検出する。 具体的には、信号から環境影響を排除し、OFDMシンボルを正確に抽出した後、これらのシンボルを散乱プロットに変換する。 その独特の形状のため、これらの散乱プロットはResNetを使って分類される。 その結果,提案手法は送信信号の事前知識を必要とせずにOFDMベースの技術に適用できることがわかった。 各種変調スキームとサブキャリア数にまたがる性能を評価する。 シミュレーションの結果,SNRが$10$dBで$80\%,SNRが$25$dBで$95\%を超える変調検出精度が得られた。

We propose a blind ML-based modulation detection for OFDM-based technologies. Unlike previous works that assume an ideal environment with precise knowledge of subcarrier count and cyclic prefix location, we consider blind modulation detection while accounting for realistic environmental parameters and imperfections. Our approach employs a ResNet network to simultaneously detect the modulation type and accurately locate the cyclic prefix. Specifically, after eliminating the environmental impact from the signal and accurately extracting the OFDM symbols, we convert these symbols into scatter plots. Due to their unique shapes, these scatter plots are then classified using ResNet. As a result, our proposed modulation classification method can be applied to any OFDM-based technology without prior knowledge of the transmitted signal. We evaluate its performance across various modulation schemes and subcarrier numbers. Simulation results show that our method achieves a modulation detection accuracy exceeding $80\%$ at an SNR of $10$ dB and $95\%$ at an SNR of $25$ dB.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# パーキンソン病の重症度評価のためのリアル・ワールド・ターン・アングル・アセスメント

Your Turn: Real-World Turning Angle Estimation for Parkinson's Disease Severity Assessment ( http://arxiv.org/abs/2408.08182v1 )

ライセンス: Link先を確認
Qiushuo Cheng, Catherine Morgan, Arindam Sikdar, Alessandro Masullo, Alan Whone, Majid Mirmehdi, (参考訳) パーキンソン病(PD)の患者は、疾患が進行するにつれて向きを変えるなど、歩行が徐々に悪化することがある。 既存の臨床評価ツールでは、診療所内での短い評価に制限されるため、時間ごとのPD症状の変動を捉えることができない。 実世界の歩行角度を連続的かつ受動的に測定することは、PDの疾患進行の感度指標として歩行特性を利用するための重要なステップである。 本稿では, ビデオから3次元骨格を抽出し, 股関節と膝関節の回転を計算し, 回転角を自動的に定量化する深層学習手法を提案する。 我々は、現在最先端の人間のポーズ推定モデルであるFastposeとStrided Transformerを、24人の被験者(PDの12人、健康管理のボランティアの12人)の動画クリップを、自宅のような設定でPDデータセットからトリミングする(Turn-REMAP)。 また、人間3.6Mの人間ポーズベンチマークからターンビデオデータセットであるTurn-H3.6Mを3D地上真実でキュレートし、我々の手法をさらに検証する。 これまでの歩行研究は、主にクリニックや研究室でスクリプト歩行の結果を評価するが、この研究は、バギー服や照明不足など複雑な現実的な環境に焦点を当てている。 自由生活環境において正確な地上真実データを得るのに難しかったため、専門医の手によるラベル付けに基づいて、最寄りのビン45^\circ$に定量化する。 提案手法は,旋回計算精度が41.6%,平均絶対誤差が34.7{\deg},重み付き精度WPrecが68.3%である。 これは、一眼レフカメラデータを用いて、自宅のPD患者によるターンの定量化を行う最初の研究である。

People with Parkinson's Disease (PD) often experience progressively worsening gait, including changes in how they turn around, as the disease progresses. Existing clinical rating tools are not capable of capturing hour-by-hour variations of PD symptoms, as they are confined to brief assessments within clinic settings. Measuring real-world gait turning angles continuously and passively is a component step towards using gait characteristics as sensitive indicators of disease progression in PD. This paper presents a deep learning-based approach to automatically quantify turning angles by extracting 3D skeletons from videos and calculating the rotation of hip and knee joints. We utilise state-of-the-art human pose estimation models, Fastpose and Strided Transformer, on a total of 1386 turning video clips from 24 subjects (12 people with PD and 12 healthy control volunteers), trimmed from a PD dataset of unscripted free-living videos in a home-like setting (Turn-REMAP). We also curate a turning video dataset, Turn-H3.6M, from the public Human3.6M human pose benchmark with 3D ground truth, to further validate our method. Previous gait research has primarily taken place in clinics or laboratories evaluating scripted gait outcomes, but this work focuses on real-world settings where complexities exist, such as baggy clothing and poor lighting. Due to difficulties in obtaining accurate ground truth data in a free-living setting, we quantise the angle into the nearest bin $45^\circ$ based on the manual labelling of expert clinicians. Our method achieves a turning calculation accuracy of 41.6%, a Mean Absolute Error (MAE) of 34.7{\deg}, and a weighted precision WPrec of 68.3% for Turn-REMAP. This is the first work to explore the use of single monocular camera data to quantify turns by PD patients in a home setting.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# すべての画像が数千ワードの価値があるわけではない:安定拡散における原点の定量化

Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion ( http://arxiv.org/abs/2408.08184v1 )

ライセンス: Link先を確認
Adi Haviv, Shahar Sarfaty, Uri Hacohen, Niva Elkin-Koren, Roi Livni, Amit H Bermano, (参考訳) 本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおいて,著作権の独創性に着目したオリジナル性を定量化することの課題に対処する。 まず、制御された実験を通してT2Iモデルを革新し、一般化する能力を評価し、安定した拡散モデルが十分に多様なトレーニングデータを用いて、目に見えない要素を効果的に再現できることを明らかにする。 そして、私たちのキーとなる洞察は、モデルが慣れ親しんだイメージ要素の概念と組み合わせが、トレーニング中によりよく見られるようになり、モデルの潜在空間でより簡潔に表現されるということです。 そこで本研究では,テキストのインバージョンを利用して,モデルによる再構成に必要なトークン数に基づいて画像の原点度を測定する手法を提案する。 提案手法は,モデルが特定のプロンプトに依存したり,モデルのトレーニングデータを持っていなくても,オリジナルコンテンツを生成できるかどうかを評価することを目的としている。 本研究では,事前学習した安定拡散モデルと合成データセットの両方を用いて,トークン数と画像の原性との相関関係を示す。 この研究は、生成モデルにおける独創性の理解に寄与し、著作権侵害事件に影響を及ぼす。

This work addresses the challenge of quantifying originality in text-to-image (T2I) generative diffusion models, with a focus on copyright originality. We begin by evaluating T2I models' ability to innovate and generalize through controlled experiments, revealing that stable diffusion models can effectively recreate unseen elements with sufficiently diverse training data. Then, our key insight is that concepts and combinations of image elements the model is familiar with, and saw more during training, are more concisly represented in the model's latent space. We hence propose a method that leverages textual inversion to measure the originality of an image based on the number of tokens required for its reconstruction by the model. Our approach is inspired by legal definitions of originality and aims to assess whether a model can produce original content without relying on specific prompts or having the training data of the model. We demonstrate our method using both a pre-trained stable diffusion model and a synthetic dataset, showing a correlation between the number of tokens and image originality. This work contributes to the understanding of originality in generative models and has implications for copyright infringement cases.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 潜在ポート-ハミルトン系のデータ駆動同定

Data-driven identification of latent port-Hamiltonian systems ( http://arxiv.org/abs/2408.08185v1 )

ライセンス: Link先を確認
Johannes Rettberg, Jonas Kneifl, Julius Herb, Patrick Buchfink, Jörg Fehr, Bernard Haasdonk, (参考訳) 従来の物理に基づくモデリング技術には、時間や専門家の知識といった高い労力が伴うが、データ駆動の手法は解釈可能性、構造、時には信頼性に欠けることが多い。 これを緩和するために、ポート・ハミルトン(pH)の定式化におけるモデルから導出するデータ駆動型システム識別フレームワークを提案する。 この定式化は多物理系に適しており、通過率と安定性の有用なシステム理論的性質を保証している。 我々のフレームワークは、線形および非線形の還元と、構造化された、物理を動機とするシステム同定を組み合わせる。 このプロセスでは、おそらく非線形システムから得られる高次元状態データがオートエンコーダの入力として機能し、次に2つのタスクを実行する。 (i)非線形に変形・変形する (ii) このデータを低次元の潜在空間に還元する。 この空間において、構成毎のpH特性を満たす線形pHシステムは、ニューラルネットワークの重みによってパラメータ化される。 数学的要件は、コレスキー分解を通じてpH行列を定義することで満たされる。 座標変換とpHシステムを定義するニューラルネットワークを共同最適化プロセスで同定し、潜在空間における線形pHシステムを定義しながら、データで観測されたダイナミクスと一致させる。 学習された低次元のpHシステムは、非線形システムさえも記述することができ、そのサイズが小さいため、急速に計算可能である。 この方法は、パラメトリック質量ばねダンパーと非線形振子の例、および線形熱弾性挙動を有するディスクブレーキの高次元モデルによって例示される。

Conventional physics-based modeling techniques involve high effort, e.g., time and expert knowledge, while data-driven methods often lack interpretability, structure, and sometimes reliability. To mitigate this, we present a data-driven system identification framework that derives models in the port-Hamiltonian (pH) formulation. This formulation is suitable for multi-physical systems while guaranteeing the useful system theoretical properties of passivity and stability. Our framework combines linear and nonlinear reduction with structured, physics-motivated system identification. In this process, high-dimensional state data obtained from possibly nonlinear systems serves as input for an autoencoder, which then performs two tasks: (i) nonlinearly transforming and (ii) reducing this data onto a low-dimensional latent space. In this space, a linear pH system, that satisfies the pH properties per construction, is parameterized by the weights of a neural network. The mathematical requirements are met by defining the pH matrices through Cholesky factorizations. The neural networks that define the coordinate transformation and the pH system are identified in a joint optimization process to match the dynamics observed in the data while defining a linear pH system in the latent space. The learned, low-dimensional pH system can describe even nonlinear systems and is rapidly computable due to its small size. The method is exemplified by a parametric mass-spring-damper and a nonlinear pendulum example, as well as the high-dimensional model of a disc brake with linear thermoelastic behavior.
翻訳日:2024-08-16 13:46:24 公開日:2024-08-15
# 階層型レンズによるマルチロボットの自然言語理解のスケールアップ

Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy ( http://arxiv.org/abs/2408.08188v1 )

ライセンス: Link先を確認
Shaojun Xu, Xusheng Luo, Yutong Huang, Letian Leng, Ruixuan Liu, Changliu Liu, (参考訳) 長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。 本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。 大規模言語モデル(LLM)を用いて,多文命令を構造化言語,階層線形時間論理(LTL)に変換する2段階の手法を提案する。 LLMは最初、命令を階層的タスクツリーとして定義した階層的表現に変換し、タスク間の論理的および時間的関係をキャプチャする。 これに続いて、LLMのドメイン固有の微調整は各タスクのサブタスクをフラットなLTL式に変換し、それらを集約して階層的なLTL仕様を形成する。 これらの仕様は、既成のプランナーを使って計画するために活用される。 我々のフレームワークは命令とアルゴリズム計画のギャップを埋めるだけでなく、階層的推論を利用してマルチロボットタスク計画を自動化するLLMの可能性も示している。 シミュレーションと実世界の実験の両方において,本手法が既存の手法よりも複雑な命令を処理できることを実証した。 その結果,本手法は,マルチロボットタスクアロケーションと計画生成において,より高い成功率とコストを達成できることが示唆された。 デモビデオはhttps://youtu.be/7WOrDKxIMIsで公開されている。

Long-horizon planning is hindered by challenges such as uncertainty accumulation, computational complexity, delayed rewards and incomplete information. This work proposes an approach to exploit the task hierarchy from human instructions to facilitate multi-robot planning. Using Large Language Models (LLMs), we propose a two-step approach to translate multi-sentence instructions into a structured language, Hierarchical Linear Temporal Logic (LTL), which serves as a formal representation for planning. Initially, LLMs transform the instructions into a hierarchical representation defined as Hierarchical Task Tree, capturing the logical and temporal relations among tasks. Following this, a domain-specific fine-tuning of LLM translates sub-tasks of each task into flat LTL formulas, aggregating them to form hierarchical LTL specifications. These specifications are then leveraged for planning using off-the-shelf planners. Our framework not only bridges the gap between instructions and algorithmic planning but also showcases the potential of LLMs in harnessing hierarchical reasoning to automate multi-robot task planning. Through evaluations in both simulation and real-world experiments involving human participants, we demonstrate that our method can handle more complex instructions compared to existing methods. The results indicate that our approach achieves higher success rates and lower costs in multi-robot task allocation and plan generation. Demos videos are available at https://youtu.be/7WOrDKxIMIs .
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# FancyVideo: クロスフレームテキストガイダンスによる動的で一貫性のあるビデオ生成を目指して

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance ( http://arxiv.org/abs/2408.08189v1 )

ライセンス: Link先を確認
Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin, (参考訳) モーションリッチで時間的に一貫したビデオの合成は、特に長期間の処理において、人工知能の課題である。 既存のテキスト・トゥ・ビデオ(T2V)モデルでは、フレーム固有のテキスト・ガイダンスを使わずに、異なるフレーム・ジェネレーションを等価に導くために、テキスト・コントロールに空間的クロス・アテンションを用いるのが一般的である。 これにより、プロンプトで伝達された時間論理を理解でき、コヒーレントな動きでビデオを生成する能力が制限される。 この制限に対処するために、よく設計されたクロスフレームテキストガイダンスモジュール(CTGM)を用いて、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 具体的には、時間情報インジェクタ(TII)、時間親和性リファイナ(TAR)、時間特徴ブースタ(TFB)を、フレーム固有のテキストガイダンスを達成するために、それぞれ、クロスアテンションの開始、中、末に組み込む。 まず、TIIは、潜在特徴からテキスト条件にフレーム固有情報を注入し、フレーム間テキスト条件を得る。 そして、TARは、フレーム間テキスト条件と時間次元に沿った潜在特徴との相関行列を洗練する。 最後に、TFBは潜在機能の時間的一貫性を高める。 定量評価と定性評価の両方からなる大規模な実験は、FancyVideoの有効性を実証している。 提案手法は,EvalCrafterベンチマークで最先端のT2V生成結果を実現し,ダイナミックで一貫したビデオの合成を容易にする。 ビデオの結果はhttps://fancyvideo.github.io/で公開されています。

Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model's capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our approach achieves state-of-the-art T2V generation results on the EvalCrafter benchmark and facilitates the synthesis of dynamic and consistent videos. The video show results can be available at https://fancyvideo.github.io/, and we will make our code and model weights publicly available.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# フルラベルを超えて:赤外線小ターゲットラベル生成のためのシングルポイントプロンプト

Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation ( http://arxiv.org/abs/2408.08191v1 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Renke Kou, Xiang Yan, Zechuan Li, Chenxu Peng, Abd-Krim Seghouane, (参考訳) 本研究では、赤外線小ターゲットラベル生成(IRSTLG)のための学習に基づく単一点アノテーションパラダイムを構築するための最初の試みを行う。 IRSTLGは、目標位置ヒントを持つ赤外線小目標検出(IRSTD)タスクとみなすことができる。 この知見に基づき,エネルギー二重誘導単点プロンプト(EDGSP)フレームワークを導入し,ターゲット検出ネットワークを改良されたラベル生成手法に適応的に変換する。 具体的には,提案されているEDGSPには以下のものがある。 1)擬似ラベルの十分な形状形成のための基礎的概要を作成するための目標エネルギー初期化(TEI)。 2ダブルプロンプト埋め込み(DPE)は、興味のある領域の迅速な局在とラベルの付着を避けるための個人差の強化を目的としている。 3) ボックスベースマッチング(BBM)による誤報の排除。 SIRST,NUDT-SIRST,IRSTD-1kデータセットにおいて,EDGSPを用いた3つのベースラインが生成する擬似ラベルが100%対象レベルの検出確率(Pd)と0%の偽アラームレート(Fa)を達成することを示す。 さらに、ダウンストリーム検出タスクは、セントロイドに注釈を付けた擬似ラベルが、粗い単一点アノテーションであっても、完全なラベル付けの99.5%のパフォーマンスを達成していることを明らかにした。

In this work, we make the first attempt to construct a learning-based single-point annotation paradigm for infrared small target label generation (IRSTLG). Our intuition is that label generation requires just one more point prompt than target detection: IRSTLG can be regarded as an infrared small target detection (IRSTD) task with the target location hint. Based on this insight, we introduce an energy double guided single-point prompt (EDGSP) framework, which adeptly transforms the target detection network into a refined label generation method. Specifically, the proposed EDGSP includes: 1) target energy initialization (TEI) to create a foundational outline for sufficient shape evolution of pseudo label, 2) double prompt embedding (DPE) for rapid localization of interested regions and reinforcement of individual differences to avoid label adhesion, and 3) bounding box-based matching (BBM) to eliminate false alarms. Experimental results show that pseudo labels generated by three baselines equipped with EDGSP achieve 100% object-level probability of detection (Pd) and 0% false-alarm rate (Fa) on SIRST, NUDT-SIRST, and IRSTD-1k datasets, with a pixel-level intersection over union (IoU) improvement of 13.28% over state-of-the-art label generation methods. Additionally, the downstream detection task reveals that our centroid-annotated pseudo labels surpass full labels, even with coarse single-point annotations, it still achieves 99.5% performance of full labeling.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 個体群対応関数近似を用いた平均フィールドゲーム学習のための確率的半グラディエントDescent

Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation ( http://arxiv.org/abs/2408.08192v1 )

ライセンス: Link先を確認
Chenyu Zhang, Xu Chen, Xuan Di, (参考訳) 平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。 MFGの伝統的な学習方法は固定点反復(FPI)に基づいており、最適な応答と誘導された集団分布を個別に逐次的に計算する。 しかし、FPI方式の手法は、前向きの手順によって生じる振動により、非効率性と不安定性に悩まされる。 本稿では,MFGのオンライン学習手法について考察し,エージェントがそのポリシーと人口推定を同時に,かつ完全に非同期に更新することで,SemiSGDと呼ばれる単純な確率勾配勾配(SGD)方式を実現する。 SemiSGDは数値安定性と効率性を示すだけでなく、値関数と人口分布を統一パラメータとして扱うことにより、新しい視点を提供する。 理論的には、SemiSGDはこの統一パラメータを降下方向に沿って平均場平衡に向けることを示す。 この観点から、我々は、値関数と人口分布の両方に対する線形関数近似(LFA)を開発し、その結果、連続的な状態-作用空間上でのMFGに対する最初の人口認識LFAとなる。 人口認識型LFAを備えたSemiSGDに対して、有限時間収束と近似誤差解析を行う。

Mean field games (MFGs) model the interactions within a large-population multi-agent system using the population distribution. Traditional learning methods for MFGs are based on fixed-point iteration (FPI), which calculates best responses and induced population distribution separately and sequentially. However, FPI-type methods suffer from inefficiency and instability, due to oscillations caused by the forward-backward procedure. This paper considers an online learning method for MFGs, where an agent updates its policy and population estimates simultaneously and fully asynchronously, resulting in a simple stochastic gradient descent (SGD) type method called SemiSGD. Not only does SemiSGD exhibit numerical stability and efficiency, but it also provides a novel perspective by treating the value function and population distribution as a unified parameter. We theoretically show that SemiSGD directs this unified parameter along a descent direction to the mean field equilibrium. Motivated by this perspective, we develop a linear function approximation (LFA) for both the value function and the population distribution, resulting in the first population-aware LFA for MFGs on continuous state-action space. Finite-time convergence and approximation error analysis are provided for SemiSGD equipped with population-aware LFA.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 質量不均衡拡大フェルミ・ハバード模型におけるドゥーブロンズ・ブロッホ振動

Doublons Bloch oscillations in the mass-imbalanced extended Fermi-Hubbard model ( http://arxiv.org/abs/2408.08194v1 )

ライセンス: Link先を確認
Kun-Liang Zhang, (参考訳) 粒子間の相互作用は通常、周期格子内の粒子ブロッホ振動(BO)の崩壊を引き起こす。 大規模なオンサイト相互作用領域では、スピン=1/2$フェルミオンが二重結合状態に形成され、傾斜ポテンシャルの現在において二重結合BOが実行される。 ここでは, 質量不均衡拡張フェルミ・ハッバードモデルにおいて, 近接相互作用がマルチダビロンBOに与える影響について検討する。 ダビロン有効ハミルトニアンを導出し、$V$の小さな変化は、ダビロンの動的挙動を質的に変化させることができることを示す。 特に共鳴点において、ダブルロンは自由なハードコアボソンのように振る舞う。 傾きポテンシャルの下では、システムは異なる初期状態の共鳴点からの偏差または偏差において異なる種類のマルチダブルロンBOを示す。 1次元および2次元システムにおける結論を示すために, 数値計算結果を示す。

Interactions between particles normally induce the decay of the particles Bloch oscillations (BOs) in a periodic lattice. In the large on-site interactions region, spin-$1/2$ fermions may form into doublon bound state and undergoes doublon BOs in the present of tilted potential. Here we investigate the impact of nearest-neighbor interaction $V$ on the multi-doublon BOs in a mass-imbalanced extended Fermi-Hubbard model. We derive a doublons effective Hamiltonian, and show that a minor change of $V$ can alter the dynamic behaviors of doublons qualitatively. Notably, at a resonance point, the doublons act like free hard-core bosons. Under a tilted potential, the system may exhibit different types of multi-doublon BOs at or deviation from the resonance point with different initial states. Numerical results are presented to demonstrate our conclusions in the one- and two-dimensional systems.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# キュービット周波数の非随意周期変調

Revealing inadvertent periodic modulation of qubit frequency ( http://arxiv.org/abs/2408.08196v1 )

ライセンス: Link先を確認
Filip Wudarski, Yaxing Zhang, Juan Atalaya, M. I. Dykman, (参考訳) 本稿では、キュービット周波数の遅い周期変調を明らかにし、特徴付ける方法について述べる。 このような変調は異なるソースから得られ、キュービット安定性に影響を与える可能性がある。 本研究では、周期的に繰り返しラムゼー測定の結果のパワースペクトルにおいて、変調が極めて急激なピークをもたらすことを示す。 ピークの位置と形状は、変調の周波数と振幅の両方を見つけることができる。 また、変調周波数のゆらぎと変調周波数のゆらぎがスペクトルに与える影響についても検討する。 解析結果は広範なシミュレーションとよく一致している。

The paper describes the means to reveal and characterize slow periodic modulation of qubit frequency. Such modulation can come from different sources and can impact qubit stability. We show that the modulation leads to very sharp peaks in the power spectrum of outcomes of periodically repeated Ramsey measurements. The positions and shapes of the peaks allow finding both the frequency and the amplitude of the modulation. We also explore how additional slow fluctuations of the qubit frequency and fluctuations of the modulation frequency affect the spectrum. The analytical results are in excellent agreement with extensive simulations.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 重ラベルアウト! ラベル空間照明によるデータセット蒸留

Heavy Labels Out! Dataset Distillation with Label Space Lightening ( http://arxiv.org/abs/2408.08201v1 )

ライセンス: Link先を確認
Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang, (参考訳) データセットの蒸留や凝縮は、大規模なトレーニングデータセットをはるかに小さな合成データセットに凝縮することを目的としており、蒸留されたデータセットとニューラルネットワークのオリジナルセットのトレーニング性能が類似している。 トレーニングサンプルの数は大幅に削減できるが、現在の最先端の手法は、十分な性能を達成するために巨大なソフトラベルに大きく依存している。 結果として、必要なストレージは、特に大規模なデータセットに対して、オリジナルのデータセットに匹敵する可能性がある。 そこで本研究では,これらの重ラベルを格納する代わりに,合成画像から直接オンラインに合成ラベルを生成可能な,効果的な画像-ラベルプロジェクタを目的とした,HeLlOと呼ばれる新しいラベルライティングフレームワークを提案する。 具体的には、これらのプロジェクタを構築するために、オープンソースの基盤モデルであるCLIPの事前知識を活用し、事前学習された分布と対象分布のギャップを軽減するために、LoRAのような微調整戦略を導入し、ソフトラベル生成のオリジナルモデルを低ランク行列群に蒸留することができる。 さらに,元のラベル生成装置と蒸留したラベル生成装置の潜在的な誤差を軽減するために,効率的な画像最適化手法を提案する。 ソフトラベルの完全なセットに必要な元のストレージの約0.003%しか必要とせず、大規模データセット上での現在の最先端のデータセット蒸留法と同等のパフォーマンスを達成できることを示した。 私たちのコードは利用可能です。

Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# LiDAR点雲を用いた人体動作予測の実用化に向けて

Towards Practical Human Motion Prediction with LiDAR Point Clouds ( http://arxiv.org/abs/2408.08202v1 )

ライセンス: Link先を確認
Xiao Han, Yiming Ren, Yichen Yao, Yujing Sun, Yuexin Ma, (参考訳) 人間の動き予測は、人間中心のマルチメディア理解と対話に不可欠である。 現行の手法は一般に、人間のポーズを観察された入力に頼っているが、これは生の視覚センサーデータしか利用できない現実のシナリオでは実用的ではない。 これらの手法を実際に実装するには、ポーズ推定のプレフレーズが不可欠である。 しかし、このような2段階のアプローチは、しばしばエラーの蓄積による性能低下につながる。 さらに、生の視覚データを疎いキーポイント表現に還元すると、情報の密度が著しく低下し、きめ細かい特徴が失われる。 本稿では,最初の単一LiDARに基づく3次元人体動作予測手法である \textit{LiDAR-HMP} を提案する。 構造を意識した新しい身体特徴記述子をベースとして,LiDAR-HMPは観測された動き多様体を将来のポーズに適応的にマッピングし,人間の動きの時空間相関を効果的にモデル化し,予測結果をさらに洗練する。 広汎な実験により,本手法は2つの公開ベンチマーク上での最先端性能を実現し,実世界の展開において顕著な堅牢性と有効性を示す。

Human motion prediction is crucial for human-centric multimedia understanding and interacting. Current methods typically rely on ground truth human poses as observed input, which is not practical for real-world scenarios where only raw visual sensor data is available. To implement these methods in practice, a pre-phrase of pose estimation is essential. However, such two-stage approaches often lead to performance degradation due to the accumulation of errors. Moreover, reducing raw visual data to sparse keypoint representations significantly diminishes the density of information, resulting in the loss of fine-grained features. In this paper, we propose \textit{LiDAR-HMP}, the first single-LiDAR-based 3D human motion prediction approach, which receives the raw LiDAR point cloud as input and forecasts future 3D human poses directly. Building upon our novel structure-aware body feature descriptor, LiDAR-HMP adaptively maps the observed motion manifold to future poses and effectively models the spatial-temporal correlations of human motions for further refinement of prediction results. Extensive experiments show that our method achieves state-of-the-art performance on two public benchmarks and demonstrates remarkable robustness and efficacy in real-world deployments.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 顔認証に対するマルチタスク対応攻撃

A Multi-task Adversarial Attack Against Face Authentication ( http://arxiv.org/abs/2408.08205v1 )

ライセンス: Link先を確認
Hanrui Wang, Shuo Wang, Cunjian Chen, Massimo Tistarelli, Zhe Jin, (参考訳) 顔認識システムのようなディープラーニングベースのアイデンティティ管理システムは、敵の攻撃に対して脆弱である。 しかし、既存の攻撃はシングルタスク用に設計されているため、複数のユーザやシステムに適応するのではなく、個々のターゲット固有の脆弱性を利用するように調整されている。 この制限は、モーフィング、ユニバーサル、転送可能、カウンター攻撃のような特定の攻撃シナリオには適さない。 本稿では,複数のユーザやシステムに対して適応可能なMTADVと呼ばれるマルチタスク逆攻撃アルゴリズムを提案する。 これらのシナリオをマルチタスク攻撃と解釈することで、MTADVはシングルタスク攻撃とマルチタスク攻撃の両方に適用でき、ホワイトボックスとグレイボックスの設定で実現可能である。 さらに、MTADVはLFW、CelebA、CelebA-HQなどのさまざまな顔データセットに対して有効であり、FaceNet、InsightFace、CurricularFaceといったさまざまなディープラーニングモデルで動作することができる。 重要な点として、MTADVは単一ユーザ/システムをターゲットにしたシングルタスク攻撃として実現可能性を維持している。 我々の知る限りでは、MTADVは上記のシナリオを1つのアルゴリズムで対象とする最初の敵攻撃法である。

Deep-learning-based identity management systems, such as face authentication systems, are vulnerable to adversarial attacks. However, existing attacks are typically designed for single-task purposes, which means they are tailored to exploit vulnerabilities unique to the individual target rather than being adaptable for multiple users or systems. This limitation makes them unsuitable for certain attack scenarios, such as morphing, universal, transferable, and counter attacks. In this paper, we propose a multi-task adversarial attack algorithm called MTADV that are adaptable for multiple users or systems. By interpreting these scenarios as multi-task attacks, MTADV is applicable to both single- and multi-task attacks, and feasible in the white- and gray-box settings. Furthermore, MTADV is effective against various face datasets, including LFW, CelebA, and CelebA-HQ, and can work with different deep learning models, such as FaceNet, InsightFace, and CurricularFace. Importantly, MTADV retains its feasibility as a single-task attack targeting a single user/system. To the best of our knowledge, MTADV is the first adversarial attack method that can target all of the aforementioned scenarios in one algorithm.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# ウォータースメッティング:ガウススメッティングを用いた高速水中3次元シーン再構成

WaterSplatting: Fast Underwater 3D Scene Reconstruction Using Gaussian Splatting ( http://arxiv.org/abs/2408.08206v1 )

ライセンス: Link先を確認
Huapeng Li, Wenxuan Song, Tianao Xu, Alexandre Elsig, Jonas Kulhanek, (参考訳) 水中の3Dシーンの再構築は、海軍ロボットからVR体験に至るまで、難しいが興味深い問題だ。 この問題は、幾何学と媒質(水)の両方をモデル化できる完全に体積的なNeRFベースの手法によって解決された。 残念ながら、これらのメソッドはトレーニングが遅く、リアルタイムレンダリングを提供していません。 最近では、3D Gaussian Splatting (3DGS)法がNeRFの高速な代替手段となった。 しかし、形状のみを描画する明示的な方法であるため、媒体を描画することができないため、水中での復元には適さない。 そこで本研究では,水中データ処理を効果的に行うために,ボリュームレンダリングを3DGSで融合する手法を提案する。 提案手法では,3DGSを明示的な幾何学的表現に用いて,散乱媒質を捉えるために,別個の体積場(1ピクセルあたり1回キューイング)を用いる。 この二重表現により、散乱媒体を除去してシーンを復元することができる。 提案手法は,海底シースルー-ネRFデータセットのレンダリング品質において,最先端のNeRF法よりも優れていた。 さらに、既存のメソッドの効率の限界に対処しながら、リアルタイムレンダリングのパフォーマンスを提供する。 Web: https://water-splatting.github.io

The underwater 3D scene reconstruction is a challenging, yet interesting problem with applications ranging from naval robots to VR experiences. The problem was successfully tackled by fully volumetric NeRF-based methods which can model both the geometry and the medium (water). Unfortunately, these methods are slow to train and do not offer real-time rendering. More recently, 3D Gaussian Splatting (3DGS) method offered a fast alternative to NeRFs. However, because it is an explicit method that renders only the geometry, it cannot render the medium and is therefore unsuited for underwater reconstruction. Therefore, we propose a novel approach that fuses volumetric rendering with 3DGS to handle underwater data effectively. Our method employs 3DGS for explicit geometry representation and a separate volumetric field (queried once per pixel) for capturing the scattering medium. This dual representation further allows the restoration of the scenes by removing the scattering medium. Our method outperforms state-of-the-art NeRF-based methods in rendering quality on the underwater SeaThru-NeRF dataset. Furthermore, it does so while offering real-time rendering performance, addressing the efficiency limitations of existing methods. Web: https://water-splatting.github.io
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# LLM4DSR:シークエンシャルレコメンデーションのための大規模言語モデル

LLM4DSR: Leveraing Large Language Model for Denoising Sequential Recommendation ( http://arxiv.org/abs/2408.08208v1 )

ライセンス: Link先を確認
Bohao Wang, Feng Liu, Jiawei Chen, Yudi Wu, Xingyu Lou, Jun Wang, Yan Feng, Chun Chen, Can Wang, (参考訳) シークエンシャルレコメンデーションシステムは、しばしばノイズの多いインタラクションによって汚染される、ユーザの歴史的なインタラクションシーケンスに基本的に依存する。 ノイズを示す明示的な監視信号が欠如しているため、これらのノイズの相互作用を追加情報なしで正確に識別することは特に困難である。 大規模言語モデル(LLM)は、幅広いオープン知識とセマンティック推論能力を備えており、この情報ギャップを埋めるための有望な道を示す。 しかし、シーケンシャルレコメンデーションにおけるLCMの活用には、注目すべき課題が伴う。 1) 事前訓練されたLLMの直接適用は,過度に非感覚的応答を生じさせるため,特定業務に適さない可能性がある。 2) 微調整後においても, LLM出力の信頼性は疑問視されている。 これらの課題に対処するため,LLMを用いた逐次レコメンデーション法であるLLM4DSRを提案する。 LLMの機能を活性化し,ノイズのある項目を識別し,代替品を提案する自己教師型微調整タスクを構築した。 さらに,高信頼応答のみをシーケンス修正に利用する不確実性推定モジュールを開発した。 注目すべきは、LLM4DSRはモデルに依存しないため、修正されたシーケンスを様々なレコメンデーションモデルに柔軟に適用することができることである。 大規模な実験により、3つのデータセットと3つの推奨バックボーンにわたる既存のメソッドよりもLLM4DSRの方が優れていることが検証された。

Sequential recommendation systems fundamentally rely on users' historical interaction sequences, which are often contaminated by noisy interactions. Identifying these noisy interactions accurately without additional information is particularly difficult due to the lack of explicit supervisory signals to denote noise. Large Language Models (LLMs), equipped with extensive open knowledge and semantic reasoning abilities, present a promising avenue to bridge this information gap. However, employing LLMs for denoising in sequential recommendation introduces notable challenges: 1) Direct application of pretrained LLMs may not be competent for the denoising task, frequently generating nonsensical responses; 2) Even after fine-tuning, the reliability of LLM outputs remains questionable, especially given the complexity of the task and th inherent hallucinatory issue of LLMs. To tackle these challenges, we propose LLM4DSR, a tailored approach for denoising sequential recommendation using LLMs. We constructed a self-supervised fine-tuning task to activate LLMs' capabilities to identify noisy items and suggest replacements. Furthermore, we developed an uncertainty estimation module that ensures only high-confidence responses are utilized for sequence corrections. Remarkably, LLM4DSR is model-agnostic, allowing the corrected sequences to be flexibly applied across various recommendation models. Extensive experiments validate the superiority of LLM4DSR over existing methods across three datasets and three recommendation backbones.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 推論は創発的か?-大言語モデルにおける因果関係の可能性の検討

Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models ( http://arxiv.org/abs/2408.08210v1 )

ライセンス: Link先を確認
Javier González, Aditya V. Nori, (参考訳) 近年のAIの進歩は、人間の思考に似た方法で複雑な問題を解決するために、大規模言語モデル(LLM)の能力によって著しく推進されている。 しかし、LLMが実際に推論できる範囲について、議論が続いている。 この議論の中心は2つの主要な確率論的概念であり、原因をそれらの効果に結びつけるのに必須である:必要の確率(PN)と十分の確率(PS)である。 本稿では,これらの確率的尺度を用いて実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的な枠組みを提案する。 自然言語インタフェースを通して情報を処理する抽象機械としてLLMを捉えることにより、PNとPSの適切な近似を計算できる条件を検討する。 我々の研究は、一連の数学の例で示されるように、LLMが推論できる時期についての深い理解を得るための重要なステップである。

Recent advances in AI have been significantly driven by the capabilities of large language models (LLMs) to solve complex problems in ways that resemble human thinking. However, there is an ongoing debate about the extent to which LLMs are capable of actual reasoning. Central to this debate are two key probabilistic concepts that are essential for connecting causes to their effects: the probability of necessity (PN) and the probability of sufficiency (PS). This paper introduces a framework that is both theoretical and practical, aimed at assessing how effectively LLMs are able to replicate real-world reasoning mechanisms using these probabilistic measures. By viewing LLMs as abstract machines that process information through a natural language interface, we examine the conditions under which it is possible to compute suitable approximations of PN and PS. Our research marks an important step towards gaining a deeper understanding of when LLMs are capable of reasoning, as illustrated by a series of math examples.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 自律運転のための学習型マルチモーダル圧縮

Learned Multimodal Compression for Autonomous Driving ( http://arxiv.org/abs/2408.08211v1 )

ライセンス: Link先を確認
Hadi Hadizadeh, Ivan V. Bajić, (参考訳) 自律運転センサーは膨大な量のデータを生成する。 本稿では,3次元物体検出を対象とする自律走行のための学習されたマルチモーダル圧縮について検討する。 カメラとLiDARのモダリティに注目し、いくつかのコーディングアプローチを検討します。 1つのアプローチは、融合したモダリティのジョイントコーディングであり、もう1つは、1つのモダリティを最初にコーディングし、もう1つのモダリティを条件付きコーディングする。 nuScenesデータセット上でこれらの符号化方式の性能を評価する。 実験結果から,融解モダリティの結合符号化により,代替品よりも良好な結果が得られることが示された。

Autonomous driving sensors generate an enormous amount of data. In this paper, we explore learned multimodal compression for autonomous driving, specifically targeted at 3D object detection. We focus on camera and LiDAR modalities and explore several coding approaches. One approach involves joint coding of fused modalities, while others involve coding one modality first, followed by conditional coding of the other modality. We evaluate the performance of these coding schemes on the nuScenes dataset. Our experimental results indicate that joint coding of fused modalities yields better results compared to the alternatives.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# Covert Bias: 社会的視点の意図的・明示的な意見への不一致の深刻さ

Covert Bias: The Severity of Social Views' Unalignment Towards Implicit and Explicit Opinion ( http://arxiv.org/abs/2408.08212v1 )

ライセンス: Link先を確認
Abeer Aldayel, Areej Alokaili, Rehab Alahmadi, (参考訳) 近年, 偏見識別のための様々な手法が研究されているが, 視点を明確に伝達しない暗黙言語が大規模言語モデルにおいて, 偏見増幅に与える影響についてはほとんど分かっていない。 まず,過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて,ストレステストの評価を行う。 そこで我々は,LLMが対立する視点に整合している場合,暗黙的・明示的な意見に反応して言語学的に校正する方法について検討した。 以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。 さらに、バイアス整合モデルは、不整合(ゼロショット)ベースモデルと比較して不確実なフレーズを用いてより慎重な応答を生成する。 不整合モデルの直接的な、注意深い応答は、信頼性を高めるために不確実性マーカーを組み込むことにより、決定性のさらなる改善の必要性を示唆している。

While various approaches have recently been studied for bias identification, little is known about how implicit language that does not explicitly convey a viewpoint affects bias amplification in large language models.To examine the severity of bias toward a view, we evaluated the performance of two downstream tasks where the implicit and explicit knowledge of social groups were used. First, we present a stress test evaluation by using a biased model in edge cases of excessive bias scenarios. Then, we evaluate how LLMs calibrate linguistically in response to both implicit and explicit opinions when they are aligned with conflicting viewpoints. Our findings reveal a discrepancy in LLM performance in identifying implicit and explicit opinions, with a general tendency of bias toward explicit opinions of opposing stances. Moreover, the bias-aligned models generate more cautious responses using uncertainty phrases compared to the unaligned (zero-shot) base models. The direct, incautious responses of the unaligned models suggest a need for further refinement of decisiveness by incorporating uncertainty markers to enhance their reliability, especially on socially nuanced topics with high subjectivity.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# 狭帯域レーザーのカスケード電気光学変調による量子ドット微小キャビティを用いた単一光子生成のためのピコ秒レーザーパルス

Picosecond laser pulses for quantum dot-microcavity based single photon generation by cascaded electro-optic modulation of a narrow-linewidth laser ( http://arxiv.org/abs/2408.08213v1 )

ライセンス: Link先を確認
Mio Poortvliet, Petr Steindl, Ilse Kuijf, Harry Visser, Arno van Amersfoort, Wolfgang Löffler, (参考訳) 近年の集積光学の進歩により、高帯域電気光学変調器(EOM)の製造が可能になった。 ここでは、オンデマンドのピコ秒パルスを伝送するカスタムメーカによって駆動される2つの変調器のカスケード動作と、量子ドットキャビティQED単一光子源への応用を示す。 我々は,EOMに基づく相関手法を実装し,光パルスを1つのEOMで24$\pm$2 psで示す。 EOMsは同期し、連続して動作し、17psまで光パルスを生成する。 パルスコントラストを最適化するために、EOMバイアス、波長、温度の関数として伝送を2つの異なるEOMデバイスで解析し、温度調整と安定化により、目標波長で25dB以上のパルスコントラストを得ることができることを示す。 この高コントラストでは、InGaAs量子ドット-マイクロキャビティベースの単一光子源の共鳴励起を示し、大規模フォトニック量子アプリケーションのスケーラビリティと同期のための重要な技術を示す。

Recent developments in integrated optics have made it possible to fabricate high-bandwidth electro-optic modulators (EOMs). Here we show cascaded operation of two of such modulators driven by custom-built electronics delivering on-demand picosecond pulses and application to a quantum dot cavity-QED single photon source. We implement an EOM-based correlation technique and demonstrate light pulses as short as 24$\pm$2 ps with a single EOM. The EOMs can be synchronized and operated in series, we then produce optical pulses down to 17 ps. To optimize the pulse contrast, we analyze for two different EOM devices the transmission as a function of EOM bias, wavelength and temperature, and we show that by temperature tuning and stabilization, a pulse contrast above 25 dB can be obtained at the targeted wavelength. With this high contrast we demonstrate resonant excitation of an InGaAs quantum dot - microcavity based single photon source, demonstrating a crucial technology for scalability and synchronization of large scale photonic quantum applications.
翻訳日:2024-08-16 13:36:33 公開日:2024-08-15
# フェデレーション・フェアネス分析 : フェデレーション・ラーニングにおけるフェアネスの定量化

Federated Fairness Analytics: Quantifying Fairness in Federated Learning ( http://arxiv.org/abs/2408.08214v1 )

ライセンス: Link先を確認
Oscar Dilley, Juan Marcelo Parra-Ullauri, Rasheed Hussain, Dimitra Simeonidou, (参考訳) Federated Learning(FL)は、分散MLのためのプライバシ強化技術である。 モデルをローカルにトレーニングし、更新を集約することで、フェデレーションは集中したデータ収集をバイパスしながら、一緒に学習する。 FLは医療、金融、パーソナルコンピューティングでますます人気がある。 しかし、従来のMLから公平性の問題を受け継ぎ、データ品質、クライアント参加、通信制約、アグリゲーションメソッド、基盤となるハードウェアの違いによって、新しいものを導入している。 フェアネスは依然として未解決の問題であり、コミュニティはフェアネスを定量化するための簡潔な定義とメトリクスが欠如していることを特定している。 公平性の定義は、新しい、対応するメトリクスを持つ4つの概念から構成される。 それらはシンプトマティックに定義され、XAI、協調ゲーム理論、ネットワーク工学から派生した技術を活用している。 FLアプローチ、MLタスク、データ設定など、さまざまな実験的な設定をテストしました。 その結果、統計的不均一性とクライアント参加は、ディットやq-FedAvgのような公正性と公正意識のアプローチに影響を及ぼし、公正性とパフォーマンスのトレードオフを極端に改善することが示された。 FL実践者は,本手法を用いることで,FLの公平性問題に対処するために,システムの公正性に関する既往の洞察を,粒度の異なるレベルで発見することができる。 https://github.com/oscardilley/federated-fairness。

Federated Learning (FL) is a privacy-enhancing technology for distributed ML. By training models locally and aggregating updates - a federation learns together, while bypassing centralised data collection. FL is increasingly popular in healthcare, finance and personal computing. However, it inherits fairness challenges from classical ML and introduces new ones, resulting from differences in data quality, client participation, communication constraints, aggregation methods and underlying hardware. Fairness remains an unresolved issue in FL and the community has identified an absence of succinct definitions and metrics to quantify fairness; to address this, we propose Federated Fairness Analytics - a methodology for measuring fairness. Our definition of fairness comprises four notions with novel, corresponding metrics. They are symptomatically defined and leverage techniques originating from XAI, cooperative game-theory and networking engineering. We tested a range of experimental settings, varying the FL approach, ML task and data settings. The results show that statistical heterogeneity and client participation affect fairness and fairness conscious approaches such as Ditto and q-FedAvg marginally improve fairness-performance trade-offs. Using our techniques, FL practitioners can uncover previously unobtainable insights into their system's fairness, at differing levels of granularity in order to address fairness challenges in FL. We have open-sourced our work at: https://github.com/oscardilley/federated-fairness.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 医用医療用AI-Support System for Visually Detectable Diseases to Constrained Devices

Moving Healthcare AI-Support Systems for Visually Detectable Diseases onto Constrained Devices ( http://arxiv.org/abs/2408.08215v1 )

ライセンス: Link先を確認
Tess Watt, Christos Chrysoulas, Peter J Barclay, (参考訳) 画像分類は通常、接続性やクラウドへのアクセスを必要とするが、これは世界中の多くの地域で限られており、農村部への到達が困難である。 TinyMLは、制約のあるデバイスにAIアシスタントをホストすることでこの問題を解決し、インターネットやクラウドアクセスなしでデバイス内部でデータを処理することで接続性の問題を取り除くことを目的としている。 このパイロットスタディでは、低接続環境における低スペックデバイスによる医療支援のために、皮膚疾患の診断と、医療環境におけるAIアシスタントの倫理的使用に焦点を当てた、microMLの使用について検討している。 これを調べるために、1万枚の皮膚病変の画像を用いて、視覚的に検出可能な疾患(VDD)を分類するモデルを訓練した。 モデルの重量は、ウェブカメラを装着したRaspberry Piにオフロードされ、インターネットアクセスなしで皮膚病変の分類に使用される。 その結果, 試作機の精度は78%, 試験損失は1.08であった。

Image classification usually requires connectivity and access to the cloud which is often limited in many parts of the world, including hard to reach rural areas. TinyML aims to solve this problem by hosting AI assistants on constrained devices, eliminating connectivity issues by processing data within the device itself, without internet or cloud access. This pilot study explores the use of tinyML to provide healthcare support with low spec devices in low connectivity environments, focusing on diagnosis of skin diseases and the ethical use of AI assistants in a healthcare setting. To investigate this, 10,000 images of skin lesions were used to train a model for classifying visually detectable diseases (VDDs). The model weights were then offloaded to a Raspberry Pi with a webcam attached, to be used for the classification of skin lesions without internet access. It was found that the developed prototype achieved a test accuracy of 78% and a test loss of 1.08.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# イメージ・トゥ・イメージ(I2I)翻訳におけるKanの夜明け:Kolmogorov-Arnold ネットワークと GAN を統合した未ペアI2I 翻訳

The Dawn of KAN in Image-to-Image (I2I) Translation: Integrating Kolmogorov-Arnold Networks with GANs for Unpaired I2I Translation ( http://arxiv.org/abs/2408.08216v1 )

ライセンス: Link先を確認
Arpan Mahara, Naphtali D. Rishe, Liangdong Deng, (参考訳) 生成人工知能(Generative AI)における画像から画像への変換は、医療、リモートセンシング、物理、化学、写真など、研究の中心となっている。 多くの方法論の中で、対照的な学習を伴うGAN(Generative Adversarial Networks)が特に成功した。 本研究では,KAN(Kolmogorov-Arnold Network)が生成AIにおける多層パーセプトロン(MLP)手法を,特に画像から画像への翻訳のサブドメインで効果的に置き換えることで,生成品質の向上を実証することを目的とする。 提案手法は,既存のContrastive Unpaired Image-to- Image Translation (CUT)モデルにおいて,2層MLPを2層KANに置き換え,kan-CUTモデルを開発した。 この置換は、低次元ベクトル表現におけるより情報的な特徴の生成を好んでおり、対照的な学習は、より効果的に、ターゲット領域で高品質な画像を生成することができる。 結果のセクションで詳述された広範囲な実験は、特に画像から画像への翻訳において、コントラスト学習とGANの併用性を実証している。 この研究は、kanがより広範な生成AIドメインにおいて価値のあるコンポーネントになり得ることを示唆している。

Image-to-Image translation in Generative Artificial Intelligence (Generative AI) has been a central focus of research, with applications spanning healthcare, remote sensing, physics, chemistry, photography, and more. Among the numerous methodologies, Generative Adversarial Networks (GANs) with contrastive learning have been particularly successful. This study aims to demonstrate that the Kolmogorov-Arnold Network (KAN) can effectively replace the Multi-layer Perceptron (MLP) method in generative AI, particularly in the subdomain of image-to-image translation, to achieve better generative quality. Our novel approach replaces the two-layer MLP with a two-layer KAN in the existing Contrastive Unpaired Image-to-Image Translation (CUT) model, developing the KAN-CUT model. This substitution favors the generation of more informative features in low-dimensional vector representations, which contrastive learning can utilize more effectively to produce high-quality images in the target domain. Extensive experiments, detailed in the results section, demonstrate the applicability of KAN in conjunction with contrastive learning and GANs in Generative AI, particularly for image-to-image translation. This work suggests that KAN could be a valuable component in the broader generative AI domain.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# RED-CT:計算社会科学のためのエッジ分類器の訓練と展開にLLMラベルデータを使用するシステム設計手法

RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science ( http://arxiv.org/abs/2408.08217v1 )

ライセンス: Link先を確認
David Farr, Nico Manzonelli, Iain Cruickshank, Jevin West, (参考訳) 大規模言語モデル(LLM)は、構造化されていない自然言語データを迅速に分析し分類する能力を向上した。 しかしながら、コスト、ネットワーク制限、セキュリティ上の制約に関する懸念は、彼らの作業プロセスへの統合に問題を引き起こしている。 本研究では,下流教師あり学習課題において,LLMを不完全なデータアノテータとして活用するためのシステム設計アプローチを採用し,分類性能の向上を目的とした新たなシステム介入対策を導入する。 提案手法は, LLM生成ラベルを8つのテストのうち7つのテストで上回り, 多くの産業ユースケースにおいて, 専門的, 教師あり学習モデルの設計と展開にLLMを組み込むことの効果的な戦略を示す。

Large language models (LLMs) have enhanced our ability to rapidly analyze and classify unstructured natural language data. However, concerns regarding cost, network limitations, and security constraints have posed challenges for their integration into work processes. In this study, we adopt a systems design approach to employing LLMs as imperfect data annotators for downstream supervised learning tasks, introducing novel system intervention measures aimed at improving classification performance. Our methodology outperforms LLM-generated labels in seven of eight tests, demonstrating an effective strategy for incorporating LLMs into the design and deployment of specialized, supervised learning models present in many industry use cases.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 摂動半径学習によるシャープネスの最小化

Enhancing Sharpness-Aware Minimization by Learning Perturbation Radius ( http://arxiv.org/abs/2408.08222v1 )

ライセンス: Link先を確認
Xuehao Wang, Weisen Jiang, Shuai Fu, Yu Zhang, (参考訳) シャープネスを意識した最小化(SAM)は、損失ランドスケープにおける平坦なミニマを探索することでモデル一般化を改善することである。 SAMアップデートは摂動を計算するための1ステップと、更新勾配を計算するための1ステップで構成されている。 2つのステップの中では、SAMの性能には摂動半径の選択が不可欠であるが、適切な摂動半径を見つけることは困難である。 本稿では,パーターベーション・ラディウS (LETS) をLearning the perTurbation radiuS (LETS) と呼ぶ二段階最適化フレームワークを提案し,シャープネスを意識した最小化アルゴリズムの摂動半径を学習する。 具体的には、LETS法において、上層問題はトレーニングと検証損失の2乗一般化ギャップを最小化することで、良好な摂動半径を求めることを目的としており、下層問題はSAM最適化問題である。 さらに、LETS法はSAMの任意の変種と組み合わせることができる。 計算機ビジョンと自然言語処理における各種アーキテクチャとベンチマークデータセットの実験結果から,提案手法の有効性がSAMの性能向上に有効であることが示された。

Sharpness-aware minimization (SAM) is to improve model generalization by searching for flat minima in the loss landscape. The SAM update consists of one step for computing the perturbation and the other for computing the update gradient. Within the two steps, the choice of the perturbation radius is crucial to the performance of SAM, but finding an appropriate perturbation radius is challenging. In this paper, we propose a bilevel optimization framework called LEarning the perTurbation radiuS (LETS) to learn the perturbation radius for sharpness-aware minimization algorithms. Specifically, in the proposed LETS method, the upper-level problem aims at seeking a good perturbation radius by minimizing the squared generalization gap between the training and validation losses, while the lower-level problem is the SAM optimization problem. Moreover, the LETS method can be combined with any variant of SAM. Experimental results on various architectures and benchmark datasets in computer vision and natural language processing demonstrate the effectiveness of the proposed LETS method in improving the performance of SAM.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# リンク予測における知識グラフ埋め込みの予測多重性

Predictive Multiplicity of Knowledge Graph Embeddings in Link Prediction ( http://arxiv.org/abs/2408.08226v1 )

ライセンス: Link先を確認
Yuqicheng Zhu, Nico Potyka, Mojtaba Nayyeri, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab, (参考訳) 知識グラフ埋め込み(KGE)モデルは、知識グラフ(KG)の欠落するリンクを予測するためにしばしば使用される。 しかし、複数のKG埋め込みはリンク予測にほぼ等しく機能するが、文献では「textit{predictive multiplicity}」と呼ばれる特定のクエリの競合予測を示唆する。 この振舞いは、KGEをベースとしたハイテイク領域のアプリケーションには重大なリスクをもたらすが、KGEの研究では見落とされている。 本稿では,リンク予測における予測多重度を定義する。 本稿では、一般的なベンチマークデータセット上でのKGE手法の評価指標と予測乗算性について紹介する。 私たちの経験的研究は、リンク予測において重大な予測多重性を示し、矛盾する予測を示すクエリを8\%から39\%に削減しています。 この問題を解決するために,社会選択理論から投票方法を活用することを提案する。

Knowledge graph embedding (KGE) models are often used to predict missing links for knowledge graphs (KGs). However, multiple KG embeddings can perform almost equally well for link prediction yet suggest conflicting predictions for certain queries, termed \textit{predictive multiplicity} in literature. This behavior poses substantial risks for KGE-based applications in high-stake domains but has been overlooked in KGE research. In this paper, we define predictive multiplicity in link prediction. We introduce evaluation metrics and measure predictive multiplicity for representative KGE methods on commonly used benchmark datasets. Our empirical study reveals significant predictive multiplicity in link prediction, with $8\%$ to $39\%$ testing queries exhibiting conflicting predictions. To address this issue, we propose leveraging voting methods from social choice theory, significantly mitigating conflicts by $66\%$ to $78\%$ according to our experiments.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# A* の進化による k 最短経路問題の解法(拡張版)

Evolving A* to Efficiently Solve the k Shortest-Path Problem (Extended Version) ( http://arxiv.org/abs/2408.08227v1 )

ライセンス: Link先を確認
Carlos Linares López, Ian Herman, (参考訳) グラフ G(V, E) における最短経路を求める問題は広く研究されている。 しかし、多くのアプリケーションでは、任意の数の k を計算する必要がある。 この問題は異なる研究コミュニティから多くの関心を集めており、多くの応用が知られているが、単一の最短経路問題と同じ程度では解決されていない。 このタスクを効率的に解くために知られている最良のアルゴリズムは、O (|E| + |V|log{|V|}+k|V|)$ の時間複雑性を持つ。 そこで本研究では,A* の自然進化にともなって,A* のすべての興味深い特性を保存し,多くの異なる領域に広く適用することができる新しい探索アルゴリズムを提案する。 様々なテストベッドでの実験では、しばしば1~2桁の精度で、最先端よりもパフォーマンスが大幅に向上した。

The problem of finding the shortest path in a graph G(V, E) has been widely studied. However, in many applications it is necessary to compute an arbitrary number of them, k. Even though the problem has raised a lot of interest from different research communities and many applications of it are known, it has not been addressed to the same extent as the single shortest path problem. The best algorithm known for efficiently solving this task has a time complexity of O (|E| + |V|log{|V|}+k|V|)$ when computing paths in explicit form, and is based on best-first search. This paper introduces a new search algorithm with the same time complexity, which results from a natural evolution of A* thus, it preserves all its interesting properties, making it widely applicable to many different domains. Experiments in various testbeds show a significant improvement in performance over the state of the art, often by one or two orders of magnitude.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 脳MRIにおける医学的異常検出の再考 : 画像品質評価の観点から

Rethinking Medical Anomaly Detection in Brain MRI: An Image Quality Assessment Perspective ( http://arxiv.org/abs/2408.08228v1 )

ライセンス: Link先を確認
Zixuan Pan, Jun Xia, Zheyu Yan, Guoyue Xu, Yawen Wu, Zhenge Jia, Jianxu Chen, Yiyu Shi, (参考訳) 再構成に基づく手法、特にオートエンコーダを利用する手法は、脳MRIで異常検出を行うために広く採用されている。 既存のほとんどの研究は、新しいモデル構造やアルゴリズムを提案することによって、検出精度の向上を図っているが、画像品質評価(この分野における未調査の視点)により、この問題に対処する。 構造類似度指数の損失をl1損失と組み合わせた核融合品質損失関数を提案する。 さらに,正常領域と異常領域の平均強度比(AIR)を高めるデータ前処理手法を導入し,異常の識別をさらに改善した。 上記の2つの手法を融合させることで、画像品質評価(IQA)アプローチを考案する。 提案手法は,BraTS21(T2,FLAIR)およびMSULBデータセットのDice係数(DICE)およびAUPRC(Area Under the Precision-Recall Curve)において,最先端の手法と比較して,大幅な改善(>10%)を達成している。 これらの結果は,医学的異常検出における包括的画像品質評価の実施の重要性を強調し,今後の研究への新たな視点を提供するものである。

Reconstruction-based methods, particularly those leveraging autoencoders, have been widely adopted to perform anomaly detection in brain MRI. While most existing works try to improve detection accuracy by proposing new model structures or algorithms, we tackle the problem through image quality assessment, an underexplored perspective in the field. We propose a fusion quality loss function that combines Structural Similarity Index Measure loss with l1 loss, offering a more comprehensive evaluation of reconstruction quality. Additionally, we introduce a data pre-processing strategy that enhances the average intensity ratio (AIR) between normal and abnormal regions, further improving the distinction of anomalies. By fusing the aforementioned two methods, we devise the image quality assessment (IQA) approach. The proposed IQA approach achieves significant improvements (>10%) in terms of Dice coefficient (DICE) and Area Under the Precision-Recall Curve (AUPRC) on the BraTS21 (T2, FLAIR) and MSULB datasets when compared with state-of-the-art methods. These results highlight the importance of invoking the comprehensive image quality assessment in medical anomaly detection and provide a new perspective for future research in this field.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# エージェントの未来の信念を説明する : 時間分解による未来のリワード推定器

Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators ( http://arxiv.org/abs/2408.08230v1 )

ライセンス: Link先を確認
Mark Towers, Yali Du, Christopher Freeman, Timothy J. Norman, (参考訳) 将来の報酬推定は、強化学習エージェントの中核的な要素、すなわちQ値と状態値関数であり、エージェントの将来の報酬の総和を予測する。 しかし、スカラーアウトプットは、エージェントがいつ、いつ、いつ、いつ、どんな未来に報いるのかを難なくする。 エージェントの今後の報酬推定器を修正して,次のNの期待報酬を予測することで,この問題に対処する。 これはエージェントの振る舞いに関する新しい説明を解き放つ。 TRDを通じて、エージェントが報酬を受け取ることを期待する時期、報酬の価値、そしてそれを受け取るエージェントの信頼度を推定し、入力特徴の時間的重要性をエージェントの行動決定に測定し、将来の報酬に対する異なるアクションの影響を予測する。 さらに、アタリ環境で訓練されたDQNエージェントを効率よく再訓練し、RDを組み込むことで性能への影響を最小限に抑えることができることを示す。

Future reward estimation is a core component of reinforcement learning agents; i.e., Q-value and state-value functions, predicting an agent's sum of future rewards. Their scalar output, however, obfuscates when or what individual future rewards an agent may expect to receive. We address this by modifying an agent's future reward estimator to predict their next N expected rewards, referred to as Temporal Reward Decomposition (TRD). This unlocks novel explanations of agent behaviour. Through TRD we can: estimate when an agent may expect to receive a reward, the value of the reward and the agent's confidence in receiving it; measure an input feature's temporal importance to the agent's action decisions; and predict the influence of different actions on future rewards. Furthermore, we show that DQN agents trained on Atari environments can be efficiently retrained to incorporate TRD with minimal impact on performance.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# Z-Gromov-Wasserstein距離

The Z-Gromov-Wasserstein Distance ( http://arxiv.org/abs/2408.08233v1 )

ライセンス: Link先を確認
Martin Bauer, Facundo Mémoli, Tom Needham, Mao Nishino, (参考訳) グロモフ=ワッサーシュタイン距離(Gromov-Wasserstein distance, GW)は、測度空間を比較する強力なツールであり、データサイエンスと機械学習に広く応用されている。 オブジェクトがますます複雑な構造を持つデータセット(ノードグラフやエッジグラフなど)を分析する必要があるため、近年の文献ではGW距離のバリエーションがいくつか紹介されている。 GW のような距離の理論の一般的な枠組みを確立するために、この論文は計量測度空間の概念の広大な一般化を考える:任意の計量空間 $Z$ に対して、Z$ の値を持つカーネルを持つ測度空間として$Z$-ネットワークを定義する。 本稿では、GW距離の一般化を定義することにより、$Z$-networksを比較する方法を紹介し、これを$Z$-Gromov-Wasserstein(Z$-GW)距離と呼ぶ。 この構成は多くの既知のメトリクスを仮定し、共有プロパティを理解するための統一的なアプローチを提供する。 論文は、$Z$-GW距離が、分離性、完全性、測地性など、$Z$の望ましい性質を保持する$Z$-networksの空間上の計量を定義することを示した。 これらの性質の多くは、我々の枠組みに該当する既存のGW距離の変種について不明である。 基礎理論に焦点が当てられているが、我々の結果は計算可能な下界と実際の応用に役立つ距離の近似も含んでいる。

The Gromov-Wasserstein (GW) distance is a powerful tool for comparing metric measure spaces which has found broad applications in data science and machine learning. Driven by the need to analyze datasets whose objects have increasingly complex structure (such as node and edge-attributed graphs), several variants of GW distance have been introduced in the recent literature. With a view toward establishing a general framework for the theory of GW-like distances, this paper considers a vast generalization of the notion of a metric measure space: for an arbitrary metric space $Z$, we define a $Z$-network to be a measure space endowed with a kernel valued in $Z$. We introduce a method for comparing $Z$-networks by defining a generalization of GW distance, which we refer to as $Z$-Gromov-Wasserstein ($Z$-GW) distance. This construction subsumes many previously known metrics and offers a unified approach to understanding their shared properties. The paper demonstrates that the $Z$-GW distance defines a metric on the space of $Z$-networks which retains desirable properties of $Z$, such as separability, completeness, and geodesicity. Many of these properties were unknown for existing variants of GW distance that fall under our framework. Our focus is on foundational theory, but our results also include computable lower bounds and approximations of the distance which will be useful for practical applications.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# オブジェクト空間推定のための3次元再構成法の比較評価

Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation ( http://arxiv.org/abs/2408.08234v1 )

ライセンス: Link先を確認
Varun Burde, Assia Benbihi, Pavel Burget, Torsten Sattler, (参考訳) オブジェクトのポーズ推定は、ロボット操作、ナビゲーション、拡張現実を含む多くの産業アプリケーションにとって不可欠である。 現在の一般化可能なオブジェクトポーズ推定器、すなわち、オブジェクトごとのトレーニングを必要としないアプローチは、正確な3Dモデルに依存している。 CADモデルはよく使われており、実際に入手するのは困難である。 同時に、オブジェクトの画像を取得することもしばしば可能である。 このことは、画像から再構成された3Dモデルが、正確なポーズ推定を容易にするのに十分かどうかという問題に繋がる。 本稿では,3次元再構成品質がポーズ推定精度に与える影響を計測するための新しいベンチマークを提案して,この問題に対処することを目的とする。 本ベンチマークは,YCB-Vデータセットのテスト画像に登録されたオブジェクト再構成のための校正画像を提供し,BOPベンチマークフォーマットでポーズ評価を行う。 複数の最先端の3D再構成とオブジェクトポーズ推定手法による詳細な実験により、現代的な再構成手法によって生成された幾何学が、正確なポーズ推定に十分であることが示された。 1) 3次元再構成品質測定の基準基準基準は必ずしもポーズ推定精度を示すものではないが、これは我々のような専用のベンチマークの必要性を示している。 2) 古典的,非学習的アプローチは,現代の学習に基づく再構築技術と同等に機能し,より優れた再構築時間的精度のトレードオフを提供することができる。 (3)再構成したCADモデルとCADモデルとの差は大きい。 このギャップを埋める研究を促進するため、我々のベンチマークはhttps://github.com/VarunBurde/reconstruction_pose_benchmark}で公開されています。

Object pose estimation is essential to many industrial applications involving robotic manipulation, navigation, and augmented reality. Current generalizable object pose estimators, i.e., approaches that do not need to be trained per object, rely on accurate 3D models. Predominantly, CAD models are used, which can be hard to obtain in practice. At the same time, it is often possible to acquire images of an object. Naturally, this leads to the question whether 3D models reconstructed from images are sufficient to facilitate accurate object pose estimation. We aim to answer this question by proposing a novel benchmark for measuring the impact of 3D reconstruction quality on pose estimation accuracy. Our benchmark provides calibrated images for object reconstruction registered with the test images of the YCB-V dataset for pose evaluation under the BOP benchmark format. Detailed experiments with multiple state-of-the-art 3D reconstruction and object pose estimation approaches show that the geometry produced by modern reconstruction methods is often sufficient for accurate pose estimation. Our experiments lead to interesting observations: (1) Standard metrics for measuring 3D reconstruction quality are not necessarily indicative of pose estimation accuracy, which shows the need for dedicated benchmarks such as ours. (2) Classical, non-learning-based approaches can perform on par with modern learning-based reconstruction techniques and can even offer a better reconstruction time-pose accuracy tradeoff. (3) There is still a sizable gap between performance with reconstructed and with CAD models. To foster research on closing this gap, our benchmark is publicly available at https://github.com/VarunBurde/reconstruction_pose_benchmark}.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# ガラス状態の2電子量子理論の発見と応用

Discovery and Application of the Two-Electron Quantum Theory of Glass States ( http://arxiv.org/abs/2408.08235v1 )

ライセンス: Link先を確認
Jia-Lin Wu, (参考訳) ガラス状態問題は、1電子理論や原子(分子)を独立粒子として記述した失敗に由来する。 2005年、デ・ジェンヌはガラス転移を簡単な言葉で説明する方法として、既存の全てのガラスモデルと接触する分子のクラスターモデルを構築し、互いに接触する平均場ハードスフィア分子(HSM)の画像を洗練することを提案した。 ここでは、z軸に沿った2つのHSMのクラスター接触が、結合した電子対の16z方向界面励起量子状態の逐次出現であり、2つのHSMが突然0.27%重なり、マジック・インターフェースの2次元ベクトルを形成する。 2つの結合した電子軌道は、2つのHSMを16回、マジックインターフェースに16回、平行反発電子対は5.9987{\deg}の間隔で16回、同期的に2つのHSMを16回脱出した。 これは、ガラス状態におけるボソンピークと高温超伝導における電子対の共通起源である。 したがって、2電子理論における電子の集合的挙動はガラス転移と高温超伝導転移を統一することができる。 本論文は, ガラス転移理論の完全論証であるだけでなく, 高温超伝導理論の新たな解釈であり, 室温超伝導材料探索における新たな理論的視点を提供する。

The glass state problem stems from the failure described in terms of one-electron theory or atoms (molecules) as independent particles. In 2005, de Gennes proposed that the way to explain the glass transition in simple terms was to construct the cluster model of molecules in contact with all existing glass models and to refine the picture of the mean-field hard-sphere molecules (HSMs) in contact with each other. In the process of refining this picture, we discovered the two-electron quantum theory derived from the second solution of de Gennes n = 0, where the clustered contact of the two HSMs along the z-axis is the sequential emergence of the 16 z-direction interface excited quantum states of their coupled electron pair, the two HSMs suddenly overlap by 0.27% to form a magic-interface two-dimensional vector. The two coupled electron orbitals synchronously escaped the two HSMs 16 times, tangent to the magic interface 16 times, and 16 parallel repulsive electron pairs with an interval of 5.9987{\deg}, which is a clustered boson interaction between the two HSMs. This is the common origin of boson peaks in the glass state and electron pairing in the high-temperature superconductivity. Therefore, the collective behavior of electrons in the two-electron theory can unify the glass transition and the high-temperature superconducting transition. This paper is not only a complete theoretical statement on glass transition, but also a new interpretation of the theory of high-temperature superconductivity, which provides a new theoretical perspective in the search for room-temperature superconducting materials.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 2次元等角場理論におけるトポロジカル欠陥線上の積分可能RG流れ

Integrable RG Flows on Topological Defect Lines in 2D Conformal Field Theories ( http://arxiv.org/abs/2408.08241v1 )

ライセンス: Link先を確認
Thiago Silva Tavares, Madhav Sinha, Linnea Grans-Samuelsson, Ananda Roy, Hubert Saleur, (参考訳) 二次元共形場理論(CFT)における位相欠陥線(TDL)は、場の量子論における一般化対称性の標準的な例である。 スピン/アニオン鎖によって提供されるような、これらのTDLの可積分格子化は、解析的および数値的に、それらの性質を調査するための重要な遊び場を提供する。 ここではパラメータ依存の可積分格子モデル群を示し、パラメータが変化するにつれて、所定のCFT内の異なるTDLを実現する。 これらのモデルは、一般的な量子-逆散乱構造に基づいており、スペクトルパラメータの不均一性を含む。 欠陥ハミルトニアンと(欠陥)ライン作用素の両方が閉形式で得られる。 不均一性の変化により、異なるTDL間の再正規化群(例えば、ビラソーロ予備数$(1,s)$と$(s,1)$)は、Bethe-ansatzの異なる側面とab-initio数値技術を用いて研究される。 異方性近藤モデルと非エルミート版との関係を概説する。

Topological defect lines (TDLs) in two-dimensional conformal field theories (CFTs) are standard examples of generalized symmetries in quantum field theory. Integrable lattice incarnations of these TDLs, such as those provided by spin/anyonic chains, provide a crucial playground to investigate their properties, both analytically and numerically. Here, a family of parameter-dependent integrable lattice models is presented, which realize different TDLs in a given CFT as the parameter is varied. These models are based on the general quantum-inverse scattering construction, and involve inhomogeneities of the spectral parameter. Both defect hamiltonians and (defect) line operators are obtained in closed form. By varying the inhomogeneities, renormalization group flows between different TDLs (such as the Verlinde lines associated with the Virasoro primaries $(1,s)$ and $(s,1)$ in diagonal minimal CFTs) are then studied using different aspects of the Bethe-ansatz as well as ab-initio numerical techniques. Relationships with the anisotropic Kondo model as well as its non-Hermitian version are briefly discussed
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 衝突のない高速ロバストなKANを用いたラウンドアウェイにおける対話運転のための強化学習システム

A Conflicts-free, Speed-lossless KAN-based Reinforcement Learning Decision System for Interactive Driving in Roundabouts ( http://arxiv.org/abs/2408.08242v1 )

ライセンス: Link先を確認
Zhihao Lin, Zhen Tian, Qi Zhang, Ziyang Ye, Hanyang Zhuang, Jianglin Lan, (参考訳) 安全と効率性は、特に自律走行車(AV)と人間駆動車両が共存する混成交通の文脈において、ラウンドアバウンドでの自動運転にとって不可欠である。 本稿では,ラウンドアバウンドにおける各種交通流の安全かつ効率的な運転行動の促進を目的とした学習に基づくアルゴリズムを提案する。 提案アルゴリズムは、複雑なマルチサイクルラウンドアバウトにおける安全かつ効率的な運転戦略を効果的に学習するために、深層Q-ラーニングネットワークを用いる。 さらに、Kan(Kolmogorov-Arnoldネットワーク)は、AVの周囲を堅牢かつ正確に学習する能力を高める。 AVが環境と相互作用する際の衝突を避けるために、危険な行動を置き換えるためにアクションインスペクタが統合され、AVの運転効率と安全性を高めるためにルートプランナーが提案される。 さらに、運転動作の安定性と精度を確保するため、モデル予測制御を採用する。 提案システムは,報奨関数のスムーズな収束と各種交通流間のトレーニング曲線の低分散によって証明されるように,安定したトレーニングプロセスを維持しつつ,安全かつ効率的な運転を実現する。 最先端のベンチマークと比較すると,提案アルゴリズムは衝突回数を少なくし,目的地への移動時間を短縮する。

Safety and efficiency are crucial for autonomous driving in roundabouts, especially in the context of mixed traffic where autonomous vehicles (AVs) and human-driven vehicles coexist. This paper introduces a learning-based algorithm tailored to foster safe and efficient driving behaviors across varying levels of traffic flows in roundabouts. The proposed algorithm employs a deep Q-learning network to effectively learn safe and efficient driving strategies in complex multi-vehicle roundabouts. Additionally, a KAN (Kolmogorov-Arnold network) enhances the AVs' ability to learn their surroundings robustly and precisely. An action inspector is integrated to replace dangerous actions to avoid collisions when the AV interacts with the environment, and a route planner is proposed to enhance the driving efficiency and safety of the AVs. Moreover, a model predictive control is adopted to ensure stability and precision of the driving actions. The results show that our proposed system consistently achieves safe and efficient driving whilst maintaining a stable training process, as evidenced by the smooth convergence of the reward function and the low variance in the training curves across various traffic flows. Compared to state-of-the-art benchmarks, the proposed algorithm achieves a lower number of collisions and reduced travel time to destination.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# 絡み合い浄化計画から整合性制約付き絡み合い経路へ

From Entanglement Purification Scheduling to Fidelity-constrained Entanglement Routing ( http://arxiv.org/abs/2408.08243v1 )

ライセンス: Link先を確認
Ziyue Jia, Lin Chen, (参考訳) 最近、破壊的なネットワークパラダイムとして出現し、量子ネットワークは量子粒子を物理的に転送することなく、量子ビットをテレポートする謎の量子絡み合いに依存している。 しかし、量子システムの状態は環境ノイズのために非常に脆弱である。 量子デコヒーレンスと戦うための有望な技術は、絡み合いの浄化である。 その利点を完全に活用するには、(1)絡み合いの経路が与えられた場合、最適な絡み合い浄化スケジュールは何かという2つの基本的な研究課題に答える必要がある。 2) 忠実度制約を受ける最小コストエンドツーエンドの絡み合い経路の計算法 本稿では,両問題に対するアルゴリズム的解法を提案する。 まず, 単一ホップケースに対する最適絡み合わせ浄化スケジューリングアルゴリズムを開発し, 最適条件の定式化により, マルチホップケースにおける \textsc{purify-and-swap} 戦略を解析する。 2つ目の問題として、$\epsilon$-optimal fidelity-constrained path を構成する多項式時間アルゴリズムを設計する。 また,提案アルゴリズムの有効性をシミュレーションにより数値的に検証した。

Recently emerged as a disruptive networking paradigm, quantum networks rely on the mysterious quantum entanglement to teleport qubits without physically transferring quantum particles. However, the state of quantum systems is extremely fragile due to environment noise. A promising technique to combat against quantum decoherence is entanglement purification. To fully exploit its benefit, two fundamental research questions need to be answered: (1) given an entanglement path, what is the optimal entanglement purification schedule? (2) how to compute min-cost end-to-end entanglement paths subject to fidelity constraint? In this paper, we give algorithmic solutions to both questions. For the first question, we develop an optimal entanglement purification scheduling algorithm for the single-hop case and analyze the \textsc{purify-and-swap} strategy in the multi-hop case by establishing the closed-form condition for its optimality. For the second question, we design a polynomial-time algorithm constructing an $\epsilon$-optimal fidelity-constrained path. The effectiveness of our algorithms are also numerically demonstrated by extensive simulations.
翻訳日:2024-08-16 13:26:45 公開日:2024-08-15
# ラプラシアンおよび隣接量子ウォークを用いた重み付きバーベルグラフの探索

Searching Weighted Barbell Graphs with Laplacian and Adjacency Quantum Walks ( http://arxiv.org/abs/2408.08244v1 )

ライセンス: Link先を確認
Jonas Duda, Thomas G. Wong, (参考訳) 離散空間におけるシュル・オーディンガー方程式によって進化する量子粒子は、頂点と辺のグラフ上の連続時間量子ウォークを構成する。 頂点がオラクルでマークされているとき、量子ウォークは量子探索アルゴリズムに影響を及ぼす。 この量子探索アルゴリズムを斜めを持つグラフ上での以前の研究により、斜め間の縁を重み付けすることで、斜め間の確率の移動がマークされた頂点に到達できることが示されている。 本稿では,同じ大きさの2つの傾斜角を1つの重み付きエッジ/ブリッジで結合した重み付きバーベルグラフの探索を解析することにより,この方法の最も制限的な形態を探索する。 このグラフは一般に不規則であるため、グラフラプラシアンまたは隣接行列によって支配される量子ウォークは異なることができる。 ラプラシアの量子ウォークの挙動は、橋の重みがあっても変化しないので、単一の橋は歩行に影響を与えるには制限的すぎる。 同様に、隣接量子ウォークの振舞いは、ほとんどの重みで変化しないが、重みが斜めの大きさに等しい場合、その重みがマークされた頂点を含む斜めに集まり、各段ごとに異なる重みを持つ2段階のアルゴリズムを利用すると、成功確率はバーベルグラフのサイズによらず0.5から0.996に上昇する。

A quantum particle evolving by Schr\"odinger's equation in discrete space constitutes a continuous-time quantum walk on a graph of vertices and edges. When a vertex is marked by an oracle, the quantum walk effects a quantum search algorithm. Previous investigations of this quantum search algorithm on graphs with cliques have shown that the edges between the cliques can be weighted to enhance the movement of probability between the cliques to reach the marked vertex. In this paper, we explore the most restrictive form of this by analyzing search on a weighted barbell graph that consists of two cliques of the same size joined by a single weighted edge/bridge. This graph is generally irregular, so quantum walks governed by the graph Laplacian or by the adjacency matrix can differ. We show that the Laplacian quantum walk's behavior does not change, no matter the weight of the bridge, and so the single bridge is too restrictive to affect the walk. Similarly, the adjacency quantum walk's behavior is unchanged for most weights, but when the weight equals the size of a clique, the probability does collect at the clique containing the marked vertex, and utilizing a two-stage algorithm with different weights for each stage, the success probability is boosted from 0.5 to 0.996, independent of the size of the barbell graph.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 知識グラフ埋め込みのための等角化解集合予測

Conformalized Answer Set Prediction for Knowledge Graph Embedding ( http://arxiv.org/abs/2408.08248v1 )

ライセンス: Link先を確認
Yuqicheng Zhu, Nico Potyka, Jiarong Pan, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab, (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)に機械学習手法を適用し、類似性や類似性に基づく非古典的推論機能を提供する。 学習されたKG埋め込みは、典型的には全ての潜在的な答えをランク付けすることでクエリーに答えるのに使用されるが、ランク付けはしばしば有意義な確率論的解釈を欠いている。 この制限は、医学のような高用量領域にKGE法を適用する上での課題を提起し、証明不可能な答えと区別することを困難にしている。 本稿では,確率的保証を含む正解集合を生成可能な共形予測理論を適用することで,この問題に対処する。 本稿では,リンク予測タスクに対して,共形予測を用いてそのような解集合を生成する方法について説明する。 6つの代表的KGE法による4つのベンチマークデータセットに対する実験的な評価により,生成した回答集合が共形予測理論によって与えられる確率的保証を満たすことが検証された。 また、生成した回答セットは、しばしば意味のあるサイズであり、クエリの難易度に関して、そのサイズが順応することを示した。

Knowledge graph embeddings (KGE) apply machine learning methods on knowledge graphs (KGs) to provide non-classical reasoning capabilities based on similarities and analogies. The learned KG embeddings are typically used to answer queries by ranking all potential answers, but rankings often lack a meaningful probabilistic interpretation - lower-ranked answers do not necessarily have a lower probability of being true. This limitation makes it difficult to distinguish plausible from implausible answers, posing challenges for the application of KGE methods in high-stakes domains like medicine. We address this issue by applying the theory of conformal prediction that allows generating answer sets, which contain the correct answer with probabilistic guarantees. We explain how conformal prediction can be used to generate such answer sets for link prediction tasks. Our empirical evaluation on four benchmark datasets using six representative KGE methods validates that the generated answer sets satisfy the probabilistic guarantees given by the theory of conformal prediction. We also demonstrate that the generated answer sets often have a sensible size and that the size adapts well with respect to the difficulty of the query.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 散逸支援作用素進化を伴う流体力学的交叉の探索

Probing hydrodynamic crossovers with dissipation-assisted operator evolution ( http://arxiv.org/abs/2408.08249v1 )

ライセンス: Link先を確認
N. S. Srivatsa, Oliver Lunt, Tibor Rakovszky, Curt von Keyserlingk, (参考訳) 人工散逸法を用いて,U(1)電荷密度の変化に対する一般相互作用格子モデルにおける拡散の出現をグラフ化した。 拡散定数が低密度で$D \propto 1/\rho$ となるという直感的な結果を見出した。 BBGKY階層の考え方では,非局所演算子を完全に破棄するのではなく,アンサンブル平均で効果的に近似する。 これにより、作用素の絡み合いエントロピーが大幅に減少する一方、すべての密度スケールにわたる拡散定数の正確な予測が可能である。 さらに、輸送クロスオーバーの最小限のモデルを構築し、我々の数値データとよく一致する電荷相関関数を得る。 本研究は, 保存密度の流体力学的相関関数に対する支配的寄与を明らかにし, 低温輸送への一般化のガイドとなる。

Using artificial dissipation to tame entanglement growth, we chart the emergence of diffusion in a generic interacting lattice model for varying U(1) charge densities. We follow the crossover from ballistic to diffusive transport above a scale set by the scattering length, finding the intuitive result that the diffusion constant scales as $D \propto 1/\rho$ at low densities $\rho$. Our numerical approach generalizes the Dissipation-Assisted Operator Evolution (DAOE) algorithm: in the spirit of the BBGKY hierarchy, we effectively approximate non-local operators by their ensemble averages, rather than discarding them entirely. This greatly reduces the operator entanglement entropy, while still giving accurate predictions for diffusion constants across all density scales. We further construct a minimal model for the transport crossover, yielding charge correlation functions which agree well with our numerical data. Our results clarify the dominant contributions to hydrodynamic correlation functions of conserved densities, and serve as a guide for generalizations to low temperature transport.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 組込みシステムのためのコンピュータビジョンモデル圧縮技術:サーベイ

Computer Vision Model Compression Techniques for Embedded Systems: A Survey ( http://arxiv.org/abs/2408.08250v1 )

ライセンス: Link先を確認
Alexandre Lopes, Fernando Pereira dos Santos, Diulhio de Oliveira, Mauricio Schiezaro, Helio Pedrini, (参考訳) ディープニューラルネットワークは、ほとんどのコンピュータビジョン問題の最先端を一貫して表している。 これらのシナリオでは、より大規模で複雑なモデルは、特に多くの代表データでトレーニングされた場合、より小さなアーキテクチャよりも優れたパフォーマンスを示している。 ビジョントランスフォーマー(ViT)ベースのアーキテクチャと高度な畳み込みニューラルネットワーク(CNN)の採用により、主要なバックボーンアーキテクチャのパラメータの総数は2012年の62Mパラメータから、2024年にはAIM-7Bで7Bパラメータに増加した。 その結果、深層アーキテクチャのデプロイは、特に組み込みシステムにおいて、処理と実行時の制約のある環境での課題に直面します。 本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では, 各種組込みデバイスにおいて, 圧縮サブ領域の特性を示し, 異なるアプローチを比較し, 最適技術の選択方法, 予測バリエーションについて考察する。 また、各サブ領域における初期実装課題を克服し、モデル圧縮のトレンドを提示する上で、研究者や新しい実践者を支援するためのコードを共有します。 圧縮モデルのケーススタディは \href{https://github.com/venturusbr/cv-model-compression}{https://github.com/venturusbr/cv-model-compression} で見ることができる。

Deep neural networks have consistently represented the state of the art in most computer vision problems. In these scenarios, larger and more complex models have demonstrated superior performance to smaller architectures, especially when trained with plenty of representative data. With the recent adoption of Vision Transformer (ViT) based architectures and advanced Convolutional Neural Networks (CNNs), the total number of parameters of leading backbone architectures increased from 62M parameters in 2012 with AlexNet to 7B parameters in 2024 with AIM-7B. Consequently, deploying such deep architectures faces challenges in environments with processing and runtime constraints, particularly in embedded systems. This paper covers the main model compression techniques applied for computer vision tasks, enabling modern models to be used in embedded systems. We present the characteristics of compression subareas, compare different approaches, and discuss how to choose the best technique and expected variations when analyzing it on various embedded devices. We also share codes to assist researchers and new practitioners in overcoming initial implementation challenges for each subarea and present trends for Model Compression. Case studies for compression models are available at \href{https://github.com/venturusbr/cv-model-compression}{https://github.com/venturusbr/cv-model-compression}.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# ソフトな値に基づく復号化を伴う連続・離散拡散モデルにおける導出自由誘導

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding ( http://arxiv.org/abs/2408.08252v1 )

ライセンス: Link先を確認
Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara, (参考訳) 拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。 しかし、単に自然である設計を生成するのではなく、これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目的としていることが多い。 この目的を達成するための既存の方法は、しばしば ``differentiable' プロキシモデル (\textit{e g }, 分類器ガイダンスまたはDPS) や、計算に高価な拡散モデルの微調整 (\textit{e g }, 分類器なしガイダンス、RLベースの微調整) を必要とする。 本研究では,これらの課題に対処するための新しい手法を提案する。 提案アルゴリズムは,中間ノイズ状態が将来高い報酬をもたらすか,あるいは事前学習した拡散モデルの標準推論手順に先立って,ソフト値関数を統合する反復サンプリング手法である。 特に、本手法は微調整生成モデルを避け、微分可能なモデルを構築する必要をなくす。 これにより、(1)多くの科学的領域で一般的に使われている非微分可能特徴/回帰フィードバックを直接利用し、(2)近年の離散拡散モデルに原則的に適用することができる。 最後に、画像生成、分子生成、DNA/RNA配列生成など、複数の領域にわたるアルゴリズムの有効性を示す。 コードは \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} で公開されている。

Diffusion models excel at capturing the natural design spaces of images, molecules, DNA, RNA, and protein sequences. However, rather than merely generating designs that are natural, we often aim to optimize downstream reward functions while preserving the naturalness of these design spaces. Existing methods for achieving this goal often require ``differentiable'' proxy models (\textit{e.g.}, classifier guidance or DPS) or involve computationally expensive fine-tuning of diffusion models (\textit{e.g.}, classifier-free guidance, RL-based fine-tuning). In our work, we propose a new method to address these challenges. Our algorithm is an iterative sampling method that integrates soft value functions, which looks ahead to how intermediate noisy states lead to high rewards in the future, into the standard inference procedure of pre-trained diffusion models. Notably, our approach avoids fine-tuning generative models and eliminates the need to construct differentiable models. This enables us to (1) directly utilize non-differentiable features/reward feedback, commonly used in many scientific domains, and (2) apply our method to recent discrete diffusion models in a principled way. Finally, we demonstrate the effectiveness of our algorithm across several domains, including image generation, molecule generation, and DNA/RNA sequence generation. The code is available at \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD}.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# Snuffy: 効率的な全スライド画像分類器

Snuffy: Efficient Whole Slide Image Classifier ( http://arxiv.org/abs/2408.08258v1 )

ライセンス: Link先を確認
Hossein Jafarinia, Alireza Alipanah, Danial Hamdi, Saeed Razavi, Nahal Mirzaie, Mohammad Hossein Rohban, (参考訳) デジタル病理学におけるMIL(Multiple Case Learning)を用いたWSI(Whole Slide Image)分類は、重要な計算課題に直面している。 現在の手法は主に、長い訓練期間と相当な計算資源を必要とする満足なパフォーマンスのために広範な自己教師付き学習(SSL)に依存している。 同時に、事前トレーニングは、自然画像からWSIへのドメインシフトによるパフォーマンスに影響を与えない。 このアーキテクチャはスパーストランスフォーマーをベースとした新しいMILプーリング手法であり,性能損失を限定的な事前トレーニングで軽減し,競争的オプションとして連続的な数発の事前トレーニングを可能にする。 我々の空間パターンは病理学に特化しており、理論上はスパース変圧器の層数に最も密接な確率的シャープを持つ普遍近似器であることが証明されている。 Snuffy が CAMELYON16 および TCGA Lung 癌データセットに対して有効であることを示す。 コードは \url{https://github.com/jafarinia/snuffy} で公開されている。

Whole Slide Image (WSI) classification with multiple instance learning (MIL) in digital pathology faces significant computational challenges. Current methods mostly rely on extensive self-supervised learning (SSL) for satisfactory performance, requiring long training periods and considerable computational resources. At the same time, no pre-training affects performance due to domain shifts from natural images to WSIs. We introduce \textbf{\textit{Snuffy}} architecture, a novel MIL-pooling method based on sparse transformers that mitigates performance loss with limited pre-training and enables continual few-shot pre-training as a competitive option. Our sparsity pattern is tailored for pathology and is theoretically proven to be a universal approximator with the tightest probabilistic sharp bound on the number of layers for sparse transformers, to date. We demonstrate Snuffy's effectiveness on CAMELYON16 and TCGA Lung cancer datasets, achieving superior WSI and patch-level accuracies. The code is available on \url{https://github.com/jafarinia/snuffy}.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# GSVD-NMF:非負行列分解における欠落の特徴の復元

GSVD-NMF: Recovering Missing Features in Non-negative Matrix Factorization ( http://arxiv.org/abs/2408.08260v1 )

ライセンス: Link先を確認
Youdong Guo, Timothy E. Holy, (参考訳) 非負行列分解(NMF)は信号処理において重要なツールであり、混合音源を成分に分離するために広く用いられている。 しかし、NMF は NP-hard であり、したがって理想的な分解の発見に失敗する可能性がある。 未完成なNMFから欠落した成分を回収するために,予備的なNMF結果と元の行列のSVDとの間の一般化特異値分解(GSVD)に基づく新しい成分を提案するGSVD-NMFを提案する。 GSVD-NMFは、未完成なNMFから欠落した特徴を回復し、NMFがより良い局所最適を達成するのに役立つことがシミュレーションおよび実験により示されている。

Non-negative matrix factorization (NMF) is an important tool in signal processing and widely used to separate mixed sources into their components. However, NMF is NP-hard and thus may fail to discover the ideal factorization; moreover, the number of components may not be known in advance and thus features may be missed or incompletely separated. To recover missing components from under-complete NMF, we introduce GSVD-NMF, which proposes new components based on the generalized singular value decomposition (GSVD) between preliminary NMF results and the SVD of the original matrix. Simulation and experimental results demonstrate that GSVD-NMF often recovers missing features from under-complete NMF and helps NMF achieve better local optima.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# mhGPT:メンタルヘルステキスト分析のための軽量生成前訓練トランス

mhGPT: A Lightweight Generative Pre-Trained Transformer for Mental Health Text Analysis ( http://arxiv.org/abs/2408.08261v1 )

ライセンス: Link先を確認
Dae-young Kim, Rebecca Hwa, Muhammad Mahbubur Rahman, (参考訳) 本稿では、メンタルヘルス関連ソーシャルメディアとPubMedの記事に基づいて訓練された、軽量な生成事前学習トランスフォーマであるmhGPTを紹介する。 特定のメンタルヘルスタスクのために微調整されたmhGPTは、MentaLLaMAやGemmaのような最先端のモデルと比較して、限られたハードウェア制約の下で評価された。 わずか98億のパラメータしか持たず、データセットの5%しか使用していないにもかかわらず、mhGPTはより大きなモデルよりも優れており、さらに多くのデータでトレーニングされたモデルのパフォーマンスと一致した。 主な貢献は、多様なメンタルヘルスデータの統合、カスタムトークンライザの作成、低リソース設定のための小さなアーキテクチャの最適化である。 この研究は、AIによるメンタルヘルス、特に限られたコンピューティング能力を持つ分野を前進させる可能性がある。

This paper introduces mhGPT, a lightweight generative pre-trained transformer trained on mental health-related social media and PubMed articles. Fine-tuned for specific mental health tasks, mhGPT was evaluated under limited hardware constraints and compared with state-of-the-art models like MentaLLaMA and Gemma. Despite having only 1.98 billion parameters and using just 5% of the dataset, mhGPT outperformed larger models and matched the performance of models trained on significantly more data. The key contributions include integrating diverse mental health data, creating a custom tokenizer, and optimizing a smaller architecture for low-resource settings. This research could advance AI-driven mental health care, especially in areas with limited computing power.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# ラムプパラメータ血行モデルにおける償却推論と識別可能性解析のためのInVAErtネットワーク

InVAErt networks for amortized inference and identifiability analysis of lumped parameter hemodynamic models ( http://arxiv.org/abs/2408.08264v1 )

ライセンス: Link先を確認
Guoxiang Grayson Tong, Carlos A. Sing Long, Daniele E. Schiavazzi, (参考訳) 心血管モデルパラメータをEHR(Electronic Health Record)から推定することは、主に識別可能性の欠如により大きな課題となる。 構造的非識別性は、パラメータの空間内の多様体が共通の出力にマッピングされるときに生じるが、実用的な非識別性は、限られたデータ、モデル不特定性、ノイズの破損によって生じる。 結果として生じる逆問題に対処するために、最適化ベースのあるいはベイズ推論アプローチは典型的には正規化を使い、複数の解を見つける可能性を制限する。 本研究では、ニューラルネットワークをベースとしたデータ駆動型フレームワークであるinVAErtネットワークを用いて、剛体力学系のディジタル双対解析を強化する。 InVAErtネットワークの柔軟性と有効性について,合成データから欠落成分を含む実データへの6成分ループ型パラメータ血行動態モデルの生理的逆転の文脈で示す。

Estimation of cardiovascular model parameters from electronic health records (EHR) poses a significant challenge primarily due to lack of identifiability. Structural non-identifiability arises when a manifold in the space of parameters is mapped to a common output, while practical non-identifiability can result due to limited data, model misspecification, or noise corruption. To address the resulting ill-posed inverse problem, optimization-based or Bayesian inference approaches typically use regularization, thereby limiting the possibility of discovering multiple solutions. In this study, we use inVAErt networks, a neural network-based, data-driven framework for enhanced digital twin analysis of stiff dynamical systems. We demonstrate the flexibility and effectiveness of inVAErt networks in the context of physiological inversion of a six-compartment lumped parameter hemodynamic model from synthetic data to real data with missing components.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# パウリ指数の定数深さ実装について

On the Constant Depth Implementation of Pauli Exponentials ( http://arxiv.org/abs/2408.08265v1 )

ライセンス: Link先を確認
Ioana Moflic, Alexandru Paler, (参考訳) 任意の重み $Z\otimes \ldots \otimes Z$指数を$\mathcal{O}(n)$ ancillae と 2体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。 結果として、同様の方法は任意のパウリ指数に対して作用する。 我々の分解は近傍の線形アーキテクチャと互換性がある。 量子ビットリサイクルの恩恵を受ける回路に新しい回路書き換え規則を導入し,その正しさを証明した。 新規性として、この分解はフォールトトレラント格子演算の実装に直ちに適用でき、二体相互作用のみを用いて任意の安定化回路を表現し、VQEのようなNISQ計算の深さを減らすことができる。

We decompose arbitrary weight $Z\otimes \ldots \otimes Z$ exponentials into circuits of constant depth using $\mathcal{O}(n)$ ancillae and two-body XX and ZZ interactions. Consequenty, a similar method works for arbitrary Pauli exponentials. Our decomposition is compatible with linear nearest neighbour architectures. We prove its correctness after introducing novel circuit rewrite rules for circuits which benefit from qubit recycling. As a novelty, the decomposition is immediately applicable for implementing fault-tolerant lattice surgery computations, expressing arbitrary stabilizer circuits using only two-body interactions, as well as reducing the depth of NISQ computations, such as VQE.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# ハイトレーン:BEVのハイトマップが3Dレーン検出をガイド

HeightLane: BEV Heightmap guided 3D Lane Detection ( http://arxiv.org/abs/2408.08270v1 )

ライセンス: Link先を確認
Chaesong Park, Eunbin Seo, Jongwoo Lim, (参考訳) 単分子画像からの正確な3次元車線検出は、深さのあいまいさと不完全な地盤モデリングによる重要な課題を示す。 地上をモデル化する以前の試みは、しばしば自由度が制限された平面的な地上仮定を使用しており、様々な斜面を持つ複雑な道路環境には適さない。 本研究は,マルチスロープ仮定に基づいてアンカーを作成することにより,単眼画像から高さマップを予測する革新的な手法であるHeightLaneを紹介する。 このアプローチは、地上の詳細な正確な表現を提供する。 HeightLaneは、変形可能な注意に基づく空間特徴変換フレームワークとともに、予測された高さマップを用いて、2D画像特徴を3D鳥眼視(BEV)特徴に効率よく変換し、空間理解と車線構造認識を強化する。 さらに、ハイトマップは、BEV特徴の位置符号化に使用され、空間的精度をさらに向上する。 この明示的なビュー変換は、正面視知覚と空間的精度の高いBEV表現のギャップを埋め、検出性能を著しく改善する。 元のOpenLaneデータセットにおけるGTの高さマップの欠如に対処するため、Waymoデータセットを活用してLiDARデータを蓄積し、各シーンの乾燥可能な領域の高さマップを生成する。 GTハイトマップは、モノクロ画像からハイトマップ抽出モジュールをトレーニングするために使用される。 OpenLaneの検証セットに関する大規模な実験は、HeightLaneがFスコアの観点から最先端のパフォーマンスを実現し、現実世界のアプリケーションにおけるその可能性を強調していることを示している。

Accurate 3D lane detection from monocular images presents significant challenges due to depth ambiguity and imperfect ground modeling. Previous attempts to model the ground have often used a planar ground assumption with limited degrees of freedom, making them unsuitable for complex road environments with varying slopes. Our study introduces HeightLane, an innovative method that predicts a height map from monocular images by creating anchors based on a multi-slope assumption. This approach provides a detailed and accurate representation of the ground. HeightLane employs the predicted heightmap along with a deformable attention-based spatial feature transform framework to efficiently convert 2D image features into 3D bird's eye view (BEV) features, enhancing spatial understanding and lane structure recognition. Additionally, the heightmap is used for the positional encoding of BEV features, further improving their spatial accuracy. This explicit view transformation bridges the gap between front-view perceptions and spatially accurate BEV representations, significantly improving detection performance. To address the lack of the necessary ground truth (GT) height map in the original OpenLane dataset, we leverage the Waymo dataset and accumulate its LiDAR data to generate a height map for the drivable area of each scene. The GT heightmaps are used to train the heightmap extraction module from monocular images. Extensive experiments on the OpenLane validation set show that HeightLane achieves state-of-the-art performance in terms of F-score, highlighting its potential in real-world applications.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 知識力とは何か : 戦略的相互作用から学ぶことの可能性について

Is Knowledge Power? On the (Im)possibility of Learning from Strategic Interaction ( http://arxiv.org/abs/2408.08272v1 )

ライセンス: Link先を確認
Nivasini Ananthakrishnan, Nika Haghtalab, Chara Podimata, Kunhe Yang, (参考訳) 戦略的な環境で学ぶとき、重要な疑問は、エージェントが自分の好みに対する不確実性を克服して、不確実性のない結果を達成することができるかどうかである。 これらは相互の相互作用によってのみ可能でしょうか? 本稿では, エージェントがStackelbergの最適戦略の価値を得る能力に焦点をあて, 情報非対称性の影響について検討する。 ゲームの歴史と知識を考慮に入れた学習アルゴリズムに基づいて,プレイヤーの行動が決定される,完全に戦略的な環境下での反復的なインタラクションについて検討する。 プレイヤーがこれらのアルゴリズムを行動として選択するメタゲームの純粋ナッシュ均衡(PNE)について検討する。 1人のプレイヤーがゲームについて完全な知識を持っている場合、初期情報ギャップは持続することを示す。 つまり、情報提供者がスタックルバーグの価値を達成するPNEは常に存在するが、メタゲームのPNEが一部の情報提供者がスタックルバーグの価値を達成することを許さないゲームがある。 一方、両プレイヤーがゲームについて何らかの不確実性から始めると、情報の品質だけでは、スタックルバーグの価値をどのエージェントが達成できるかを判断できない。 この場合、情報非対称性の概念はニュアンス化され、ゲームの構造に依存する。 総じて, 戦略的相互作用の繰り返しだけでは, Stackelberg の値を持つ非インフォームプレイヤーの学習を効果的に行うことができないことが示唆された。

When learning in strategic environments, a key question is whether agents can overcome uncertainty about their preferences to achieve outcomes they could have achieved absent any uncertainty. Can they do this solely through interactions with each other? We focus this question on the ability of agents to attain the value of their Stackelberg optimal strategy and study the impact of information asymmetry. We study repeated interactions in fully strategic environments where players' actions are decided based on learning algorithms that take into account their observed histories and knowledge of the game. We study the pure Nash equilibria (PNE) of a meta-game where players choose these algorithms as their actions. We demonstrate that if one player has perfect knowledge about the game, then any initial informational gap persists. That is, while there is always a PNE in which the informed agent achieves her Stackelberg value, there is a game where no PNE of the meta-game allows the partially informed player to achieve her Stackelberg value. On the other hand, if both players start with some uncertainty about the game, the quality of information alone does not determine which agent can achieve her Stackelberg value. In this case, the concept of information asymmetry becomes nuanced and depends on the game's structure. Overall, our findings suggest that repeated strategic interactions alone cannot facilitate learning effectively enough to earn an uninformed player her Stackelberg value.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# BAM! まさにそのように - 専門家の混ざり合わせのためのシンプルで効率的なパラメータアップサイクル

BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts ( http://arxiv.org/abs/2408.08274v1 )

ライセンス: Link先を確認
Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli, (参考訳) Mixture of Experts (MoE)フレームワークは、高密度モデルよりも優れたパフォーマンスのため、大規模言語モデルの一般的なアーキテクチャとなっている。 しかし、大規模な体制でゼロからMoEを訓練することは違法に高価である。 既存の方法は、複数の密集したエキスパートモデルを個別にトレーニングし、それらをMoEを初期化することで、これを緩和する。 これは専門家のフィードフォワードネットワーク(FFN)を使用して、他のパラメータをマージしながらMoEの専門家を初期化する。 しかし、この手法は高密度モデルパラメータの再利用をFFN層のみに制限し、それによってこれらのモデルをMoEに"アップサイクル"する場合の利点を制約する。 本稿では,BAM(Branch-Attend-Mix)を提案する。 BAMは、FFNを使ってMoE層を初期化するだけでなく、専門家の注意パラメータをソフトなMixture of Attention (MoA)層に初期化する。 注意パラメータを上昇させる2つの方法を探る。 1) 最高のモデル性能のためのすべての注意パラメータを含む密集モデルから注意専門家を分離する。 2) 推論効率を向上させるために、すべての専門家間でキーとバリューパラメータを共有する。 効率をさらに向上するため、我々はMoEsに並列アテンショントランスフォーマーアーキテクチャを導入し、アテンションの専門家とFFNの専門家を並列に計算できるようにした。 5億9000万から20億のパラメータのシードモデルに対する実験により、BAMは同じ計算とデータ制約の中で、複雑度と下流のタスクパフォーマンスの両方においてベースラインを超えていることが示された。

The Mixture of Experts (MoE) framework has become a popular architecture for large language models due to its superior performance over dense models. However, training MoEs from scratch in a large-scale regime is prohibitively expensive. Existing methods mitigate this by pre-training multiple dense expert models independently and using them to initialize an MoE. This is done by using experts' feed-forward network (FFN) to initialize the MoE's experts while merging other parameters. However, this method limits the reuse of dense model parameters to only the FFN layers, thereby constraining the advantages when "upcycling" these models into MoEs. We propose BAM (Branch-Attend-Mix), a simple yet effective method that addresses this shortcoming. BAM makes full use of specialized dense models by not only using their FFN to initialize the MoE layers but also leveraging experts' attention parameters fully by initializing them into a soft-variant of Mixture of Attention (MoA) layers. We explore two methods for upcycling attention parameters: 1) initializing separate attention experts from dense models including all attention parameters for the best model performance; and 2) sharing key and value parameters across all experts to facilitate for better inference efficiency. To further improve efficiency, we adopt a parallel attention transformer architecture to MoEs, which allows the attention experts and FFN experts to be computed concurrently. Our experiments on seed models ranging from 590 million to 2 billion parameters demonstrate that BAM surpasses baselines in both perplexity and downstream task performance, within the same computational and data constraints.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 欠陥のある自由フェルミオン鎖に対するハミルトニアンの絡み合い

Entanglement Hamiltonians for Free Fermion Chains with Defects ( http://arxiv.org/abs/2408.08281v1 )

ライセンス: Link先を確認
Gavin Rockwood, (参考訳) 欠陥の存在下での周期的境界条件を持つ自由フェルミオン臨界逆場イジングモデルの基底状態の半系絡みハミルトニアンについて検討する。 一般に、これらの欠陥は非局所項をハミルトニアンの絡み合いに導入し、最も大きいものは距離で崩壊する欠陥にまたがるカップリングである。 また、ハミルトニアンの絡み合いは、欠陥が部分系の外にあるとしても、欠陥を知っていることが示されている。 また、サブシステムの境界に欠陥が存在する場合、特に、サブシステムに導かれる結合が切断されるときの挙動について検討する。 最後に, 反周期的欠陥と双対性欠陥の非局所的挙動について検討し, どちらもゼロモードを導入した。

We study the half system entanglement Hamiltonians of the ground state of free fermion critical transverse field Ising model with periodic boundary conditions in the presence of defects. In general, we see that these defects introduce non-local terms into the entanglement Hamiltonian with the largest being couplings across the defect that decay with distance. It is also shown that the entanglement Hamiltonian does know of the defect even if the defect is outside of the subsystem. We also discuss what happens when defects are on the boundaries of the subsystem, and in particular, we investigate the behavior as the bond leading into the subsystem is cut. Finally, we examine the non-local behavior of the antiperiodic defect and duality defect, both of which introduce zero modes.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 接地言語モデルによるヒューマノイドロコマニピュレーションの自律行動計画

Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model ( http://arxiv.org/abs/2408.08282v1 )

ライセンス: Link先を確認
Jin Wang, Arturo Laurenzi, Nikos Tsagarakis, (参考訳) 非構造環境における自律的なロコ操作を実現するためのヒューマノイドロボットの導入は、インボディードインテリジェンスを達成する上で極めて重要かつ困難である。 これには、タスク実行とハイレベルプランニングのずれを知覚するためにマルチモーダルを使用しながら、長い水平タスクで行動や行動を計画できるロボットが含まれる。 近年,大規模言語モデル (LLM) は,ロボット制御タスクによる意味情報の理解と処理を行う強力な計画と推論能力,およびマルチモーダル入力に対する分析的判断と意思決定の有用性を実証している。 そこで本研究では,LLMのパワーをヒューマノイド・ロコ操作に活用するために,ロボットがタスク実行中に発生する可能性のある障害を観察・修正しながら,与えられたテキスト命令下での動作や低レベル実行を自律的に計画できる言語モデルベースのフレームワークを提案する。 作業計画のためのロボット「行動」と「感覚」行動ライブラリを製作し,CENTAUROロボットを用いて実環境と実環境の両方で移動操作タスクと実験を行い,自律的な行動計画を伴うロボット作業におけるこのアプローチの有効性と適用性を検証した。

Enabling humanoid robots to perform autonomously loco-manipulation in unstructured environments is crucial and highly challenging for achieving embodied intelligence. This involves robots being able to plan their actions and behaviors in long-horizon tasks while using multi-modality to perceive deviations between task execution and high-level planning. Recently, large language models (LLMs) have demonstrated powerful planning and reasoning capabilities for comprehension and processing of semantic information through robot control tasks, as well as the usability of analytical judgment and decision-making for multi-modal inputs. To leverage the power of LLMs towards humanoid loco-manipulation, we propose a novel language-model based framework that enables robots to autonomously plan behaviors and low-level execution under given textual instructions, while observing and correcting failures that may occur during task execution. To systematically evaluate this framework in grounding LLMs, we created the robot 'action' and 'sensing' behavior library for task planning, and conducted mobile manipulation tasks and experiments in both simulated and real environments using the CENTAURO robot, and verified the effectiveness and application of this approach in robotic tasks with autonomous behavioral planning.
翻訳日:2024-08-16 13:16:25 公開日:2024-08-15
# 高忠実度量子演算のためのメモリ最適化立方体スプライン

Memory-optimised Cubic Splines for High-fidelity Quantum Operations ( http://arxiv.org/abs/2408.08283v1 )

ライセンス: Link先を確認
Jan Ole Ernst, Jan Snoeijs, Mitchell Peaks, Jochen Wolf, (参考訳) 高周波パルスは量子ビットの制御や量子コンピュータでの演算の実行に広く使われている。 時間依存振幅、位相、周波数などの鍵パルスパラメータを調整できる能力は、最大ゲートの忠実度を達成し、誤差を軽減するために不可欠である。 システム規模が大きくなるにつれて、制御電子処理の大部分がキュービットに近づくようになり、高速なフィードバックを必要とする操作の統合とレイテンシの最小化が図られる。 これにより、制御エレクトロニクスのメモリで利用可能な空間を制限し、高サンプリングレートで時間分解パルスパラメータをロードする。 立方体スプライン補間は、パルスを立方体多項式のセグメントに分割する強力で広範な技術である。 FPGAに高サンプリングパルス出力をロードするために、2段階の曲線フィッティングプロセスと追加の対称性演算を用いて、この戦略を最適化した実装を示す。 これにより、メモリフットプリントのトレードオフに対して良好な精度が得られる。 中性原子デバイス上での単一量子ビット集団移動と原子輸送をシミュレートすることにより、低メモリ要求で高忠実性を実現することができることを示す。 これは、メモリが限られたリソースである環境で、キュービットとゲート操作の数を増やすのに役立ちます。

Radio-frequency pulses are widespread for the control of quantum bits and the execution of operations in quantum computers. The ability to tune key pulse parameters such as time-dependent amplitude, phase, and frequency is essential to achieve maximal gate fidelity and mitigate errors. As systems scale, a larger fraction of the control electronic processing will move closer to the qubits, to enhance integration and minimise latency in operations requiring fast feedback. This will constrain the space available in the memory of the control electronics to load time-resolved pulse parameters at high sampling rates. Cubic spline interpolation is a powerful and widespread technique that divides the pulse into segments of cubic polynomials. We show an optimised implementation of this strategy, using a two-stage curve fitting process and additional symmetry operations to load a high-sampling pulse output on an FPGA. This results in a favourable accuracy versus memory footprint trade-off. By simulating single-qubit population transfer and atom transport on a neutral atom device, we show that we can achieve high fidelities with low memory requirements. This is instrumental for scaling up the number of qubits and gate operations in environments where memory is a limited resource.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# マルチタスク機械学習を用いた日常的な1次元NMRスペクトルからの高精度かつ効率的な構造推定

Accurate and efficient structure elucidation from routine one-dimensional NMR spectra using multitask machine learning ( http://arxiv.org/abs/2408.08284v1 )

ライセンス: Link先を確認
Frank Hu, Michael S. Chen, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland, (参考訳) 分子構造の迅速な決定は、多くの化学分野にわたるワークフローを大幅に加速させることができる。 しかし、最もアクセスしやすいデータである1次元(1D)NMRスペクトルのみを用いる構造は、構成原子の数が増えるにつれて可能な分子の数が爆発的に増加するため、非常に難しい問題である。 本稿では,その1D 1Hおよび/または13C NMRスペクトルのみに基づく未知化合物の分子構造(形式と接続性)を予測するマルチタスク機械学習フレームワークを提案する。 まず,多くの分子断片を分子構造に組み立てる,化学者が伝統的に行ってきた課題を効率的に解くために,トランスフォーマーアーキテクチャを構築する方法を示す。 この機能を畳み込みニューラルネットワーク(CNN)に統合することで、高速かつ高精度なスペクトルから構造を予測するエンドツーエンドモデルを構築します。 最大19個の重原子(非水素原子)を持つ分子に対して、この枠組みの有効性を実証する。 分子式のような先行的な化学知識を頼らずに、我々の手法は最初の15回の予測で正確な分子の69.6%を予測し、探索空間を最大11桁まで減少させることを示した。

Rapid determination of molecular structures can greatly accelerate workflows across many chemical disciplines. However, elucidating structure using only one-dimensional (1D) NMR spectra, the most readily accessible data, remains an extremely challenging problem because of the combinatorial explosion of the number of possible molecules as the number of constituent atoms is increased. Here, we introduce a multitask machine learning framework that predicts the molecular structure (formula and connectivity) of an unknown compound solely based on its 1D 1H and/or 13C NMR spectra. First, we show how a transformer architecture can be constructed to efficiently solve the task, traditionally performed by chemists, of assembling large numbers of molecular fragments into molecular structures. Integrating this capability with a convolutional neural network (CNN), we build an end-to-end model for predicting structure from spectra that is fast and accurate. We demonstrate the effectiveness of this framework on molecules with up to 19 heavy (non-hydrogen) atoms, a size for which there are trillions of possible structures. Without relying on any prior chemical knowledge such as the molecular formula, we show that our approach predicts the exact molecule 69.6% of the time within the first 15 predictions, reducing the search space by up to 11 orders of magnitude.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 2層狭帯域における勾配流れの閉形式記述の欠如

Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks ( http://arxiv.org/abs/2408.08286v1 )

ライセンス: Link先を確認
Yeachan Park, (参考訳) 機械学習の分野では、ニューラルネットワークの複雑なトレーニングダイナミクスを理解することが大きな課題となっている。 本稿では,ニューラルネットワークのトレーニング力学,特に一般閉形式解でこれらの力学が表現できるかどうかを考察する。 2層狭帯域ネットワークにおける勾配流の力学は可積分系ではないことを実証する。 可積分系は、第一積分(不変量)のレベル集合によって定義される部分多様体に限られる軌道によって特徴づけられる。 対照的に、非可積分系は予測が難しい複雑な振る舞いを示す。 非可積分性を確立するために、線形微分方程式の可解性に焦点を当てた微分ガロア理論を用いる。 穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分は解けないことを実証する。 この結果はシステムの非可積分性を確認し、これらの力学を記述する閉形式解を前もって、トレーニング力学はリウヴィリア函数で表現できないことを示唆する。 本研究は,ニューラルネットワークにおける最適化問題に対処するために,数値的手法を用いることの必要性を強調した。 この結果は、ニューラルネットワークのトレーニングダイナミクスの深い理解と、機械学習最適化戦略へのその影響に寄与する。

In the field of machine learning, comprehending the intricate training dynamics of neural networks poses a significant challenge. This paper explores the training dynamics of neural networks, particularly whether these dynamics can be expressed in a general closed-form solution. We demonstrate that the dynamics of the gradient flow in two-layer narrow networks is not an integrable system. Integrable systems are characterized by trajectories confined to submanifolds defined by level sets of first integrals (invariants), facilitating predictable and reducible dynamics. In contrast, non-integrable systems exhibit complex behaviors that are difficult to predict. To establish the non-integrability, we employ differential Galois theory, which focuses on the solvability of linear differential equations. We demonstrate that under mild conditions, the identity component of the differential Galois group of the variational equations of the gradient flow is non-solvable. This result confirms the system's non-integrability and implies that the training dynamics cannot be represented by Liouvillian functions, precluding a closed-form solution for describing these dynamics. Our findings highlight the necessity of employing numerical methods to tackle optimization problems within neural networks. The results contribute to a deeper understanding of neural network training dynamics and their implications for machine learning optimization strategies.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 個別光アドレッシングと非破壊読出しを備えた普遍中原子量子コンピュータ

A universal neutral-atom quantum computer with individual optical addressing and non-destructive readout ( http://arxiv.org/abs/2408.08288v1 )

ライセンス: Link先を確認
A. G. Radnaev, W. C. Chung, D. C. Cole, D. Mason, T. G. Ballance, M. J. Bedalov, D. A. Belknap, M. R. Berman, M. Blakely, I. L. Bloomfield, P. D. Buttler, C. Campbell, A. Chopinaud, E. Copenhaver, M. K. Dawes, S. Y. Eubanks, A. J. Friss, D. M. Garcia, J. Gilbert, M. Gillette, P. Goiporia, P. Gokhale, J. Goldwin, D. Goodwin, T. M. Graham, CJ Guttormsson, G. T. Hickman, L. Hurtley, M. Iliev, E. B. Jones, R. A. Jones, K. W. Kuper, T. B. Lewis, M. T. Lichtman, F. Majdeteimouri, J. J. Mason, J. K. McMaster, J. A. Miles, P. T. Mitchell, J. D. Murphree, N. A. Neff-Mallon, T. Oh, V. Omole, C. Parlo Simon, N. Pederson, M. A. Perlin, A. Reiter, R. Rines, P. Romlow, A. M. Scott, D. Stiefvater, J. R. Tanner, A. K. Tucker, I. V. Vinogradov, M. L. Warter, M. Yeo, M. Saffman, T. W. Noel, (参考訳) 量子コンピュータは、変換処理能力[1-4]の約束を果たすために、大規模でフォールトトレラントな演算をしなければならない。 これは数千から数百万の高忠実度量子ゲートと類似の量子ビット [5] を必要とする。 レーザーによって捕捉・操作された中性原子量子ビットを用いた実証実験により、このモード性は高い2量子ゲート(CZ)フィラリティとスケーラブルな操作 [6-10] を提供できることが示された。 しかし、これらのデモのゲートは、個々の量子ビットを解決しないレーザーによって駆動され、量子ビットの物理的中間回路シャットリングによって普遍的な計算が可能である。 この比較的遅い操作は、有用な大規模計算のためにランタイムを大幅に拡張する。 ここでは、単一原子の配列に集束したレーザービームを個別に処理することで、シャットリングではなく光スイッチング時間によってゲートレートが制限される普遍的な中性原子量子コンピュータを実証する。 我々は、99.35(4)%のCZ忠実度と、99.902(8)%の局所的な単一量子ビットRZゲート忠実度を達成する。 さらに, アルカリ原子量子ビットの非破壊的読み出しを低損失で行い, 運転速度を向上することを示した。 この手法により、原子ロス現象を除外した99.73(3)%のCZ忠実度を測定でき、これは長生きした中性原子量子ビット間の記録であり、より高い忠実度と誤り訂正への道のりを強調することができる。 この結果は,大規模でフォールトトレラントな中性原子量子コンピュータへの重要な一歩であり,実際の時間スケールで計算を実行できることを示す。

Quantum computers must achieve large-scale, fault-tolerant operation to deliver on their promise of transformational processing power [1-4]. This will require thousands or millions of high-fidelity quantum gates and similar numbers of qubits [5]. Demonstrations using neutral-atom qubits trapped and manipulated by lasers have shown that this modality can provide high two-qubit gate (CZ) fidelities and scalable operation [6-10]. However, the gates in these demonstrations are driven by lasers that do not resolve individual qubits, with universal computation enabled by physical mid-circuit shuttling of the qubits. This relatively slow operation will greatly extend runtimes for useful, large-scale computation. Here we demonstrate a universal neutral-atom quantum computer with gate rates limited by optical switching times, rather than shuttling, by individually addressing tightly focused laser beams at an array of single atoms. We achieve CZ fidelity of 99.35(4)% and local single qubit RZ gate fidelity of 99.902(8)%. Moreover, we demonstrate non-destructive readout of alkali-atom qubits with sub-percent loss, which boosts operational speed. This technique also enables us to measure 99.73(3)% CZ fidelity with atom-loss events excluded, which is a record among long lived neutral-atom qubits and highlights the path to higher fidelity and error correction. Our results represent a critical step towards large-scale, fault-tolerant neutral-atom quantum computers that can execute computations on practical timescales.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community

The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community ( http://arxiv.org/abs/2408.08291v1 )

ライセンス: Link先を確認
Shachar Don-Yehiya, Leshem Choshen, Omri Abend, (参考訳) ヒューマンモデル会話は、ユーザの現実のシナリオ、振る舞い、ニーズの窓口を提供するため、モデル開発と研究にとって貴重なリソースである。 非営利団体は、自身のモデルのAPIを通じてユーザデータを収集し、内部でモデルを改善するためにそれを使用しているが、オープンソースと研究コミュニティは遅れを取っている。 大規模言語モデルとの統一された会話セットであるShareLMコレクションと,ユーザモデル会話を自発的にコントリビュートするためのWeb拡張であるプラグインについて紹介する。 チャットを共有するプラットフォームはほとんどないが、ShareLMプラグインにはこの機能が追加され、ユーザーはほとんどのプラットフォームから会話を共有することができる。 このプラグインを使うと、会話とレスポンスのレベルの両方で会話を評価でき、ユーザーのローカルストレージを離れる前にプライベートにしたい会話を削除することができる。 われわれは、ShareLMコレクションの一部としてプラグインの会話を公開し、オープンなヒューマンモデルデータ分野におけるコミュニティの取り組みを求めている。 コード、プラグイン、データは利用可能だ。

Human-model conversations provide a window into users' real-world scenarios, behavior, and needs, and thus are a valuable resource for model development and research. While for-profit companies collect user data through the APIs of their models, using it internally to improve their own models, the open source and research community lags behind. We introduce the ShareLM collection, a unified set of human conversations with large language models, and its accompanying plugin, a Web extension for voluntarily contributing user-model conversations. Where few platforms share their chats, the ShareLM plugin adds this functionality, thus, allowing users to share conversations from most platforms. The plugin allows the user to rate their conversations, both at the conversation and the response levels, and delete conversations they prefer to keep private before they ever leave the user's local storage. We release the plugin conversations as part of the ShareLM collection, and call for more community effort in the field of open human-model data. The code, plugin, and data are available.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# デコード量子干渉計による最適化

Optimization by Decoded Quantum Interferometry ( http://arxiv.org/abs/2408.08292v1 )

ライセンス: Link先を確認
Stephen P. Jordan, Noah Shutty, Mary Wootters, Adam Zalcman, Alexander Schmidhuber, Robbie King, Sergei V. Isakov, Ryan Babbush, (参考訳) 目的関数のフーリエスペクトルの構造を利用して、古典的最適化問題を古典的復号問題に還元する量子アルゴリズムであるDecoded Quantum Interferometry (DQI)を導入する。 DQIは、Sparse max-XORSATをLDPCコードに還元し、Belief Propagation (BP)のような強力な古典的アルゴリズムで実現できる。 最初のベンチマークとして、シミュレートされたアニールによる古典的最適化に対して、DQIを信念伝搬復号法を用いて比較する。 この設定では、最大XORSATインスタンスの特定のファミリーに対して、BPデコードを持つDQIは、それらのインスタンスに合わせた特殊な古典的アルゴリズムよりも、シミュレーションアニーリングよりも平均的な近似比が良いことを示す。 また、最大点数と交差する多項式の探索に対応する組合せ最適化問題を解析する。 そこで、DQIは、我々の既知の多項式時間古典アルゴリズムよりも効率よく近似比を達成し、明らかな指数的量子スピードアップを実現する。 最後に、量子と古典的なクエリの複雑性を指数的に分離することを証明するために、山川とZhandryによって定義された問題は、DQIによって効率的に解かれる最適化問題の特別な場合であることを示す。

We introduce Decoded Quantum Interferometry (DQI), a quantum algorithm for reducing classical optimization problems to classical decoding problems by exploiting structure in the Fourier spectrum of the objective function. DQI reduces sparse max-XORSAT to decoding LDPC codes, which can be achieved using powerful classical algorithms such as Belief Propagation (BP). As an initial benchmark, we compare DQI using belief propagation decoding against classical optimization via simulated annealing. In this setting we present evidence that, for a certain family of max-XORSAT instances, DQI with BP decoding achieves a better approximation ratio on average than simulated annealing, although not better than specialized classical algorithms tailored to those instances. We also analyze a combinatorial optimization problem corresponding to finding polynomials that intersect the maximum number of points. There, DQI efficiently achieves a better approximation ratio than any polynomial-time classical algorithm known to us, thus realizing an apparent exponential quantum speedup. Finally, we show that the problem defined by Yamakawa and Zhandry in order to prove an exponential separation between quantum and classical query complexity is a special case of the optimization problem efficiently solved by DQI.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off

Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off ( http://arxiv.org/abs/2408.08294v1 )

ライセンス: Link先を確認
Mark K. Transtrum, Gus L. W. Hart, Tyler J. Jarvis, Jared P. Whitehead, (参考訳) データサイエンスにおける中心的な問題は、未知の関数の潜在的なノイズのあるサンプルを使用して、目に見えない入力の関数値を予測することである。 古典統計学において、予測誤差は、モデル単純性と複雑な関数に適合する能力のバランスをとるバイアスと分散の間のトレードオフとして理解される。 しかし、過パラメータ化モデルは「二重降下」のような反直観的行動を示し、複雑性が増大するモデルは一般化誤差を減少させる。 一般化エイリアス分解と呼ばれる代替パラダイムを導入する。 本稿では,複雑なモデルの漸近的に小さな誤差を,過度にパラメータ化された状態に発生する系統的な「デエイリアス化」として説明する。 大規模モデルの極限において、エイリアスによる寄与は消滅し、漸近的全誤差の表現は、少数の訓練点において非常に大きなモデルの可逆的失敗(invertibility failure)と呼ぶ。 一般化エイリアス分解は、データラベルを見ることなく、モデルクラスとサンプルの関係から明示的に計算できるため、データ収集や実験を行う前に、実験設計やモデル選択に関する質問に答えることができる。 本稿では、古典回帰問題や材料科学で用いられるクラスタ展開モデルなど、いくつかの例を用いて、このアプローチを実証する。

A central problem in data science is to use potentially noisy samples of an unknown function to predict function values for unseen inputs. In classical statistics, the predictive error is understood as a trade-off between the bias and the variance that balances model simplicity with its ability to fit complex functions. However, over-parameterized models exhibit counter-intuitive behaviors, such as "double descent" in which models of increasing complexity exhibit decreasing generalization error. We introduce an alternative paradigm called the generalized aliasing decomposition. We explain the asymptotically small error of complex models as a systematic "de-aliasing" that occurs in the over-parameterized regime. In the limit of large models, the contribution due to aliasing vanishes, leaving an expression for the asymptotic total error we call the invertibility failure of very large models on few training points. Because the generalized aliasing decomposition can be explicitly calculated from the relationship between model class and samples without seeing any data labels, it can answer questions related to experimental design and model selection before collecting data or performing experiments. We demonstrate this approach using several examples, including classical regression problems and a cluster expansion model used in materials science.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# SLCA++: 事前学習による継続的学習のためのシーケンスファインチューニングのパワーを解き放つ

SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training ( http://arxiv.org/abs/2408.08295v1 )

ライセンス: Link先を確認
Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei, (参考訳) 近年,CLPT (Continuousal Learning with Pre-Training) は,従来のスクラッチによるトレーニングではなく,広く関心を集めている。 強い事前学習モデル(PTM)の使用は、知識伝達を大幅に促進し、破滅的な忘れを緩和するだけでなく、事前学習された知識を特定の下流タスクに段階的に過度に適合させることにも悩まされる。 現状の取り組みの多くは、PTMを凍結させ、タスク固有のプロンプトを組み込んで表現学習を指導し、推論のための素早い選択プロセスと組み合わせている。 しかし、プロンプトパラメータの容量が限られているため、この戦略は連続学習における準最適性能しか示さない。 対照的に、PTMの全てのパラメータをチューニングすることは、表現学習の最大の可能性を与え、逐次微調整(Seq FT)をCLPTで見落とされた基本的なベースラインにする。 この目的のために、Seq FTのレンズから進行オーバーフィッティング問題を詳細に解析する。 過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、Sq FTのパワーを解放する高度なSlow Learner with Classifier Alignment(SLCA++)フレームワークを導入し、CLPTの強力なベースラインアプローチとして機能する。 提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させる分類器アライメントを含む。 対称なクロスエントロピー損失を持つSLの有効性をさらに高め、パラメータ効率の戦略を用いてSeq FTをSLCA++で実装する。 画像分類ベンチマークにおける様々な連続的な学習シナリオに対して,提案手法は大幅な改善と,最先端手法の大幅な性能向上を実現している。 コード:https://github.com/GengDavid/SLCA。

In recent years, continual learning with pre-training (CLPT) has received widespread interest, instead of its traditional focus of training from scratch. The use of strong pre-trained models (PTMs) can greatly facilitate knowledge transfer and alleviate catastrophic forgetting, but also suffers from progressive overfitting of pre-trained knowledge into specific downstream tasks. A majority of current efforts often keep the PTMs frozen and incorporate task-specific prompts to instruct representation learning, coupled with a prompt selection process for inference. However, due to the limited capacity of prompt parameters, this strategy demonstrates only sub-optimal performance in continual learning. In comparison, tuning all parameters of PTMs often provides the greatest potential for representation learning, making sequential fine-tuning (Seq FT) a fundamental baseline that has been overlooked in CLPT. To this end, we present an in-depth analysis of the progressive overfitting problem from the lens of Seq FT. Considering that the overly fast representation learning and the biased classification layer constitute this particular problem, we introduce the advanced Slow Learner with Classifier Alignment (SLCA++) framework to unleash the power of Seq FT, serving as a strong baseline approach for CLPT. Our approach involves a Slow Learner to selectively reduce the learning rate of backbone parameters, and a Classifier Alignment to align the disjoint classification layers in a post-hoc fashion. We further enhance the efficacy of SL with a symmetric cross-entropy loss, as well as employ a parameter-efficient strategy to implement Seq FT with SLCA++. Across a variety of continual learning scenarios on image classification benchmarks, our approach provides substantial improvements and outperforms state-of-the-art methods by a large margin. Code: https://github.com/GengDavid/SLCA.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# HELP:階層的な埋め込みベースのログ解析

HELP: Hierarchical Embeddings-based Log Parsing ( http://arxiv.org/abs/2408.08300v1 )

ライセンス: Link先を確認
Andy Xu, Arno Gau, (参考訳) ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。 ログ解析は、半構造化ログメッセージを構造化テンプレートに変換するもので、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。 しかし、既存のログパーサは3つの主な理由から、現実世界のシステムでは失敗する。 第一に、従来のヒューリスティックスベースのパーサーは手作りの特徴とドメイン知識を必要としており、大規模に一般化することは困難である。 第二に、既存の大規模言語モデルベースのパーサは周期的なオフライン処理に依存しており、リアルタイムのユースケースでの有効性を制限している。 第三に、既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。 これらの課題に対処するため,階層型埋め込み型ログパーサHELPを提案する。 HELPは、LCMをパフォーマンスとコスト効率のよいログ解析に利用した初めてのオンラインセマンティックベースのパーサーである。 これは、解析の前にクラスタログにテキスト埋め込みモデルを微調整し、クエリコストを桁違いに削減する。 ログドリフトに対処するため,既存のロググループを定期的に更新する反復リバランスモジュールも開発した。 HELPはF1重み付きグループ化と解析精度を,現在最先端のオンラインログパーサよりも大幅に向上することを示す。 また,実運用環境におけるHELPの実用性を確認するため,Iudexの生産可観測プラットフォームにHELPを実装した。 この結果から,HELPは実世界の高スループットログ解析に有効で効率的であることが示唆された。

Logs are a first-hand source of information for software maintenance and failure diagnosis. Log parsing, which converts semi-structured log messages into structured templates, is a prerequisite for automated log analysis tasks such as anomaly detection, troubleshooting, and root cause analysis. However, existing log parsers fail in real-world systems for three main reasons. First, traditional heuristics-based parsers require handcrafted features and domain knowledge, which are difficult to generalize at scale. Second, existing large language model-based parsers rely on periodic offline processing, limiting their effectiveness in real-time use cases. Third, existing online parsing algorithms are susceptible to log drift, where slight log changes create false positives that drown out real anomalies. To address these challenges, we propose HELP, a Hierarchical Embeddings-based Log Parser. HELP is the first online semantic-based parser to leverage LLMs for performant and cost-effective log parsing. We achieve this through a novel hierarchical embeddings module, which fine-tunes a text embedding model to cluster logs before parsing, reducing querying costs by multiple orders of magnitude. To combat log drift, we also develop an iterative rebalancing module, which periodically updates existing log groupings. We evaluate HELP extensively on 14 public large-scale datasets, showing that HELP achieves significantly higher F1-weighted grouping and parsing accuracy than current state-of-the-art online log parsers. We also implement HELP into Iudex's production observability platform, confirming HELP's practicality in a production environment. Our results show that HELP is effective and efficient for high-throughput real-world log parsing.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 交通システム工学における大規模言語モデルの能力のベンチマーク:正確性、一貫性、推論行動

Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors ( http://arxiv.org/abs/2408.08302v1 )

ライセンス: Link先を確認
Usman Syed, Ethan Light, Xingang Guo, Huan Zhang, Lianhui Qin, Yanfeng Ouyang, Bin Hu, (参考訳) 本稿では,GPT-4,GPT-4o,Claude 3.5 Sonnet,Claude 3 Opus,Gemini 1.5 Pro,Llama 3,Llama 3.1といった最先端の大規模言語モデル(LLM)の,選択した学部レベルの交通工学的問題を解決する能力について検討する。 我々は,交通システムの計画,設計,管理,制御に関して,幅広い分野の交通工学的問題のサンプルを含むベンチマークデータセットであるTransportBenchを紹介した。 このデータセットは、さまざまな商用およびオープンソース LLM の機能、特に輸送工学の問題を解決するための正確性、一貫性、推論の振る舞いを評価するために、人間の専門家によって使用される。 包括的解析により各LSMの強度と限界が明らかになった。例えば,TransportBench問題の解法におけるClaude 3.5 Sonnetの驚くべき精度と予期せぬ不整合性を示す。 われわれの研究は、複雑な交通問題に人工知能を活用するための、すばらしい第一歩だ。

In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3, and Llama 3.1 in solving some selected undergraduate-level transportation engineering problems. We introduce TransportBench, a benchmark dataset that includes a sample of transportation engineering problems on a wide range of subjects in the context of planning, design, management, and control of transportation systems. This dataset is used by human experts to evaluate the capabilities of various commercial and open-sourced LLMs, especially their accuracy, consistency, and reasoning behaviors, in solving transportation engineering problems. Our comprehensive analysis uncovers the unique strengths and limitations of each LLM, e.g. our analysis shows the impressive accuracy and some unexpected inconsistent behaviors of Claude 3.5 Sonnet in solving TransportBench problems. Our study marks a thrilling first step toward harnessing artificial general intelligence for complex transportation challenges.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# フレキシブル・ビジュアル・リレーション・セグメンテーションに向けて

Towards Flexible Visual Relationship Segmentation ( http://arxiv.org/abs/2408.08305v1 )

ライセンス: Link先を確認
Fangrui Zhu, Jianwei Yang, Huaizu Jiang, (参考訳) 視覚的関係理解は、人-物間相互作用(HOI)検出、シーングラフ生成(SGG)、参照関係(RR)タスクにおいて別々に研究されている。 これらのタスクの複雑さと相互接続性を考えると、これらのタスクを結合的な方法で効果的に処理できる柔軟なフレームワークを持つことが重要です。 本研究では,FleVRSを提案する。FleVRSは,上記の3つの側面を,標準的かつ迅速な視覚的関係のセグメンテーションにおいてシームレスに統合し,新たなシナリオに適応するためのオープン語彙セグメンテーションの能力も備えた単一モデルである。 FleVRSは、テキストと画像のモダリティの相乗効果を活用し、画像から様々なタイプの関係を基盤とし、視覚言語モデルから視覚的概念理解に至るまで、テキストの特徴を使用する。 例えば、HICO-DETでは+1.9 $mAP$、VRDでは+11.4 $Acc$、VRDでは+4.7 $mAP$である。 私たちのFleVRSは、より直感的で、包括的で、スケーラブルな視覚的関係理解に向けた重要なステップです。

Visual relationship understanding has been studied separately in human-object interaction(HOI) detection, scene graph generation(SGG), and referring relationships(RR) tasks. Given the complexity and interconnectedness of these tasks, it is crucial to have a flexible framework that can effectively address these tasks in a cohesive manner. In this work, we propose FleVRS, a single model that seamlessly integrates the above three aspects in standard and promptable visual relationship segmentation, and further possesses the capability for open-vocabulary segmentation to adapt to novel scenarios. FleVRS leverages the synergy between text and image modalities, to ground various types of relationships from images and use textual features from vision-language models to visual conceptual understanding. Empirical validation across various datasets demonstrates that our framework outperforms existing models in standard, promptable, and open-vocabulary tasks, e.g., +1.9 $mAP$ on HICO-DET, +11.4 $Acc$ on VRD, +4.7 $mAP$ on unseen HICO-DET. Our FleVRS represents a significant step towards a more intuitive, comprehensive, and scalable understanding of visual relationships.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 生成モデル多様体の局所幾何学の理解

Understanding the Local Geometry of Generative Model Manifolds ( http://arxiv.org/abs/2408.08307v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Ibtihel Amara, Candice Schumann, Golnoosh Farnadi, Negar Rostamzadeh, Mohammad Havaei, (参考訳) 深層生成モデルは、訓練中に有限個のサンプルを用いて複素データ多様体の連続表現を学ぶ。 事前学習された生成モデルに対して、学習した多様体表現の質を評価する一般的な方法は、多数の生成された実サンプルを用いて、Fr\'echet Inception Distanceのような大域的なメトリクスを計算することである。 しかし、安定拡散生成性能のような \textit{foundation model} の場合、生成モデルの性能は学習多様体、例えば g に対して一様ではない。 本稿では,学習多様体の「textit{local geometry of the learn manifold」と下流生成の関係について検討する。 連続ピースワイズ・リニア(CPWL)ジェネレータの理論に基づいて、3つの幾何学的記述子(スケーリング($\psi$)、ランク($\nu$)、複雑性($\delta$))を用いて、事前学習された生成モデル多様体を局所的に特徴づける。 所与の潜伏者に対して、局所記述子は世代美学、アーティファクト、不確実性、暗記などと相関していることを示す定量的かつ定性的な証拠を提供する。 最後に,局所幾何上でのtextit{reward model} のトレーニングにより,学習した分布の下で生成されたサンプルの確率を制御できることを実証する。

Deep generative models learn continuous representations of complex data manifolds using a finite number of samples during training. For a pre-trained generative model, the common way to evaluate the quality of the manifold representation learned, is by computing global metrics like Fr\'echet Inception Distance using a large number of generated and real samples. However, generative model performance is not uniform across the learned manifold, e.g., for \textit{foundation models} like Stable Diffusion generation performance can vary significantly based on the conditioning or initial noise vector being denoised. In this paper we study the relationship between the \textit{local geometry of the learned manifold} and downstream generation. Based on the theory of continuous piecewise-linear (CPWL) generators, we use three geometric descriptors - scaling ($\psi$), rank ($\nu$), and complexity ($\delta$) - to characterize a pre-trained generative model manifold locally. We provide quantitative and qualitative evidence showing that for a given latent, the local descriptors are correlated with generation aesthetics, artifacts, uncertainty, and even memorization. Finally we demonstrate that training a \textit{reward model} on the local geometry can allow controlling the likelihood of a generated sample under the learned distribution.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# ScalingFilter: スケーリング法則の逆利用によるデータ品質の評価

ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws ( http://arxiv.org/abs/2408.08310v1 )

ライセンス: Link先を確認
Ruihang Li, Yixuan Wei, Miaosen Zhang, Nenghai Yu, Han Hu, Houwen Peng, (参考訳) 高品質なデータは、大規模言語モデルの事前学習のパフォーマンスに不可欠である。 残念ながら、既存の品質フィルタリング手法は、既知の高品質なデータセットを参照として頼りにしており、潜在的なバイアスをもたらし、多様性を損なう可能性がある。 本論文では,同じデータに基づいて訓練された2つの言語モデル間の相違点に基づいてテキスト品質を評価する新しい手法であるScalingFilterを提案する。 理論的解析によれば、ScalingFilterはスケーリング法則の逆利用と等価である。 さまざまな品質フィルタで処理された同一データソース上の1.3Bパラメータを持つトレーニングモデルを通じて、下流タスクにおける事前トレーニングされたモデルのゼロショットパフォーマンスを改善することができる。 品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。 大規模な実験によると、セマンティックな多様性はデータセットの多様性の信頼性を示す指標であり、ScalingFilterは下流のパフォーマンスとセマンティックな多様性の最適なバランスを達成する。

High-quality data is crucial for the pre-training performance of large language models. Unfortunately, existing quality filtering methods rely on a known high-quality dataset as reference, which can introduce potential bias and compromise diversity. In this paper, we propose ScalingFilter, a novel approach that evaluates text quality based on the perplexity difference between two language models trained on the same data, thereby eliminating the influence of the reference dataset in the filtering process. An theoretical analysis shows that ScalingFilter is equivalent to an inverse utilization of scaling laws. Through training models with 1.3B parameters on the same data source processed by various quality filters, we find ScalingFilter can improve zero-shot performance of pre-trained models in downstream tasks. To assess the bias introduced by quality filtering, we introduce semantic diversity, a metric of utilizing text embedding models for semantic representations. Extensive experiments reveal that semantic diversity is a reliable indicator of dataset diversity, and ScalingFilter achieves an optimal balance between downstream performance and semantic diversity.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# HyperTaxel: コントラスト学習によるタキセルベースの触覚信号の高分解能化

HyperTaxel: Hyper-Resolution for Taxel-Based Tactile Signals Through Contrastive Learning ( http://arxiv.org/abs/2408.08312v1 )

ライセンス: Link先を確認
Hongyu Li, Snehal Dikhale, Jinda Cui, Soshi Iba, Nawid Jamali, (参考訳) 人間に匹敵する器用さを達成するためには、ロボットは触覚センサーデータをインテリジェントに処理する必要がある。 タクセルベースの触覚信号は、しばしば空間分解能が低く、非標準化された表現を持つ。 本稿では,タキセルに基づく触覚信号の幾何学的表現を学習し,空間分解能に関わる課題に対処するための新しい枠組みであるHyperTaxelを提案する。 我々は、この表現と対照的な学習目標を用いて、希少な低分解能タッセル信号を高分解能接触面に符号化し、マッピングする。 これらの信号に固有の不確実性に対処するために、複数の同時接触の関節確率分布を利用して、タッセル超解像を改善する。 2つのベースラインを比較して表現を評価し,その表現がベースラインより優れていることを示す。 さらに、学習した表現が、平坦性、曲率、エッジなどの接触面の幾何学的特徴を捉え、異なる物体やセンサ構成にまたがって一般化することを示す定性的な結果を示す。 さらに, 表層分類, 6次元のポーズ推定, sim-to-real 転送など, 様々な下流タスクの性能向上を示唆する結果が得られた。

To achieve dexterity comparable to that of humans, robots must intelligently process tactile sensor data. Taxel-based tactile signals often have low spatial-resolution, with non-standardized representations. In this paper, we propose a novel framework, HyperTaxel, for learning a geometrically-informed representation of taxel-based tactile signals to address challenges associated with their spatial resolution. We use this representation and a contrastive learning objective to encode and map sparse low-resolution taxel signals to high-resolution contact surfaces. To address the uncertainty inherent in these signals, we leverage joint probability distributions across multiple simultaneous contacts to improve taxel hyper-resolution. We evaluate our representation by comparing it with two baselines and present results that suggest our representation outperforms the baselines. Furthermore, we present qualitative results that demonstrate the learned representation captures the geometric features of the contact surface, such as flatness, curvature, and edges, and generalizes across different objects and sensor configurations. Moreover, we present results that suggest our representation improves the performance of various downstream tasks, such as surface classification, 6D in-hand pose estimation, and sim-to-real transfer.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?

Can Large Language Models Understand Symbolic Graphics Programs? ( http://arxiv.org/abs/2408.08313v1 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf, (参考訳) 大きな言語モデル(LLM)の能力を評価することは、トレーニング中に公開されていないタスクを見つけるのが難しいため、しばしば難しい。 視覚データを手続き的に生成するグラフィックコンテンツの一般的な表現であるシンボリックグラフィックプログラムに焦点を合わせることで、この課題に対処する1つのステップを踏み出す。 LLMは、プログラム合成に対するエキサイティングな約束を示しているが、シンボリックグラフィックプログラムは理解しているだろうか? 従来のプログラムとは異なり、シンボリックグラフィックスプログラムはグラフィックコンテンツに変換できる。 本稿では,グラフィックコンテンツに関する疑問に答える能力の観点から,LLMの象徴的プログラムに対する理解を特徴付ける。 問題はシンボリックプログラムだけでは答えが難しいため、このタスクは難しい。しかし、人間の実験を通じて検証すると、対応するグラフィックコンテンツから答えるのは簡単だろう。 シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。 シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。 このベンチマークはプログラム-グラフィック対応によって構築されるため、人間の努力は最小限に抑えられる。 我々は,プログラムから視覚シーンを判断する能力の予備的評価を行うため,ベンチマーク上の現在のLCMを評価した。 このタスクは既存のLCMと推論が優れていると判断されたモデルとを区別する。 最後に,シンボリック・インストラクション・チューニング(SIT)を導入し,その能力を向上させる。 具体的には、GPT4-oに、シンボリックプログラムによって生成された質問やイメージを問い合わせる。 このようなデータは、LSMを微調整するために使用される。 また,SITデータによりLLMの処理能力の向上が期待できる。

Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.
翻訳日:2024-08-16 13:05:43 公開日:2024-08-15
# 非凸(強い)凹極小問題に対する2つの完全パラメータ自由交互勾配射影アルゴリズム

Two Completely Parameter-Free Alternating Gradient Projection Algorithms for Nonconvex-(strongly) Concave Minimax Problems ( http://arxiv.org/abs/2407.21372v2 )

ライセンス: Link先を確認
Junnan Yang, Huiling Zhang, Zi Xu, (参考訳) 様々な新興アプリケーションにおいて重要であるため、ミニマックス問題を解くための効率的なアルゴリズムが近年注目されている。 しかし、多くの既存のアルゴリズムは、最適なイテレーションの複雑さを達成するために、問題パラメータの事前の知識を必要とする。 本稿では,PF-AGP-NSCアルゴリズムとPF-AGP-NCアルゴリズムの2つの完全パラメータ自由交互勾配予測アルゴリズムを提案する。 さらに、PF-AGP-NSCアルゴリズムとPF-AGP-NCアルゴリズムの勾配呼び出しの総数は、$\varepsilon$-stationary point を$\mathcal{O}\left(L\kappa^3\varepsilon^{-2} \right)$と$\mathcal{O}\left(L^4\varepsilon^{-4} \right)$で上界することを示した。 我々の知る限り、PF-AGP-NSCアルゴリズムとPF-AGP-NCアルゴリズムは、それぞれ非凸-強凸-極小問題の解法と非凸-極小問題の解法である。 提案したPF-AGPアルゴリズムの有効性を数値計算により検証した。

Due to their importance in various emerging applications, efficient algorithms for solving minimax problems have recently received increasing attention. However, many existing algorithms require prior knowledge of the problem parameters in order to achieve optimal iteration complexity. In this paper, we propose two completely parameter-free alternating gradient projection algorithms, i.e., the PF-AGP-NSC algorithm and the PF-AGP-NC algorithm, to solve the smooth nonconvex-strongly concave and nonconvex-concave minimax problems respectively using a backtracking strategy, which does not require prior knowledge of parameters such as the Lipschtiz constant $L$ or the strongly concave constant $\mu$. Moreover, we show that the total number of gradient calls of the PF-AGP-NSC algorithm and the PF-AGP-NC algorithm to obtain an $\varepsilon$-stationary point is upper bounded by $\mathcal{O}\left( L\kappa^3\varepsilon^{-2} \right)$ and $\mathcal{O}\left( L^4\varepsilon^{-4} \right)$ respectively, where $\kappa$ is the condition number. As far as we know, the PF-AGP-NSC algorithm and the PF-AGP-NC algorithm are the first completely parameter-free algorithms for solving nonconvex-strongly concave minimax problems and nonconvex-concave minimax problems respectively. Numerical results validate the efficiency of the proposed PF-AGP algorithm.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# AMAES: 3D-Native Segmentationのための公開脳MRIデータに基づく追加のマスク付きオートエンコーダ

AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation ( http://arxiv.org/abs/2408.00640v2 )

ライセンス: Link先を確認
Asbjørn Munk, Jakob Ambsdorf, Sebastian Llambias, Mads Nielsen, (参考訳) 本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。 我々は、公開資料から44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介し、最新セグメンテーションアーキテクチャをシンプルに最適化し、新しい拡張戦略と組み合わせることで、最新のセグメンテーションアーキテクチャを事前訓練するための多くの設計選択を再考する。 結果として得られるAMAESフレームワークは、マスク付きイメージモデリングとインテンシティベースの拡張リバーサルに基づいており、メモリ使用量、ランタイム、微調整パフォーマンスのバランスをとる。 人気の高いU-Netと最近のMedNeXtアーキテクチャをバックボーンとして、単一シーケンス、低リソース設定、ドメイン外一般化の3つの課題に対する事前学習の効果を評価した。 その結果、AMAESを用いて提案したデータセットの事前学習は、評価事例の大部分においてセグメンテーション性能を著しく向上させ、大規模なデータセットを事前学習しているにもかかわらず、拡張によるモデルの事前訓練は有益であることがわかった。 結果の再生のためのコードとモデルチェックポイント、およびBRAINS-45Kデータセットは、 \url{https://github.com/asbjrnmunk/amaes}で利用可能である。

This study investigates the impact of self-supervised pretraining of 3D semantic segmentation models on a large-scale, domain-specific dataset. We introduce BRAINS-45K, a dataset of 44,756 brain MRI volumes from public sources, the largest public dataset available, and revisit a number of design choices for pretraining modern segmentation architectures by simplifying and optimizing state-of-the-art methods, and combining them with a novel augmentation strategy. The resulting AMAES framework is based on masked-image-modeling and intensity-based augmentation reversal and balances memory usage, runtime, and finetuning performance. Using the popular U-Net and the recent MedNeXt architecture as backbones, we evaluate the effect of pretraining on three challenging downstream tasks, covering single-sequence, low-resource settings, and out-of-domain generalization. The results highlight that pretraining on the proposed dataset with AMAES significantly improves segmentation performance in the majority of evaluated cases, and that it is beneficial to pretrain the model with augmentations, despite pretraing on a large-scale dataset. Code and model checkpoints for reproducing results, as well as the BRAINS-45K dataset are available at \url{https://github.com/asbjrnmunk/amaes}.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# MapComp: グループアグリゲーションのためのセキュアなビューベースの協調分析フレームワーク

MapComp: A Secure View-based Collaborative Analytics Framework for Join-Group-Aggregation ( http://arxiv.org/abs/2408.01246v3 )

ライセンス: Link先を確認
Xinyu Peng, Feng Han, Li Peng, Weiran Liu, Zheng Yan, Kai Kang, Xinyuan Zhang, Guoxing Wei, Jianling Sun, Jinfei Liu, (参考訳) 本稿では、協調分析のための結合グループ集約(JGA)クエリを容易にするビューベースの新しいフレームワークであるMapCompを紹介する。 グループ集約(group-aggregation, GA)プロトコルの結合と新規設計のための特別に製作されたマテリアライズドビューにより、MapCompは重複したジョインのワークロードを排除し、その後のGAを高速化し、JGAクエリの実行効率を向上する。 連続的なデータ更新をサポートするため、当社のマテリアライズドビューはペイロード独立機能を提供し、無料のMPCオーバーヘッドでビューリフレッシュの大幅な効率向上を実現しています。 この機能はまた、GAのさらなる加速を可能にし、以前の作業より優れた複数の新しいプロトコルを考案しました。 特に、本研究は、マテリアライズドビューを使ったセキュアなJGAクエリを高速化する最初の取り組みである。 本実験はMapCompの大きな利点を示し,クエリを8回実行する場合の非ビューベースラインと比較して,2189.9倍の効率向上を実現した。

This paper introduces MapComp, a novel view-based framework to facilitate join-group-aggregation (JGA) queries for collaborative analytics. Through specially crafted materialized view for join and novel design of group-aggregation (GA) protocols, MapComp removes duplicated join workload and expedites subsequent GA, improving the efficiency of JGA query execution. To support continuous data updates, our materialized view offers payload-independence feature and brings in significant efficiency improvement of view refreshing with free MPC overhead. This feature also allows further acceleration for GA, where we devised multiple novel protocols that outperform prior works. Notably, our work represents the first endeavor to expedite secure collaborative JGA queries using materialized views. Our experiments demonstrate a significant advantage of MapComp, achieving up to a 2189.9x efficiency improvement compared to the non-view based baseline when executing queries eight times.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# コントラスト学習と抽象概念:自然数の場合

Contrastive Learning and Abstract Concepts: The Case of Natural Numbers ( http://arxiv.org/abs/2408.02247v3 )

ライセンス: Link先を確認
Daniel N. Nissani, (参考訳) 対照的学習(CL)は、ImageNetデータセットに含まれるオブジェクトなど、具体的な概念に関連する分類や下流タスクにうまく適用されている。 これまでのところ、より抽象的なエンティティにこの有望なスキームを適用する試みは行われていないようだ。 これらの顕著な例は、(離散的な)量の概念である。 CLはしばしば、深遠でユビキタスな保存原理(例えば、オブジェクト分類タスクにおけるアイデンティティの保存)によって導かれる自己教師型スキームとして解釈される。 この入門研究では、離散量の推定や予測が可能な自然数の半抽象概念に適切な保存原理を適用する。 実験により、おもちゃの問題により、対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることが示される。 と。 類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。 両スキームは, トレーニング段階と試験段階の分布が等しいベースライン実験において, 同様の性能を示すことを示す。 重要なことは、分散のトレーニングとテストが異なるいくつかの一般化シナリオにおいて、CLはより堅牢ではるかに優れたエラー性能を誇示している。

Contrastive Learning (CL) has been successfully applied to classification and other downstream tasks related to concrete concepts, such as objects contained in the ImageNet dataset. No attempts seem to have been made so far in applying this promising scheme to more abstract entities. A prominent example of these could be the concept of (discrete) Quantity. CL can be frequently interpreted as a self-supervised scheme guided by some profound and ubiquitous conservation principle (e.g. conservation of identity in object classification tasks). In this introductory work we apply a suitable conservation principle to the semi-abstract concept of natural numbers by which discrete quantities can be estimated or predicted. We experimentally show, by means of a toy problem, that contrastive learning can be trained to count at a glance with high accuracy both at human as well as at super-human ranges.. We compare this with the results of a trained-to-count at a glance supervised learning (SL) neural network scheme of similar architecture. We show that both schemes exhibit similar good performance on baseline experiments, where the distributions of the training and testing stages are equal. Importantly, we demonstrate that in some generalization scenarios, where training and testing distributions differ, CL boasts more robust and much better error performance.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# 深部ニューラルネットワークにおけるデュアルビューピラミッドポーリングによる医用画像分類と信頼性校正

Dual-View Pyramid Pooling in Deep Neural Networks for Improved Medical Image Classification and Confidence Calibration ( http://arxiv.org/abs/2408.02906v2 )

ライセンス: Link先を確認
Xiaoqing Zhang, Qiushi Nie, Zunjie Xiao, Jilu Zhao, Xiao Wu, Pengxin Guo, Runzhi Li, Jin Liu, Yanjie Wei, Yi Pan, (参考訳) 空間プーリング(SP)とクロスチャネルプーリング(CCP)演算子は,それぞれディープニューラルネットワーク(DNN)の特徴マップから空間的特徴と画素的特徴を集約するために応用されている。 主な目標は、DNNのパフォーマンスを視覚的に低下させることなく、計算とメモリオーバーヘッドを削減することである。 しかし、SPは微妙な特徴表現を失う問題にしばしば直面するが、CCPは有能な特徴表現を無視する可能性が高く、信頼性の問題の誤校正と医療分類結果の準正に繋がる可能性がある。 そこで本稿では,SPとCCPの相対的役割を,空間的特徴と画素的特徴の差を解析して体系的に研究する,新しいデュアルビューフレームワークを提案する。 本稿では,DVPP(Dual-view pyramid pooling)と呼ばれる新しいプール手法を提案する。 DVPPは、SPおよびCCPオペレータのメリットを両軸の観点から完全に活用することにより、医用画像分類と信頼性校正性能の両立を目指している。 さらに、5つのパラメータフリー実装でDVPPを実現する方法について論じる。 6つの2D/3D医用画像分類タスクにおける広範囲な実験により、DVPPは、医療画像分類結果と異なるDNN間の信頼性校正の点から、最先端のプール法を超越していることが示された。

Spatial pooling (SP) and cross-channel pooling (CCP) operators have been applied to aggregate spatial features and pixel-wise features from feature maps in deep neural networks (DNNs), respectively. Their main goal is to reduce computation and memory overhead without visibly weakening the performance of DNNs. However, SP often faces the problem of losing the subtle feature representations, while CCP has a high possibility of ignoring salient feature representations, which may lead to both miscalibration of confidence issues and suboptimal medical classification results. To address these problems, we propose a novel dual-view framework, the first to systematically investigate the relative roles of SP and CCP by analyzing the difference between spatial features and pixel-wise features. Based on this framework, we propose a new pooling method, termed dual-view pyramid pooling (DVPP), to aggregate multi-scale dual-view features. DVPP aims to boost both medical image classification and confidence calibration performance by fully leveraging the merits of SP and CCP operators from a dual-axis perspective. Additionally, we discuss how to fulfill DVPP with five parameter-free implementations. Extensive experiments on six 2D/3D medical image classification tasks show that our DVPP surpasses state-of-the-art pooling methods in terms of medical image classification results and confidence calibration across different DNNs.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# ポリモデル理論とiTransformerを用いたヘッジファンドポートフォリオ構築

Hedge Fund Portfolio Construction Using PolyModel Theory and iTransformer ( http://arxiv.org/abs/2408.03320v2 )

ライセンス: Link先を確認
Siqiao Zhao, Zhikang Dong, Zeyu Cao, Raphael Douady, (参考訳) ポートフォリオを構築する場合、重要な問題は、多くの金融時系列データが不足しているため、機械学習手法の適用が困難であることだ。 ポリモデル理論はこの問題を解くことができ、様々な側面からポートフォリオ構築において優位性を示すことができる。 ヘッジファンドポートフォリオを構築するためのPolyModel理論を実装するために、過去29年間に1万以上のヘッジファンドを活用して資産プールを特定します。 ポリモデル理論はまた、様々な金融指標、通貨、商品価格を含む幅広いリスク要因を選択することを含む。 この包括的な選択は、現実世界の環境の複雑さを反映している。 ポリモデル理論を応用して、長期アルファ、長期比、SVaRなどの定量的尺度を作成する。 また、シャープ比やモーニングスターのMRARといった古典的な測度も使います。 構築されたポートフォリオの性能を向上させるために、最新のディープラーニング技術(iTransformer)を使用して、上向きの傾向を捉えながら、すべての機能を使って効率よくダウンサイドを制御します。 iTransformerモデルは、高次元時系列予測の課題に対処するために特別に設計されており、戦略を大幅に改善することができる。 より正確には、私たちの戦略はシャープ比の改善と年次リターンを達成する。 このプロセスにより、さまざまなベンチマークと比較した場合、高いリターンと低いリスクを目的とした複数のポートフォリオ戦略を作成することができる。

When constructing portfolios, a key problem is that a lot of financial time series data are sparse, making it challenging to apply machine learning methods. Polymodel theory can solve this issue and demonstrate superiority in portfolio construction from various aspects. To implement the PolyModel theory for constructing a hedge fund portfolio, we begin by identifying an asset pool, utilizing over 10,000 hedge funds for the past 29 years' data. PolyModel theory also involves choosing a wide-ranging set of risk factors, which includes various financial indices, currencies, and commodity prices. This comprehensive selection mirrors the complexities of the real-world environment. Leveraging on the PolyModel theory, we create quantitative measures such as Long-term Alpha, Long-term Ratio, and SVaR. We also use more classical measures like the Sharpe ratio or Morningstar's MRAR. To enhance the performance of the constructed portfolio, we also employ the latest deep learning techniques (iTransformer) to capture the upward trend, while efficiently controlling the downside, using all the features. The iTransformer model is specifically designed to address the challenges in high-dimensional time series forecasting and could largely improve our strategies. More precisely, our strategies achieve better Sharpe ratio and annualized return. The above process enables us to create multiple portfolio strategies aiming for high returns and low risks when compared to various benchmarks.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# PsyDI: 心理測定のためのパーソナライズド・プログレッシブ・イン・ディープス・チャットボットを目指して

PsyDI: Towards a Personalized and Progressively In-depth Chatbot for Psychological Measurements ( http://arxiv.org/abs/2408.03337v3 )

ライセンス: Link先を確認
Xueyan Li, Xinyan Chen, Yazhe Niu, Shuai Hu, Yu Liu, (参考訳) 心理学の分野では、標準化された尺度のような伝統的な評価手法は、静的な性質、パーソナライゼーションの欠如、エンゲージメントの減少など、しばしば批判されるが、包括的カウンセリング評価はしばしばアクセスできない。 心理的特徴の定量化の複雑さにより、これらの方法はさらに制限される。 大規模言語モデル(LLM)の進歩にもかかわらず、その多くは依然として単一ラウンドの質問と回答のインタラクションに依存している。 このギャップを埋めるために,Mers-Briggs Type Indicator (MBTI) フレームワークを応用した,心理学的測定のために設計された,パーソナライズされた,段階的に詳細なチャットボットである PsyDI を紹介した。 PsyDIは、ユーザ関連のマルチモーダル情報を活用し、カスタマイズされたマルチターンインタラクションを実行し、パーソナライズされ、容易にアクセス可能な測定結果を提供しながら、正確なMBTI型判定を保証する。 本研究では,これらの特徴に関連付けられたプロキシ変数のランク付けを学習し,MBTI測定のためのロバストスコアモデルを構築することを含む,新たなトレーニングパラダイムを導入する。 スコアモデルにより、PsyDIは統合された推定コンテキスト内でマルチターン相互作用を通じて包括的かつ正確な測定を行うことができる。 様々な実験を通じて、スコアモデルとPsyDIパイプラインの有効性を検証し、心理測定の一般的な枠組みとして機能する可能性を示した。 さらに、PsyDIのオンライン展開は、3000以上の訪問でかなりのユーザエンゲージメントを獲得し、MBTIタイプに注釈付けされた多数のマルチターンダイアログが収集され、さらなる研究が進められている。 トレーニングとWebサービスコンポーネントのソースコードは、OpenDILabの https://github.com/opendilab/PsyDI で公開されている。

In the field of psychology, traditional assessment methods, such as standardized scales, are frequently critiqued for their static nature, lack of personalization, and reduced participant engagement, while comprehensive counseling evaluations are often inaccessible. The complexity of quantifying psychological traits further limits these methods. Despite advances with large language models (LLMs), many still depend on single-round Question-and-Answer interactions. To bridge this gap, we introduce PsyDI, a personalized and progressively in-depth chatbot designed for psychological measurements, exemplified by its application in the Myers-Briggs Type Indicator (MBTI) framework. PsyDI leverages user-related multi-modal information and engages in customized, multi-turn interactions to provide personalized, easily accessible measurements, while ensuring precise MBTI type determination. To address the challenge of unquantifiable psychological traits, we introduce a novel training paradigm that involves learning the ranking of proxy variables associated with these traits, culminating in a robust score model for MBTI measurements. The score model enables PsyDI to conduct comprehensive and precise measurements through multi-turn interactions within a unified estimation context. Through various experiments, we validate the efficacy of both the score model and the PsyDI pipeline, demonstrating its potential to serve as a general framework for psychological measurements. Furthermore, the online deployment of PsyDI has garnered substantial user engagement, with over 3,000 visits, resulting in the collection of numerous multi-turn dialogues annotated with MBTI types, which facilitates further research. The source code for the training and web service components is publicly available as a part of OpenDILab at: https://github.com/opendilab/PsyDI
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# 混乱したパイロット:RAGによるLCMの混乱した副次的リスク

ConfusedPilot: Confused Deputy Risks in RAG-based LLMs ( http://arxiv.org/abs/2408.04870v3 )

ライセンス: Link先を確認
Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari, (参考訳) 検索拡張生成(英: Retrieval augmented generation、RAG)とは、大規模言語モデル(LLM)がデータベースから有用な情報を検索し、応答を生成するプロセスである。 日常業務の企業環境では人気が高まっている。 例えば、Copilot for Microsoft 365は数百万のビジネスを蓄積している。 しかしながら、RAGベースのシステムを採用する際のセキュリティへの影響は明らかでない。 本稿では、Copilotを混乱させ、その応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介する。 まず、RAGの修正プロンプトに悪意のあるテキストを埋め込んだ脆弱性を調査し、LSMが生成した応答を破損させる。 第2に、シークレットデータを漏洩する脆弱性を示し、検索時にキャッシュ機構を活用する。 第3に,企業内の誤情報を伝播し,最終的に販売や製造といった業務に影響を及ぼすために,両脆弱性をどのように活用するかを検討する。 また、RAGベースのシステムのアーキテクチャを調べることにより、これらの攻撃の根本原因についても論じる。 本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。

Retrieval augmented generation (RAG) is a process where a large language model (LLM) retrieves useful information from a database and then generates the responses. It is becoming popular in enterprise settings for daily business operations. For example, Copilot for Microsoft 365 has accumulated millions of businesses. However, the security implications of adopting such RAG-based systems are unclear. In this paper, we introduce ConfusedPilot, a class of security vulnerabilities of RAG systems that confuse Copilot and cause integrity and confidentiality violations in its responses. First, we investigate a vulnerability that embeds malicious text in the modified prompt in RAG, corrupting the responses generated by the LLM. Second, we demonstrate a vulnerability that leaks secret data, which leverages the caching mechanism during retrieval. Third, we investigate how both vulnerabilities can be exploited to propagate misinformation within the enterprise and ultimately impact its operations, such as sales and manufacturing. We also discuss the root cause of these attacks by investigating the architecture of a RAG-based system. This study highlights the security vulnerabilities in today's RAG-based systems and proposes design guidelines to secure future RAG-based systems.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# LiD-FL: List-Decodable Federated Learningを目指す

LiD-FL: Towards List-Decodable Federated Learning ( http://arxiv.org/abs/2408.04963v2 )

ライセンス: Link先を確認
Hong Liu, Liren Shan, Han Bao, Ronghui You, Yuhao Yi, Jiancheng Lv, (参考訳) フェデレーテッド・ラーニングは、多くの未検証参加者のいる環境でよく使用される。 そのため、対人攻撃による連合学習には大きな注意が払われる。 本稿では,リスト記述可能なフェデレーション学習のためのアルゴリズムフレームワークを提案する。このフレームワークでは,中央サーバがモデルのリストを維持でき,少なくとも1つの性能が保証されている。 この枠組みは、正直な労働者のごく一部に厳格な制限を持たず、ビザンツ連邦学習の適用範囲を半分以上の敵のシナリオにまで広げた。 損失関数の適切な仮定の下で、我々はこの方法の収束定理を証明した。 コンベックスと非凸の両方の損失を伴う画像分類タスクを含む実験結果から,提案アルゴリズムは様々な攻撃において悪意ある多数派に耐えうることを示した。

Federated learning is often used in environments with many unverified participants. Therefore, federated learning under adversarial attacks receives significant attention. This paper proposes an algorithmic framework for list-decodable federated learning, where a central server maintains a list of models, with at least one guaranteed to perform well. The framework has no strict restriction on the fraction of honest workers, extending the applicability of Byzantine federated learning to the scenario with more than half adversaries. Under proper assumptions on the loss function, we prove a convergence theorem for our method. Experimental results, including image classification tasks with both convex and non-convex losses, demonstrate that the proposed algorithm can withstand the malicious majority under various attacks.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# DeepInteraction++: 自律運転のためのマルチモードインタラクション

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving ( http://arxiv.org/abs/2408.05075v2 )

ライセンス: Link先を確認
Zeyu Yang, Nan Song, Wei Li, Xiatian Zhu, Li Zhang, Philip H. S. Torr, (参考訳) 既存の高性能自動運転システムは、信頼性の高いシーン理解のためのマルチモーダル融合戦略に依存している。 しかしながら、この設計は、モダリティ固有の強度を見落とし、最終的にモデル性能を妨げているため、基本的に制限されている。 この制限に対処するため、本研究では、各モードごとの表現を学習・維持できる新しいモダリティインタラクション戦略を導入し、知覚パイプライン全体において、それぞれの特徴を活用できるようにする。 提案手法の有効性を実証するため,マルチモーダル表現型対話エンコーダとマルチモーダル予測型対話デコーダを特徴とするマルチモーダル対話フレームワークであるDeepInteraction++を設計した。 具体的には、情報交換のための特別な注意操作と、個別のモダリティ特化表現の統合を備えたデュアルストリーム変換器として実装される。 我々のマルチモーダル表現学習は、より困難な計画作業に欠かせない、オブジェクト中心、精密なサンプリングベースの特徴アライメントと、グローバルな密集情報拡散の両方を取り入れています。 このデコーダは、異なる表現から情報を統一的なモダリティに依存しない方法で交互に集約し、マルチモーダルな予測相互作用を実現することにより、予測を反復的に洗練するように設計されている。 大規模実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。 私たちのコードはhttps://github.com/fudan-zvg/DeepInteraction.comで利用可能です。

Existing top-performance autonomous driving systems typically rely on the multi-modal fusion strategy for reliable scene understanding. This design is however fundamentally restricted due to overlooking the modality-specific strengths and finally hampering the model performance. To address this limitation, in this work, we introduce a novel modality interaction strategy that allows individual per-modality representations to be learned and maintained throughout, enabling their unique characteristics to be exploited during the whole perception pipeline. To demonstrate the effectiveness of the proposed strategy, we design DeepInteraction++, a multi-modal interaction framework characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Specifically, the encoder is implemented as a dual-stream Transformer with specialized attention operation for information exchange and integration between separate modality-specific representations. Our multi-modal representational learning incorporates both object-centric, precise sampling-based feature alignment and global dense information spreading, essential for the more challenging planning task. The decoder is designed to iteratively refine the predictions by alternately aggregating information from separate representations in a unified modality-agnostic manner, realizing multi-modal predictive interaction. Extensive experiments demonstrate the superior performance of the proposed framework on both 3D object detection and end-to-end autonomous driving tasks. Our code is available at https://github.com/fudan-zvg/DeepInteraction.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# SAM-FNet:喉頭咽頭腫瘍検出のためのSAM-Guided Fusion Network

SAM-FNet: SAM-Guided Fusion Network for Laryngo-Pharyngeal Tumor Detection ( http://arxiv.org/abs/2408.05426v2 )

ライセンス: Link先を確認
Jia Wei, Yun Li, Meiyu Qiu, Hongyu Chen, Xiaomao Fan, Wenbin Lei, (参考訳) 喉頭咽頭癌 (Laryngo-pharyngeal cancer, LPC) は, 頭頸部の悪性腫瘍である。 従来の内視鏡的腫瘍検出,特にデュアルブランチネットワークアーキテクチャを利用した研究は,腫瘍検出の大幅な進歩を示している。 これらの研究は、グローバルな特徴抽出とローカルな特徴抽出を効果的に統合することにより、診断精度を向上させるための二重ブランチネットワークの可能性を強調した。 しかし、病変領域を正確に特定し、グローバルブランチとローカルブランチ間の識別的特徴情報をキャプチャする能力はまだ限られている。 これらの課題に対処するために,喉頭・咽頭腫瘍検出のための2分岐ネットワークであるSAM-FNetを提案する。 Segment Anything Model(SAM)の強力なオブジェクトセグメンテーション機能を利用することで、SAM-FNetにSAMを導入し、病変領域を正確にセグメンテーションする。 さらに,GAN-like feature optimization (GFO) モジュールを提案し,グローバルブランチとローカルブランチ間の識別的特徴を捕捉し,融合特徴の相補性を向上する。 また,サンヤットセン大学第1附属病院(FAHSYSU)と第6附属病院(SAHSYSU)の2つのLPCデータセットを収集した。 FAHSYSUデータセットはモデルをトレーニングするための内部データセットとして使用され、SAHSYSUデータセットはモデルのパフォーマンスを評価するための外部データセットとして使用される。 FAHSYSUとSAHSYSUの両方のデータセットに対する大規模な実験は、SAM-FNetが競争的な結果が得られることを示した。 SAM-FNetのソースコードはhttps://github.com/VVJia/SAM-FNetで公開されている。

Laryngo-pharyngeal cancer (LPC) is a highly fatal malignant disease affecting the head and neck region. Previous studies on endoscopic tumor detection, particularly those leveraging dual-branch network architectures, have shown significant advancements in tumor detection. These studies highlight the potential of dual-branch networks in improving diagnostic accuracy by effectively integrating global and local (lesion) feature extraction. However, they are still limited in their capabilities to accurately locate the lesion region and capture the discriminative feature information between the global and local branches. To address these issues, we propose a novel SAM-guided fusion network (SAM-FNet), a dual-branch network for laryngo-pharyngeal tumor detection. By leveraging the powerful object segmentation capabilities of the Segment Anything Model (SAM), we introduce the SAM into the SAM-FNet to accurately segment the lesion region. Furthermore, we propose a GAN-like feature optimization (GFO) module to capture the discriminative features between the global and local branches, enhancing the fusion feature complementarity. Additionally, we collect two LPC datasets from the First Affiliated Hospital (FAHSYSU) and the Sixth Affiliated Hospital (SAHSYSU) of Sun Yat-sen University. The FAHSYSU dataset is used as the internal dataset for training the model, while the SAHSYSU dataset is used as the external dataset for evaluating the model's performance. Extensive experiments on both datasets of FAHSYSU and SAHSYSU demonstrate that the SAM-FNet can achieve competitive results, outperforming the state-of-the-art counterparts. The source code of SAM-FNet is available at the URL of https://github.com/VVJia/SAM-FNet.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# AutoCheck: データ依存分析によるチェックポイントのための変数の自動識別

AutoCheck: Automatically Identifying Variables for Checkpointing by Data Dependency Analysis ( http://arxiv.org/abs/2408.06082v2 )

ライセンス: Link先を確認
Xiang Fu, Weiping Zhang, Xin Huang, Shiman Meng, Wubiao Xu, Luanzheng Guo, Kento Sato, (参考訳) Checkpoint/Restart(C/R)は、多くのHPCシステム、クラウド、産業データセンターに広くデプロイされており、通常はシステムエンジニアが運用している。 それでも、ドメインの専門知識のないシステムエンジニアを支援する既存のアプローチは存在せず、システムフォールトトレランスの知識のないドメイン科学者は、C/Rの障害時に正しいアプリケーション実行の復元を行うための重要な変数を特定します。 そこで本研究では,C/Rのチェックポイントに重要な変数を自動的に識別する解析モデルとツール(AutoCheck)を提案する。 AutoCheckは、変数と他のアプリケーション実行状態間のデータ依存を分析的に追跡し、最適化する第1の方法と、洗練されたデータ依存グラフ(DDG)からチェックポイントする重要な変数を識別するヒューリスティックのセットに依存している。 AutoCheckを使うと、プログラマは重要な変数を数分間で素早くチェックポイントできる。 我々はAutoCheckを14の代表的なHPCベンチマークで評価し、チェックポイントに対する正確なクリティカル変数を効率的に識別できることを実証した。

Checkpoint/Restart (C/R) has been widely deployed in numerous HPC systems, Clouds, and industrial data centers, which are typically operated by system engineers. Nevertheless, there is no existing approach that helps system engineers without domain expertise, and domain scientists without system fault tolerance knowledge identify those critical variables accounted for correct application execution restoration in a failure for C/R. To address this problem, we propose an analytical model and a tool (AutoCheck) that can automatically identify critical variables to checkpoint for C/R. AutoCheck relies on first, analytically tracking and optimizing data dependency between variables and other application execution state, and second, a set of heuristics that identify critical variables for checkpointing from the refined data dependency graph (DDG). AutoCheck allows programmers to pinpoint critical variables to checkpoint quickly within a few minutes. We evaluate AutoCheck on 14 representative HPC benchmarks, demonstrating that AutoCheck can efficiently identify correct critical variables to checkpoint.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# CTR予測における動的コールドスタートシーン最適化のためのシーンワイズ適応ネットワーク

Scene-wise Adaptive Network for Dynamic Cold-start Scenes Optimization in CTR Prediction ( http://arxiv.org/abs/2408.07278v2 )

ライセンス: Link先を確認
Wenhao Li, Jie Zhou, Chuan Luo, Chao Tang, Kun Zhang, Shixiong Zhao, (参考訳) 現代のモバイルEコマースの世界では、位置情報ベースのオンラインサービスを通じて、近くの商業サービスレコメンデーションをユーザに提供できることがますます重要になっている。 機械学習のアプローチは、マルチシーンのレコメンデーションにおいて有望だが、既存の方法論は、前例のない場面でコールドスタートの問題に対処するのに苦労することが多い。 本研究では,新しいシーンに対して,高性能なコールドスタートオンラインレコメンデーションを強調する新しいアプローチであるSwANを提案する。 提案手法では,シーン類似性学習,ユーザ固有のシーン遷移認識,新たなシーンのシーン固有情報構築,シーン間の論理情報の分散化など,いくつかの重要な機能を導入している。 新たに到着したシーンのコールドスタートレコメンデーションを効果的にオンライン処理することで、動的マルチシーンレコメンデーション問題を最適化するSwANの可能性を実証する。 より奨励的に、SwaranはMeituanのオンラインキャタリングレコメンデーションサービスに1日数百万の顧客にサービスを提供しており、Swaranはベースラインに対して5.64%のCTRインデックスの改善、日次ボリューム比の5.19%の増加を達成している。

In the realm of modern mobile E-commerce, providing users with nearby commercial service recommendations through location-based online services has become increasingly vital. While machine learning approaches have shown promise in multi-scene recommendation, existing methodologies often struggle to address cold-start problems in unprecedented scenes: the increasing diversity of commercial choices, along with the short online lifespan of scenes, give rise to the complexity of effective recommendations in online and dynamic scenes. In this work, we propose Scene-wise Adaptive Network (SwAN), a novel approach that emphasizes high-performance cold-start online recommendations for new scenes. Our approach introduces several crucial capabilities, including scene similarity learning, user-specific scene transition cognition, scene-specific information construction for the new scene, and enhancing the diverged logical information between scenes. We demonstrate SwAN's potential to optimize dynamic multi-scene recommendation problems by effectively online handling cold-start recommendations for any newly arrived scenes. More encouragingly, SwAN has been successfully deployed in Meituan's online catering recommendation service, which serves millions of customers per day, and SwAN has achieved a 5.64% CTR index improvement relative to the baselines and a 5.19% increase in daily order volume proportion.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# 矛盾記述論理における厳密な真理値を持つクエリ

Queries With Exact Truth Values in Paraconsistent Description Logics ( http://arxiv.org/abs/2408.07283v2 )

ライセンス: Link先を確認
Meghyn Bienvenu, Camille Bourgaux, Daniil Kozhemiachenko, (参考訳) 我々は,古典的不整合記述論理(DL)知識ベースを,真に(\mathbf{T}$),真に(\mathbf{F}$),真に(\mathbf{B}$),真に(\mathbf{N}$)という4つのベルナピアン値と平行な意味論を採用することによってクエリする新しいアプローチを提案する。 パラ一貫性DLに関する先行研究とは対照的に、クエリ言語における真理値演算子を許容し、矛盾する証拠を持つ答えと正の証拠しか持たない回答を区別することができる。 本稿では,従来の DL クエリ応答を削減し,クエリをパラ一貫性の $\mathcal{ALCHI}$ とそのサブロジクスで答えることの正確な組み合わせとデータの複雑さを特定できるようにする。 特に,Hhorn DLでは,トラクタブルなデータ複雑性が維持されている。 本稿では,修復に基づく不整合耐性セマンティクスとの比較を行い,両手法が相容れないことを示す。

We present a novel approach to querying classical inconsistent description logic (DL) knowledge bases by adopting a~paraconsistent semantics with the four Belnapian values: exactly true ($\mathbf{T}$), exactly false ($\mathbf{F}$), both ($\mathbf{B}$), and neither ($\mathbf{N}$). In contrast to prior studies on paraconsistent DLs, we allow truth value operators in the query language, which can be used to differentiate between answers having contradictory evidence and those having only positive evidence. We present a reduction to classical DL query answering that allows us to pinpoint the precise combined and data complexity of answering queries with values in paraconsistent $\mathcal{ALCHI}$ and its sublogics. Notably, we show that tractable data complexity is retained for Horn DLs. We present a comparison with repair-based inconsistency-tolerant semantics, showing that the two approaches are incomparable.
翻訳日:2024-08-16 12:51:16 公開日:2024-08-15
# AI科学者:完全に自動化されたオープンな科学発見を目指す

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery ( http://arxiv.org/abs/2408.06292v2 )

ライセンス: Link先を確認
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha, (参考訳) 人工知能の大きな課題の1つは、科学的研究を行い、新しい知識を発見することができるエージェントを開発することである。 フロンティアモデルはすでに人間の科学者の補助として使われており、アイデアのブレインストーミング、コードの作成、予測といったタスクも行われているが、それでも科学プロセスのごく一部しか行っていない。 本稿では、フロンティア大言語モデルが独立して研究を行い、研究結果を伝達することのできる、完全自動科学的発見のための最初の包括的枠組みを提案する。 我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、完全な科学論文を書き、その結果を記述し、シミュレーションされたレビュープロセスを実行し、評価を行うAI Scientistを紹介します。 原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。 我々は、拡散モデリング、トランスフォーマーベース言語モデリング、学習力学の3つの異なるサブフィールドに適用することで、その汎用性を実証する。 それぞれのアイデアは、紙1枚につき15ドル以下で、完全な紙に実装され、開発される。 生成した論文を評価するため,自動レビュアーを設計,検証し,紙のスコアを評価する上で,ほぼ人間に近い性能を発揮することを示す。 AI Scientistは、私たちの自動レビュアーが判断するように、トップクラスの機械学習カンファレンスで、受け入れ閾値を超える論文を作成できる。 このアプローチは、機械学習における科学的発見の新しい時代の始まりである。AIエージェントの変革的なメリットをAI自体の研究プロセス全体にもたらすこと、そして、無限に手頃な価格の創造性とイノベーションが、世界の最も困難な問題に解き放たれる世界へと私たちを近づけること。 私たちのコードはhttps://github.com/SakanaAI/AI-Scientistでオープンソース化されています

One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been used as aides to human scientists, e.g. for brainstorming ideas, writing code, or prediction tasks, they still conduct only a small part of the scientific process. This paper presents the first comprehensive framework for fully automatic scientific discovery, enabling frontier large language models to perform research independently and communicate their findings. We introduce The AI Scientist, which generates novel research ideas, writes code, executes experiments, visualizes results, describes its findings by writing a full scientific paper, and then runs a simulated review process for evaluation. In principle, this process can be repeated to iteratively develop ideas in an open-ended fashion, acting like the human scientific community. We demonstrate its versatility by applying it to three distinct subfields of machine learning: diffusion modeling, transformer-based language modeling, and learning dynamics. Each idea is implemented and developed into a full paper at a cost of less than $15 per paper. To evaluate the generated papers, we design and validate an automated reviewer, which we show achieves near-human performance in evaluating paper scores. The AI Scientist can produce papers that exceed the acceptance threshold at a top machine learning conference as judged by our automated reviewer. This approach signifies the beginning of a new era in scientific discovery in machine learning: bringing the transformative benefits of AI agents to the entire research process of AI itself, and taking us closer to a world where endless affordable creativity and innovation can be unleashed on the world's most challenging problems. Our code is open-sourced at https://github.com/SakanaAI/AI-Scientist
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# 生体イベント抽出のためのイベント構造認識生成モデル

An Event Structure-aware Generative Model for Biomedical Event Extraction ( http://arxiv.org/abs/2408.06583v3 )

ライセンス: Link先を確認
Haohan Yuan, Siu Cheung Hui, Haopeng Zhang, (参考訳) バイオメディカルイベント抽出(BEE)は、バイオメディカルテキストにおける微細な実体間の複雑な関係をモデル化する難しいタスクである。 BEEは伝統的に分類問題として定式化されてきた。 近年の大規模言語モデル (LLM) の技術進歩により, イベント抽出をシーケンス生成問題として捉えた生成モデルが, NLP研究コミュニティから注目を集めている。 しかしながら、現在の生成モデルは、ネストイベントや重複イベントのような複雑なイベント構造からのクロスインスタンス情報の重要性をしばしば見落とし、ベンチマークデータセットに大きく貢献する。 本稿では,生物医学的イベント抽出のためのバイオメディカルテキスト中の複雑なイベント構造をキャプチャするイベント構造認識生成モデルGenBEEを提案する。 特に、GenBEEは、ラベルの意味論と引数依存性の関係の両方をモデルに組み込むため、LLMから知識を抽出するイベントプロンプトを構築している。 さらに、GenBEEは、モデル全体のパフォーマンスを改善する構造的特徴を組み込むために、イベント構造的プロンプトを持つプレフィックスを生成する。 提案したGenBEEモデルについて,MLEE,GE11,PHEEの3つのバイオメディカルイベント抽出ベンチマークを用いて評価を行った。 実験の結果、GenBEEはMLEEおよびGE11データセットで最先端のパフォーマンスを達成し、PHEEデータセットの最先端分類ベースモデルと比較して競争力のある結果を得た。

Biomedical Event Extraction (BEE) is a challenging task that involves modeling complex relationships between fine-grained entities in biomedical text. BEE has traditionally been formulated as a classification problem. With the recent technological advancements in large language models (LLMs), generation-based models that cast event extraction as a sequence generation problem have attracted much attention from the NLP research communities. However, current generative models often overlook the importance of cross-instance information from complex event structures such as nested events and overlapping events, which contribute quite significantly in the benchmark datasets. In this paper, we propose an event structure-aware generative model called GenBEE, which can capture complex event structures in biomedical text for biomedical event extraction. In particular, GenBEE constructs event prompts that distill knowledge from LLMs for incorporating both label semantics and argument dependency relationships into the proposed model. In addition, GenBEE also generates prefixes with event structural prompts to incorporate structural features for improving the model's overall performance. We have evaluated the proposed GenBEE model on three widely used biomedical event extraction benchmark datasets, namely MLEE, GE11, and PHEE. Experimental results show that GenBEE has achieved state-of-the-art performance on the MLEE and GE11 datasets, and achieved competitive results when compared to the state-of-the-art classification-based models on the PHEE dataset.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# CRISP: 信頼できるクラウドネイティブコンピューティングのための信頼性、ロールバック、統合ストレージ保護

CRISP: Confidentiality, Rollback, and Integrity Storage Protection for Confidential Cloud-Native Computing ( http://arxiv.org/abs/2408.06822v2 )

ライセンス: Link先を確認
Ardhi Putra Pratama Hartono, Andrey Brito, Christof Fetzer, (参考訳) 信頼された実行環境(TEE)は、実行中のコードとその関連するデータの完全性と機密性を保護する。 それでも、TEEsの整合性保護はディスク上に保存された状態にまで拡張されない。 さらに、現代的なクラウドネイティブアプリケーションは、オーケストレーション(例えば、Kubernetesなどのシステムを通じて)に大きく依存しているため、サービスを頻繁に再起動する。 再起動中、攻撃者は機密サービスの状態を悪意のある意図を助長する可能性のある以前のバージョンに戻すことができる。 本稿では,Intel SGXの既存のランタイムを使用してロールバックを透過的に防止するロールバック保護機構であるCRISPを提案する。 当社のアプローチでは,アタックウィンドウを一定かつ短期間に制限するか,あるいは脆弱性ウィンドウを完全に回避するためのツールを開発者に提供します。 最後に、CRISPをクリティカルなステートフルなクラウドネイティブアプリケーションに適用することは、リソースの増加を招く可能性があるが、パフォーマンス上のペナルティはわずかである。

Trusted execution environments (TEEs) protect the integrity and confidentiality of running code and its associated data. Nevertheless, TEEs' integrity protection does not extend to the state saved on disk. Furthermore, modern cloud-native applications heavily rely on orchestration (e.g., through systems such as Kubernetes) and, thus, have their services frequently restarted. During restarts, attackers can revert the state of confidential services to a previous version that may aid their malicious intent. This paper presents CRISP, a rollback protection mechanism that uses an existing runtime for Intel SGX and transparently prevents rollback. Our approach can constrain the attack window to a fixed and short period or give developers the tools to avoid the vulnerability window altogether. Finally, experiments show that applying CRISP in a critical stateful cloud-native application may incur a resource increase but only a minor performance penalty.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# スパンおよび文書レベルの特徴分類を用いた非構造化オランダ心エコー図からの診断抽出

Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification ( http://arxiv.org/abs/2408.06930v2 )

ライセンス: Link先を確認
Bauke Arends, Melle Vessies, Dirk van Osch, Arco Teske, Pim van der Harst, René van Es, Bram van Es, (参考訳) 臨床機械学習研究とAIによる臨床決定支援モデルは、臨床的に正確なラベルに依存している。 臨床専門家の助けを借りてこれらのラベルを手作業で抽出することは、しばしば時間がかかり高価である。 本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。 オランダの大学病院UMCUの非構造心エコー図115,692例を報告する。 ランダムに選択したサブセットを手動でアノテートした。 本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。 本研究では,文書分類結果に依存する直接文書分類器と間接文書分類器の両方を含む文書分類法に対して,スパン分類の性能を比較した。 SpanCategorizerとMedRoBERTa$。 $nlモデルは、他のすべてのスパンとドキュメント分類器よりも優れていた。 重み付きF1スコアは、SpanCategorizerの0.60から0.93、MedRoBERTa$の0.96から0.98まで様々である。 $nl。 直接文書分類はスパン分類器を用いた間接文書分類よりも優れている。 SetFitはトレーニングデータの10%しか使用せず、競争力のある文書分類性能を達成した。 ラベルセットの削減を利用すれば、ほぼ完璧な文書分類結果が得られる。 私たちは、公開されたSpanCategorizerとMedRoBERTa$を使うことを推奨します。 オランダの心エコー図からのスパンおよび文書レベルの診断のための$nlモデル 限られたトレーニングデータを持つ設定の場合、SetFitはドキュメント分類の有望な代替になるかもしれない。

Clinical machine learning research and AI driven clinical decision support models rely on clinically accurate labels. Manually extracting these labels with the help of clinical specialists is often time-consuming and expensive. This study tests the feasibility of automatic span- and document-level diagnosis extraction from unstructured Dutch echocardiogram reports. We included 115,692 unstructured echocardiogram reports from the UMCU a large university hospital in the Netherlands. A randomly selected subset was manually annotated for the occurrence and severity of eleven commonly described cardiac characteristics. We developed and tested several automatic labelling techniques at both span and document levels, using weighted and macro F1-score, precision, and recall for performance evaluation. We compared the performance of span labelling against document labelling methods, which included both direct document classifiers and indirect document classifiers that rely on span classification results. The SpanCategorizer and MedRoBERTa$.$nl models outperformed all other span and document classifiers, respectively. The weighted F1-score varied between characteristics, ranging from 0.60 to 0.93 in SpanCategorizer and 0.96 to 0.98 in MedRoBERTa$.$nl. Direct document classification was superior to indirect document classification using span classifiers. SetFit achieved competitive document classification performance using only 10% of the training data. Utilizing a reduced label set yielded near-perfect document classification results. We recommend using our published SpanCategorizer and MedRoBERTa$.$nl models for span- and document-level diagnosis extraction from Dutch echocardiography reports. For settings with limited training data, SetFit may be a promising alternative for document classification.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# セグメンテーションモデル2を用いた複数解像度・照明条件でのプロンプトベースセグメンテーション

Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2 ( http://arxiv.org/abs/2408.06970v2 )

ライセンス: Link先を確認
Osher Rafaeli, Tal Svoray, Roni Blushtein-Livnon, Ariel Nahlieli, (参考訳) 本稿では,ゼロショット型,プロンプト型,セグメント型,セグメント型,セグメント型モデル(SAM)とその更新版であるSAM 2と,太陽電池のセグメンテーション,RGB空中画像におけるセグメンテーション,照明条件,空間解像度,プロンプト戦略における従来の畳み込みネットワーク(CNN)の有効性について考察する。 SAM 2はSAMよりも改善され、特に点によって誘導される場合の準最適照明条件において顕著である。 SAMは、ユーザーボックスによって誘導され、すべてのシナリオでCNNを上回った。 さらに、YOLOv9はパフォーマンスのよいユーザーポイントをプロンプトする。 高解像度画像では、最適照明条件と準最適照明条件の両方において、Eff-UNetはYOLOv9ボックスによって誘導されるSAMモデルよりも優れており、高解像度データにおける自動セグメンテーションの適切なモデルとして位置づけられている。 低解像度のデータでは、ユーザボックスプロンプトが合理的なパフォーマンスを達成するために不可欠であることが判明した。 本稿では,各モデルの長所と短所について詳述し,ユーザによる画像分割モデルの無矛盾な解像度およびリモートセンシングデータの照明条件における堅牢性について概説する。

This paper provides insight into the effectiveness of zero-shot, prompt-based, Segment Anything Model (SAM), and its updated version, SAM 2, and the non-promptable, conventional convolutional network (CNN), in segmenting solar panels, in RGB aerial imagery, across lighting conditions, spatial resolutions, and prompt strategies. SAM 2 demonstrates improvements over SAM, particularly in sub-optimal lighting conditions when prompted by points. Both SAMs, prompted by user-box, outperformed CNN, in all scenarios. Additionally, YOLOv9 prompting outperformed user points prompting. In high-resolution imagery, both in optimal and sub-optimal lighting conditions, Eff-UNet outperformed both SAM models prompted by YOLOv9 boxes, positioning Eff-UNet as the appropriate model for automatic segmentation in high-resolution data. In low-resolution data, user box prompts were found crucial to achieve a reasonable performance. This paper provides details on strengths and limitations of each model and outlines robustness of user prompted image segmentation models in inconsistent resolution and lighting conditions of remotely sensed data.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# GPT言語モデルは分裂性パーソナリティ障害によって引き起こされるか?

Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics ( http://arxiv.org/abs/2408.07377v2 )

ライセンス: Link先を確認
Peter Romero, Stephen Fitz, Teruo Nakatsuma, (参考訳) 大規模言語モデルにおける出現に関するこれまでの研究は、これらが明らかに人間のような能力と心理的潜伏特性を示すことを示している。 しかしながら、これらの潜伏形質の表現と大きさには一部矛盾があるが、ナルシシズム、サイコパシー、マキアベリアン主義のダークトライアドに高い得点を与えるという不安な傾向には同意しており、脱線記録とともに、これらのモデルの安全性についてより厳密な研究を要求している。 我々は,9言語で同一のパーソナリティ質問紙を用いた最先端の言語モデルを提供し,ガウス混合モデルのベイズ解析を行い,より根深い課題の証拠を見出した。 本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。 これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いをもたらし、人間の生活にますます統合されている。 その後、現代心理学の欠点について議論し、それを抽象化し、その種ニュートラルで基質のない定式化のための枠組みを提供する。

Previous research on emergence in large language models shows these display apparent human-like abilities and psychological latent traits. However, results are partly contradicting in expression and magnitude of these latent traits, yet agree on the worrisome tendencies to score high on the Dark Triad of narcissism, psychopathy, and Machiavellianism, which, together with a track record of derailments, demands more rigorous research on safety of these models. We provided a state of the art language model with the same personality questionnaire in nine languages, and performed Bayesian analysis of Gaussian Mixture Model, finding evidence for a deeper-rooted issue. Our results suggest both interlingual and intralingual instabilities, which indicate that current language models do not develop a consistent core personality. This can lead to unsafe behaviour of artificial intelligence systems that are based on these foundation models, and are increasingly integrated in human life. We subsequently discuss the shortcomings of modern psychometrics, abstract it, and provide a framework for its species-neutral, substrate-free formulation.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成

MagicFace: Training-free Universal-Style Human Image Customized Synthesis ( http://arxiv.org/abs/2408.07433v2 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Cheng Jin, (参考訳) 既存の画像パーソナライズされた生成方法は、いくつかのイメージで微調整するか、大規模なデータセットで再トレーニングするといった面倒なトレーニングを必要とすることが多い。 このような場合、様々なスタイルの個人をパーソナライズする場合、これらの手法は過度に適合し、困難に遭遇する傾向にある。 さらに、これらのトレーニングベースのアプローチは、マルチコンセプトのヒューマンイメージのカスタマイズにも苦労する。 そこで本研究では,任意のスタイルの人間に対して,学習自由な方法で単一/複数概念のカスタマイズを可能にする,ユニバーサルスタイルの人体画像パーソナライズ合成の最初の方法であるMagicFaceを提案する。 MagicFaceは、セマンティックシーンの構築とコンセプト機能インジェクションという、2つのシーケンシャルステージを含む粗大な生成パイプラインを導入している。 これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。 特に、第1段階では、RSAにより、潜在画像が参照概念から特徴を同時にクエリすることができ、粗い全体意味理解を抽出して、初期意味的レイアウトの設定を容易にする。 第2段階では、各ステップで潜在画像中のすべての概念の生成された領域をピンポイントするアテンションベースのセマンティックセマンティックセマンティックセマンティクス法を用いる。 その後、RAAは潜像のピクセルをセマンティックグループに分割し、各グループが参照概念から細かな特徴をクエリし、正確な属性アライメントと特徴注入を保証する。 2段階のプロセスを通じて、モデルが参照概念をより重視するように、ウェイトマスク戦略が採用されている。 広汎な実験は、人間中心の被写体画像合成とマルチコンセプトのヒト画像カスタマイズの両方において、我々の優位性を実証している。 我々の手法はテクスチャ変換にも適用でき、その汎用性と適用性をさらに向上させることができる。

Existing human image personalized generation methods often require tedious training: either fine-tuning with a few images or retraining on large-scale datasets. In such cases, these methods are prone to overfitting and encounter difficulties when personalizing individuals of diverse styles. Moreover, these training-based approaches also struggle with multi-concept human image customizing. To this end, we propose MagicFace, the first method for universal-style human image personalized synthesis that enables single/multi-concept customization for humans of any style in a training-free manner. MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic scene construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. Specifically, in the first stage, RSA enables the latent image to query features from reference concepts simultaneously, extracting the coarse-grained overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the generated regions of all concepts in the latent image at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from its reference concept, which ensures precise attribute alignment and feature injection. Throughout the two-stage process, a weight mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate our superiority in both human-centric subject-to-image synthesis and multi-concept human image customization. Our approach also can be applied to texture transformation, further enhancing its versatility and applicability.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# BAPLe:Prompt Learningを用いた医療基礎モデルに対するバックドアアタック

BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning ( http://arxiv.org/abs/2408.07440v2 )

ライセンス: Link先を確認
Asif Hanif, Fahad Shamshad, Muhammad Awais, Muzammal Naseer, Fahad Shahbaz Khan, Karthik Nandakumar, Salman Khan, Rao Muhammad Anwer, (参考訳) 医療ファウンデーションモデルは、医用画像とテキストのペアの広範なコレクションから一般的な表現を導き出す能力によって、医療コミュニティで注目を集めている。 最近の研究では、これらのモデルがバックドア攻撃の影響を受けやすいことが示されており、クリーンな画像を正確に分類できるが、特定のトリガーが導入されると失敗する。 しかし、従来のバックドア攻撃は、悪意のある事前トレーニングを行うために、かなりの量の追加データを必要とする。 この要件は、通常のデータ不足のため、医用画像の応用では実用的ではないことが多い。 この研究は、学びやすいプロンプトの最新の発展に触発され、迅速な学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介した。 テキストエンコーダに学習可能なプロンプトを組み込み,入力画像に認識不能な学習可能なノイズトリガーを導入することにより,医療基盤モデル(Med-FM)のフル機能を活用する。 我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトし、効果的なバックドアアタックを作成できる。 4つの医療基盤モデルによる広範囲な実験を行い、それぞれ異なるモードで事前学習し、6つの下流データセットで評価することで、我々のアプローチの有効性を実証した。 BAPLeは、すべてのモデルとデータセットで高いバックドア成功率を実現し、ベースラインのバックドアアタックメソッドよりも優れています。 我々の研究は、バックドア攻撃に対するMed-FMsの脆弱性を強調し、現実世界のアプリケーションにデプロイする前に、Med-FMsの安全な採用を促進するために努力している。 コードはhttps://asif-hanif.github.io/baple/で公開されている。

Medical foundation models are gaining prominence in the medical community for their ability to derive general representations from extensive collections of medical image-text pairs. Recent research indicates that these models are susceptible to backdoor attacks, which allow them to classify clean images accurately but fail when specific triggers are introduced. However, traditional backdoor attacks necessitate a considerable amount of additional data to maliciously pre-train a model. This requirement is often impractical in medical imaging applications due to the usual scarcity of data. Inspired by the latest developments in learnable prompts, this work introduces a method to embed a backdoor into the medical foundation model during the prompt learning phase. By incorporating learnable prompts within the text encoder and introducing imperceptible learnable noise trigger to the input images, we exploit the full capabilities of the medical foundation models (Med-FM). Our method, BAPLe, requires only a minimal subset of data to adjust the noise trigger and the text prompts for downstream tasks, enabling the creation of an effective backdoor attack. Through extensive experiments with four medical foundation models, each pre-trained on different modalities and evaluated across six downstream datasets, we demonstrate the efficacy of our approach. BAPLe achieves a high backdoor success rate across all models and datasets, outperforming the baseline backdoor attack methods. Our work highlights the vulnerability of Med-FMs towards backdoor attacks and strives to promote the safe adoption of Med-FMs before their deployment in real-world applications. Code is available at https://asif-hanif.github.io/baple/.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# 人間とAIの嗜好に基づく協調による問題解決

Problem Solving Through Human-AI Preference-Based Cooperation ( http://arxiv.org/abs/2408.07461v2 )

ライセンス: Link先を確認
Subhabrata Dutta, Timo Kaufmann, Goran Glavaš, Ivan Habernal, Kristian Kersting, Frauke Kreuter, Mira Mezini, Iryna Gurevych, Eyke Hüllermeier, Hinrich Schuetze, (参考訳) 人工知能(AGI)や超人的AI(超人的AI)が差し迫っていると広く信じられているが、専門家ドメインの複雑な問題は解決されるには程遠い。 このような問題には人間とAIの協力が必要であり、複雑なソリューションアーティファクト(例えばソフトウェアプログラム)の追跡ができないことや、多目的な人間の嗜好表現へのサポートの制限、対話的な環境での人間の嗜好に適応できないことなど、数多くの欠点により、生成AIにおける現在の最先端技術は信頼できるパートナーの役割を果たせないと我々は主張する。 これらの課題に対処するため,人間とAIの新たな共同構築フレームワークであるHAI-Co2を提案する。 我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。 最後に,HAI-Co2のケーススタディを示し,モノリシックな生成型AIモデルと比較して有効性を示した。

While there is a widespread belief that artificial general intelligence (AGI) -- or even superhuman AI -- is imminent, complex problems in expert domains are far from being solved. We argue that such problems require human-AI cooperation and that the current state of the art in generative AI is unable to play the role of a reliable partner due to a multitude of shortcomings, including inability to keep track of a complex solution artifact (e.g., a software program), limited support for versatile human preference expression and lack of adapting to human preference in an interactive setting. To address these challenges, we propose HAI-Co2, a novel human-AI co-construction framework. We formalize HAI-Co2 and discuss the difficult open research problems that it faces. Finally, we present a case study of HAI-Co2 and demonstrate its efficacy compared to monolithic generative AI models.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# データフロー図と大規模言語モデルのセキュリティ脅威検証における有用性:登録報告

Usefulness of data flow diagrams and large language models for security threat validation: a registered report ( http://arxiv.org/abs/2408.07537v2 )

ライセンス: Link先を確認
Winnie Bahati Mbaka, Katja Tuma, (参考訳) 最近のサイバーセキュリティ標準の到来は、組織におけるセキュリティ評価の基準を高めていますが、既存のテクニックが常にうまくスケールしているとは限らないのです。 脅威分析とリスクアセスメントは、新規またはリファクタリングされたシステムのセキュリティ脅威を特定するために使用される。 それでも、Doneの定義が欠如しているため、特定された脅威を検証する必要があるため、分析が遅くなる。 既存の文献では、脅威分析の全体的なパフォーマンスに焦点が当てられているが、これまでの研究では、アナリストが特定されたセキュリティ脅威を効果的に検証する前に、どの程度の深さを掘り下げなければならないかを調査していない。 本研究は,LLM生成アドバイスのような分析材料が,それよりも優れているか,さらに多くの材料(システムデータフロー図,LLM生成アドバイス)が,ある材料よりも優れているかを検討するための,実践者による制御実験である。 また, 41人のMSc学生を対象に, パイロットテストによる重要な知見を提示し, 学習設計の改善に利用した。 最後に、実験材料やデータ分析スクリプトを含む初期複製パッケージも提供し、実践者による最終データ収集キャンペーン(例えば、事前スクリーニング質問)に基づいて、新たな資料を含むように拡張する計画を立てています。

The arrival of recent cybersecurity standards has raised the bar for security assessments in organizations, but existing techniques don't always scale well. Threat analysis and risk assessment are used to identify security threats for new or refactored systems. Still, there is a lack of definition-of-done, so identified threats have to be validated which slows down the analysis. Existing literature has focused on the overall performance of threat analysis, but no previous work has investigated how deep must the analysts dig into the material before they can effectively validate the identified security threats. We propose a controlled experiment with practitioners to investigate whether some analysis material (like LLM-generated advice) is better than none and whether more material (the system's data flow diagram and LLM-generated advice) is better than some material. In addition, we present key findings from running a pilot with 41 MSc students, which are used to improve the study design. Finally, we also provide an initial replication package, including experimental material and data analysis scripts and a plan to extend it to include new materials based on the final data collection campaign with practitioners (e.g., pre-screening questions).
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# MathScape: 階層的ベンチマークによるマルチモーダル数学シナリオにおけるMLLMの評価

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark ( http://arxiv.org/abs/2408.07543v2 )

ライセンス: Link先を確認
Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, (参考訳) MLLM(Multimodal Large Language Models)の開発により,数学的問題におけるマルチモーダルモデルの評価が重要な研究分野となっている。 マルチモーダルな視覚・テクスチュアルな数学的推論は、MLLMの理解と複雑な多段階の定量的推論能力を評価する重要な指標となる。 しかし、従来のマルチモーダルなベンチマークでは、視覚情報とテキスト情報が十分に統合されていない。 このギャップに対処するため、我々は、視覚情報とテキスト情報を組み合わせた理解と応用を強調する新しいベンチマークであるMathScapeを提案しました。 MathScapeは、写真に基づく数学の問題シナリオを評価し、分類的階層的アプローチによってMLLMの理論的理解と応用能力を評価するように設計されている。 我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。 評価結果を解析することにより,MLLMの限界を識別し,モデルの性能向上に有用な知見を提供する。

With the development of Multimodal Large Language Models (MLLMs), the evaluation of multimodal models in the context of mathematical problems has become a valuable research field. Multimodal visual-textual mathematical reasoning serves as a critical indicator for evaluating the comprehension and complex multi-step quantitative reasoning abilities of MLLMs. However, previous multimodal math benchmarks have not sufficiently integrated visual and textual information. To address this gap, we proposed MathScape, a new benchmark that emphasizes the understanding and application of combined visual and textual information. MathScape is designed to evaluate photo-based math problem scenarios, assessing the theoretical understanding and application ability of MLLMs through a categorical hierarchical approach. We conduct a multi-dimensional evaluation on 11 advanced MLLMs, revealing that our benchmark is challenging even for the most sophisticated models. By analyzing the evaluation results, we identify the limitations of MLLMs, offering valuable insights for enhancing model performance.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# MetaSeg: 効率的なセマンティックセグメンテーションのためのMetaFormerベースのグローバルコンテキスト認識ネットワーク

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation ( http://arxiv.org/abs/2408.07576v2 )

ライセンス: Link先を確認
Beoungwoo Kang, Seunghun Moon, Yubin Cho, Hyunwoo Yu, Suk-Ju Kang, (参考訳) Transformer以外にも、Transformerのパフォーマンス改善の基礎となるアーキテクチャであるMetaFormerのキャパシティを利用する方法を検討することが重要である。 これまでの研究では、バックボーンネットワークのみに利用されていた。 従来の研究とは異なり、メタフォーマーアーキテクチャはセマンティックセグメンテーションタスクにおいてより広範囲に機能する。 バックボーンからデコーダへのメタフォーマーアーキテクチャを活用する強力なセマンティックセグメンテーションネットワークであるMetaSegを提案する。 私たちのMetaSegは、MetaFormerアーキテクチャがデコーダやバックボーンの有用なコンテキストをキャプチャする上で重要な役割を担っていることを示しています。 さらに,最近のセグメンテーション手法では,空間情報を抽出するCNNベースのバックボーンとグローバル情報を抽出するデコーダが,CNNベースのデコーダを用いたトランスフォーマベースのバックボーンよりも有効であることが示されている。 これは、CNNベースのバックボーンをMetaFormerブロックを使って採用し、グローバルコンテキストをキャプチャするための新しい自己注意モジュールで構成されるMetaFormerベースのデコーダを設計する動機となります。 セマンティックセグメンテーションのための自己アテンションのグローバルなコンテキスト抽出と計算効率の両方を考慮するために,クエリとキーのチャネル次元を1次元に縮小するチャネルリダクションアテンション(CRA)モジュールを提案する。 このようにして、提案したMetaSegは、ADE20K、Cityscapes、COCO-stuff、Synapseを含む、一般的なセマンティックセグメンテーションと医療画像セグメンテーションのベンチマークにおいて、より効率的な計算コストで従来の最先端手法よりも優れている。 コードはhttps://github.com/hyunwoo137/MetaSegで入手できる。

Beyond the Transformer, it is important to explore how to exploit the capacity of the MetaFormer, an architecture that is fundamental to the performance improvements of the Transformer. Previous studies have exploited it only for the backbone network. Unlike previous studies, we explore the capacity of the Metaformer architecture more extensively in the semantic segmentation task. We propose a powerful semantic segmentation network, MetaSeg, which leverages the Metaformer architecture from the backbone to the decoder. Our MetaSeg shows that the MetaFormer architecture plays a significant role in capturing the useful contexts for the decoder as well as for the backbone. In addition, recent segmentation methods have shown that using a CNN-based backbone for extracting the spatial information and a decoder for extracting the global information is more effective than using a transformer-based backbone with a CNN-based decoder. This motivates us to adopt the CNN-based backbone using the MetaFormer block and design our MetaFormer-based decoder, which consists of a novel self-attention module to capture the global contexts. To consider both the global contexts extraction and the computational efficiency of the self-attention for semantic segmentation, we propose a Channel Reduction Attention (CRA) module that reduces the channel dimension of the query and key into the one dimension. In this way, our proposed MetaSeg outperforms the previous state-of-the-art methods with more efficient computational costs on popular semantic segmentation and a medical image segmentation benchmark, including ADE20K, Cityscapes, COCO-stuff, and Synapse. The code is available at https://github.com/hyunwoo137/MetaSeg.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# LLM, MLLM, その他におけるモデルマージ: 方法論, 理論, 応用, 機会

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities ( http://arxiv.org/abs/2408.07666v2 )

ライセンス: Link先を確認
Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao, (参考訳) モデルマージは、生のトレーニングデータの収集を必要とせず、高価な計算を必要としない、機械学習コミュニティの効率的なエンパワーメント技術である。 モデルマージが様々な分野で普及するにつれて、利用可能なモデルマージテクニックを包括的に理解することが不可欠である。 しかし、これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。 本調査では, モデルマージ手法と理論, 各種領域および環境への応用, 今後の研究方向性について概説する。 具体的には、まず、既存のモデルマージ手法を徹底的に議論する新しい分類学的アプローチを提案する。 次に,大規模言語モデル,マルチモーダルな大規模言語モデル,連続学習,マルチタスク学習,少数ショット学習などを含む10以上の機械学習サブフィールドにおけるモデルマージ手法の適用について論じる。 最後に、モデルマージの残りの課題を強調し、今後の研究方向性について議論する。 モデルマージに関する包括的な論文のリストは、 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} で見ることができる。

Model merging is an efficient empowerment technique in the machine learning community that does not require the collection of raw training data and does not require expensive computation. As model merging becomes increasingly prevalent across various fields, it is crucial to understand the available model merging techniques comprehensively. However, there is a significant gap in the literature regarding a systematic and thorough review of these techniques. This survey provides a comprehensive overview of model merging methods and theories, their applications in various domains and settings, and future research directions. Specifically, we first propose a new taxonomic approach that exhaustively discusses existing model merging methods. Secondly, we discuss the application of model merging techniques in large language models, multimodal large language models, and 10+ machine learning subfields, including continual learning, multi-task learning, few-shot learning, etc. Finally, we highlight the remaining challenges of model merging and discuss future research directions. A comprehensive list of papers about model merging is available at \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# 深層学習 : EHRに基づく臨床データを用いた乳癌の将来リスク予測を最適化するためのグリッドサーチのためのヒューリスティックな3段階メカニズム

Deep Learning: a Heuristic Three-stage Mechanism for Grid Searches to Optimize the Future Risk Prediction of Breast Cancer Metastasis Using EHR-based Clinical Data ( http://arxiv.org/abs/2408.07673v2 )

ライセンス: Link先を確認
Xia Jiang, Yijun Zhou, Chuhan Xu, Adam Brufsky, Alan Wells, (参考訳) グリッドサーチは、多数のモデルのトレーニングとテストのコストで、ディープラーニングモデルの予測性能を最適化する効果的な方法である。 グリッド検索に関する課題は、時間管理である。 良い時間管理スキームがなければ、グリッド検索は、私たちの生涯で終わることのないミッションとして簡単にオフにできます。 本研究では,低予算グリッドサーチの実行時間を管理するためのヒューリスティックな3段階メカニズムと,5年,10年,15年の乳がん転移リスクを予測するモデル予測性能を改善するためのスイートスポットグリッドサーチ(SSGS)とランダムグリッドサーチ(RGS)戦略を提案する。 我々は、ディープフィードフォワードニューラルネットワーク(DFNN)モデルを開発し、グリッドサーチにより最適化する。 我々は3段階のメカニズムとSSGS, RGS戦略を適用して, 8サイクルのグリッドサーチを行う。 我々は、DFNNモデルハイパーパラメータの重要性を解釈するユニークなものを含む様々なSHAP分析を行う。 その結果,グリッド探索はモデル予測を大幅に改善できることがわかった。 今回行ったグリッドサーチでは, RGS戦略を用いてトレーニングしたすべてのモデルの平均成績に対して, 5年, 10年, 15年の乳癌転移のリスク予測を18.6%, 16.3%, 17.3%改善した。 我々は、最高のモデル性能を示すだけでなく、適切なモデルを見つける能力やユニットグリッド検索時間など、様々な側面からグリッド検索を特徴付ける。 三段機構は効果的に機能した。 その結果、低予算のグリッドサーチが実現可能で管理可能となり、その間にモデル予測性能の改善に役立ちました。 SHAP分析では,乳癌の予後予測に重要な臨床リスク因子と,パフォーマンススコア予測に重要なDFNNモデルハイパーパラメータの両方を同定した。

A grid search, at the cost of training and testing a large number of models, is an effective way to optimize the prediction performance of deep learning models. A challenging task concerning grid search is the time management. Without a good time management scheme, a grid search can easily be set off as a mission that will not finish in our lifetime. In this study, we introduce a heuristic three-stage mechanism for managing the running time of low-budget grid searches, and the sweet-spot grid search (SSGS) and randomized grid search (RGS) strategies for improving model prediction performance, in predicting the 5-year, 10-year, and 15-year risk of breast cancer metastasis. We develop deep feedforward neural network (DFNN) models and optimize them through grid searches. We conduct eight cycles of grid searches by applying our three-stage mechanism and SSGS and RGS strategies. We conduct various SHAP analyses including unique ones that interpret the importance of the DFNN-model hyperparameters. Our results show that grid search can greatly improve model prediction. The grid searches we conducted improved the risk prediction of 5-year, 10-year, and 15-year breast cancer metastasis by 18.6%, 16.3%, and 17.3% respectively, over the average performance of all corresponding models we trained using the RGS strategy. We not only demonstrate best model performance but also characterize grid searches from various aspects such as their capabilities of discovering decent models and the unit grid search time. The three-stage mechanism worked effectively. It made our low-budget grid searches feasible and manageable, and in the meantime helped improve model prediction performance. Our SHAP analyses identified both clinical risk factors important for the prediction of future risk of breast cancer metastasis, and DFNN-model hyperparameters important to the prediction of performance scores.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# スパイティング画像:視覚変換器におけるモジュラースーパーピクセルのトークン化

A Spitting Image: Modular Superpixel Tokenization in Vision Transformers ( http://arxiv.org/abs/2408.07680v2 )

ライセンス: Link先を確認
Marius Aasan, Odd Kolbjørnsen, Anne Schistad Solberg, Adín Ramirez Rivera, (参考訳) Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。 本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。 オンラインコンテンツ認識トークン化とスケールおよび形状不変な位置埋め込みを用いて、パッチベースのトークン化とランダム化されたパーティションをベースラインとしてアプローチを対比する実験と改善を行う。 提案手法は属性の忠実度を著しく向上させ,ゼロショット非教師付き密集予測タスクに画素レベルの粒度を与えるとともに,分類タスクにおける予測性能を維持できることを示す。 我々のアプローチは、標準アーキテクチャと相容れないモジュラートークン化フレームワークを提供し、ViTの空間をより大規模な意味的にリッチなモデルに拡張する。

Vision Transformer (ViT) architectures traditionally employ a grid-based approach to tokenization independent of the semantic content of an image. We propose a modular superpixel tokenization strategy which decouples tokenization and feature extraction; a shift from contemporary approaches where these are treated as an undifferentiated whole. Using on-line content-aware tokenization and scale- and shape-invariant positional embeddings, we perform experiments and ablations that contrast our approach with patch-based tokenization and randomized partitions as baselines. We show that our method significantly improves the faithfulness of attributions, gives pixel-level granularity on zero-shot unsupervised dense prediction tasks, while maintaining predictive performance in classification tasks. Our approach provides a modular tokenization framework commensurable with standard architectures, extending the space of ViTs to a larger class of semantically-rich models.
翻訳日:2024-08-16 12:40:10 公開日:2024-08-15
# ControlNeXt:画像と映像の高効率制御

ControlNeXt: Powerful and Efficient Control for Image and Video Generation ( http://arxiv.org/abs/2408.06070v2 )

ライセンス: Link先を確認
Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia, (参考訳) 拡散モデルは、画像生成とビデオ生成の両方において顕著でロバストな能力を示している。 生成された結果をよりコントロールするために、コンディショニングコントロールを統合するために、ControlNet、Adapters、ReferenceNetなどのアーキテクチャが導入されている。 しかし、現在の制御可能な生成法は、特にビデオ生成において、かなりの計算資源を必要とすることが多く、訓練や弱い制御の際の課題に直面している。 本稿では,制御可能画像と映像生成のための高効率な制御NeXtを提案する。 まず、より単純で効率的なアーキテクチャを設計し、ベースモデルに比べて最小限のコストで重いブランチを置き換えます。 このような簡潔な構造により、我々の手法は他のLoRA重みとシームレスに統合することができ、追加のトレーニングを必要とせずにスタイルの変更を可能にする。 トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。 さらに,Zero-Convolutionの代替としてクロス正規化(CN)と呼ばれる別の手法を提案し,高速で安定したトレーニング収束を実現する。 我々は画像とビデオの異なるベースモデルを用いて様々な実験を行い、その頑健さを実証した。

Diffusion models have demonstrated remarkable and robust abilities in both image and video generation. To achieve greater control over generated results, researchers introduce additional architectures, such as ControlNet, Adapters and ReferenceNet, to integrate conditioning controls. However, current controllable generation methods often require substantial additional computational resources, especially for video generation, and face challenges in training or exhibit weak control. In this paper, we propose ControlNeXt: a powerful and efficient method for controllable image and video generation. We first design a more straightforward and efficient architecture, replacing heavy additional branches with minimal additional cost compared to the base model. Such a concise structure also allows our method to seamlessly integrate with other LoRA weights, enabling style alteration without the need for additional training. As for training, we reduce up to 90% of learnable parameters compared to the alternatives. Furthermore, we propose another method called Cross Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and stable training convergence. We have conducted various experiments with different base models across images and videos, demonstrating the robustness of our method.
翻訳日:2024-08-16 10:43:38 公開日:2024-08-15
# ロバストアクティブラーニング(RoAL) - 弾性重み強化によるアクティブラーニングにおける動的アドバーナの対応

Robust Active Learning (RoAL): Countering Dynamic Adversaries in Active Learning with Elastic Weight Consolidation ( http://arxiv.org/abs/2408.07364v2 )

ライセンス: Link先を確認
Ricky Maulana Fajri, Yulong Pei, Lu Yin, Mykola Pechenizkiy, (参考訳) 活発な学習と敵対的攻撃の著しい進歩にもかかわらず、これらの2つの分野の交わりは未解明のままであり、特に動的敵対的脅威に対する堅牢な学習フレームワークの開発において重要である。 動的敵攻撃の下で堅牢なアクティブラーニングフレームワークを開発することの課題は、これらの攻撃がアクティブラーニングサイクル内で破滅的な忘れを招きかねないため、非常に重要である。 本稿では,ロバスト・アクティブ・ラーニング(RoAL)について紹介する。これは,弾性ウェイト・コンソリデーション(EWC)をアクティブ・ラーニング・プロセスに統合することにより,この問題に対処するための新しいアプローチである。 まず、アクティブな学習フレームワークに重大な脅威をもたらす新しい動的敵攻撃を提案する。 次に、EWCとアクティブラーニングを組み合わせることで、動的逆境攻撃による破滅的な忘れを軽減できる新しい手法を提案する。 最後に,本手法の有効性を実証するため,広範囲な実験的評価を行った。 その結果,RoALは動的敵対的脅威に対して効果的に対処するだけでなく,破滅的忘れ込みの影響を著しく低減し,敵的環境における能動的学習システムの堅牢性と性能を向上させることが示唆された。

Despite significant advancements in active learning and adversarial attacks, the intersection of these two fields remains underexplored, particularly in developing robust active learning frameworks against dynamic adversarial threats. The challenge of developing robust active learning frameworks under dynamic adversarial attacks is critical, as these attacks can lead to catastrophic forgetting within the active learning cycle. This paper introduces Robust Active Learning (RoAL), a novel approach designed to address this issue by integrating Elastic Weight Consolidation (EWC) into the active learning process. Our contributions are threefold: First, we propose a new dynamic adversarial attack that poses significant threats to active learning frameworks. Second, we introduce a novel method that combines EWC with active learning to mitigate catastrophic forgetting caused by dynamic adversarial attacks. Finally, we conduct extensive experimental evaluations to demonstrate the efficacy of our approach. The results show that RoAL not only effectively counters dynamic adversarial threats but also significantly reduces the impact of catastrophic forgetting, thereby enhancing the robustness and performance of active learning systems in adversarial environments.
翻訳日:2024-08-16 10:43:38 公開日:2024-08-15
# DIffSteISR:スーパーワールドステレオ画像の高分解能化に先立って拡散を悪化させる

DIffSteISR: Harnessing Diffusion Prior for Superior Real-world Stereo Image Super-Resolution ( http://arxiv.org/abs/2408.07516v2 )

ライセンス: Link先を確認
Yuanbo Zhou, Xinlin Zhang, Wei Deng, Tao Wang, Tao Tan, Qinquan Gao, Tong Tong, (参考訳) DiffSteISRは、現実世界のステレオ画像の再構築のための先駆的なフレームワークである。 DiffSteISRは、事前訓練されたテキスト・画像モデルに埋め込まれた強力な事前知識を利用して、低解像度ステレオ画像における失われたテクスチャの詳細を効率的に回収する。 具体的には、DiffSteISRは、温度アダプタ(TASCATA)を用いてタイムアウェアなステレオクロスアテンションを実装し、生成した左右ビューが高いテクスチャ一貫性を示すことを保証することにより、超解像と地上真実(GT)画像との相違誤差を低減する。 さらに、画素、知覚、分布空間におけるGT画像との超解像の整合性を高めるために、ステレオオムニアテンション制御ネットワーク(SOA ControlNet)を提案する。 最後に、DiffSteISRはステレオセマンティック抽出器(SSE)を導入し、ユニークな視点のソフトセマンティック情報を取得し、ハードタグセマンティック情報を共有することにより、生成した左右画像の意味精度と一貫性を効果的に向上する。 DiffSteISRは低解像度ステレオ画像から自然的・精密なテクスチャを正確に再構築し, 左右のビュー間のセマンティックスとテクスチャの整合性を維持した。

We introduce DiffSteISR, a pioneering framework for reconstructing real-world stereo images. DiffSteISR utilizes the powerful prior knowledge embedded in pre-trained text-to-image model to efficiently recover the lost texture details in low-resolution stereo images. Specifically, DiffSteISR implements a time-aware stereo cross attention with temperature adapter (TASCATA) to guide the diffusion process, ensuring that the generated left and right views exhibit high texture consistency thereby reducing disparity error between the super-resolved images and the ground truth (GT) images. Additionally, a stereo omni attention control network (SOA ControlNet) is proposed to enhance the consistency of super-resolved images with GT images in the pixel, perceptual, and distribution space. Finally, DiffSteISR incorporates a stereo semantic extractor (SSE) to capture unique viewpoint soft semantic information and shared hard tag semantic information, thereby effectively improving the semantic accuracy and consistency of the generated left and right images. Extensive experimental results demonstrate that DiffSteISR accurately reconstructs natural and precise textures from low-resolution stereo images while maintaining a high consistency of semantic and texture between the left and right views.
翻訳日:2024-08-16 10:43:38 公開日:2024-08-15