このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240721となっている論文です。

PDF登録状況(公開日: 20240721)

TitleAuthorsAbstract論文公表日・翻訳日
# クラウドマイクロサービスにおける異常検出のための合成時系列

Synthetic Time Series for Anomaly Detection in Cloud Microservices ( http://arxiv.org/abs/2408.00006v1 )

ライセンス: Link先を確認
Mohamed Allam, Noureddine Boujnah, Noel E. O'Connor, Mingming Liu, (参考訳) 本稿では,クラウドマイクロサービスにおける異常検出を調査するための時系列生成フレームワークを提案する。 クラウドコンピューティングの分野では、マイクロサービスの信頼性を保証することが最重要課題でありながら、非常に難しい課題です。 この分野における多くの研究にもかかわらず、現実的な環境における異常検出アルゴリズムの検証は困難である。 この課題に対処するために,通常のマイクロサービスと異常なマイクロサービスの挙動を表す複雑な時系列パターンを模倣するフレームワークを提案する。 マイクロサービスのデプロイメントと管理を可能にするパイプライン実装と、異常生成に必要な理論的アプローチについて詳述する。 提案されたフレームワークを使って生成された2つのデータセットがGitHubから公開されている。

This paper proposes a framework for time series generation built to investigate anomaly detection in cloud microservices. In the field of cloud computing, ensuring the reliability of microservices is of paramount concern and yet a remarkably challenging task. Despite the large amount of research in this area, validation of anomaly detection algorithms in realistic environments is difficult to achieve. To address this challenge, we propose a framework to mimic the complex time series patterns representative of both normal and anomalous cloud microservices behaviors. We detail the pipeline implementation that allows deployment and management of microservices as well as the theoretical approach required to generate anomalies. Two datasets generated using the proposed framework have been made publicly available through GitHub.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-21
# 教育におけるジェネレーティブ・人工知能(GenAI)導入の枠組み

Framework for Adoption of Generative Artificial Intelligence (GenAI) in Education ( http://arxiv.org/abs/2408.01443v1 )

ライセンス: Link先を確認
Samar Shailendra, Rajan Kadel, Aakanksha Sharma, (参考訳) コントリビューション:GenAIを大学カリキュラムに含めるための採用フレームワーク。 採用プロセスにおいて、異なる利害関係者(大学経営、学生、スタッフなど)の役割を特定し、強調する。 また、GenAI導入の成功と成果を評価するための評価行列に基づく客観的アプローチを提案する。 背景: 世界中の大学は、カリキュラムにおけるGenAIの採用について議論し、苦労している。 教員も学生も、行政や規制当局による明確なガイドラインが欠如しているため、このアプローチについて不確実である。 これは、プロセスを定義し、関係する各ステークホルダーの役割と責任を明確にするための確立したフレームワークを必要とします。 研究課題:GenAIをカリキュラムに採用するには,学術エコシステムが方法論を必要とするか? 学生の学習成果がGenAIの採用に適合することを保証するための,学術スタッフの体系的なアプローチ。 大学におけるGenAI導入の計測・伝達方法 方法論:本研究で採用される方法論は、大学教育制度の検証と、GenAIを教育・学習に取り入れることに関連する機会と課題の評価に焦点をあてる。 さらに、学術環境におけるGenAIの効果的な統合を阻害する包括的なフレームワークのギャップと欠如を識別する。 文献調査の結果は、異なる利害関係者の心のジレンマを反映した、大学によるGenAIの採用が制限されているか、全くないことを示している。 GenAIの採用を成功させるためには、標準フレームワークが提案されている。 一 講習カリキュラムの効果的な再設計のためのもの 二 職員及び学生を許すためのもの 三 採用プロセスの有効性及び成功を評価するための評価行列を定義すること。

Contributions: An adoption framework to include GenAI in the university curriculum. It identifies and highlights the role of different stakeholders (university management, students, staff, etc.) during the adoption process. It also proposes an objective approach based upon an evaluation matrix to assess the success and outcome of the GenAI adoption. Background: Universities worldwide are debating and struggling with the adoption of GenAI in their curriculum. Both the faculty and students are unsure about the approach in the absence of clear guidelines through the administration and regulators. This requires an established framework to define a process and articulate the roles and responsibilities of each stakeholder involved. Research Questions: Whether the academic ecosystem requires a methodology to adopt GenAI into its curriculum? A systematic approach for the academic staff to ensure the students' learning outcomes are met with the adoption of GenAI. How to measure and communicate the adoption of GenAI in the university setup? Methodology: The methodology employed in this study focuses on examining the university education system and assessing the opportunities and challenges related to incorporating GenAI in teaching and learning. Additionally, it identifies a gap and the absence of a comprehensive framework that obstructs the effective integration of GenAI within the academic environment. Findings: The literature survey results indicate the limited or no adoption of GenAI by the university, which further reflects the dilemma in the minds of different stakeholders. For the successful adoption of GenAI, a standard framework is proposed i) for effective redesign of the course curriculum, ii) for enabling staff and students, iii) to define an evaluation matrix to measure the effectiveness and success of the adoption process.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-21
# サイズが大きすぎる。LLMを企業規模で活用する際の難しさと落とし穴

No Size Fits All: The Perils and Pitfalls of Leveraging LLMs Vary with Company Size ( http://arxiv.org/abs/2408.01444v1 )

ライセンス: Link先を確認
Ashok Urlana, Charaka Vinayak Kumar, Bala Mallikarjunarao Garlapati, Ajeet Kumar Singh, Rahul Mishra, (参考訳) 大規模言語モデル(LLM)は、大規模な汎大陸企業から新興スタートアップに至るまで、さまざまな組織にわたる戦略的ユースケースの展開において重要な役割を担っている。 LLMの活用が成功する際の課題や課題は、組織の大きさによって大きく異なる可能性がある。 産業的関心事の規模とブレインストーム可能な解決策と今後の方向性に焦点をあてて,これらのLLM適応の関連する課題を研究,議論することが重要である。 このような研究は、現在の研究文献では顕著に取り上げられていない。 本研究では、まず、業界関係者とケーススタディを行い、重要な研究課題を定式化し、次に、これらの課題に対処するための既存の産業出版物について検討し、最後に、LCMをより効率的に活用するための実践的なガイドを提供する。

Large language models (LLMs) are playing a pivotal role in deploying strategic use cases across a range of organizations, from large pan-continental companies to emerging startups. The issues and challenges involved in the successful utilization of LLMs can vary significantly depending on the size of the organization. It is important to study and discuss these pertinent issues of LLM adaptation with a focus on the scale of the industrial concerns and brainstorm possible solutions and prospective directions. Such a study has not been prominently featured in the current research literature. In this study, we adopt a threefold strategy: first, we conduct a case study with industry practitioners to formulate the key research questions; second, we examine existing industrial publications to address these questions; and finally, we provide a practical guide for industries to utilize LLMs more efficiently.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-21
# 説明可能なAIによる産業用侵入検知システム 5.0: 文献, 課題, 既存の解決策, 可能性研究の方向性の概要

Explainable AI-based Intrusion Detection System for Industry 5.0: An Overview of the Literature, associated Challenges, the existing Solutions, and Potential Research Directions ( http://arxiv.org/abs/2408.03335v1 )

ライセンス: Link先を確認
Naseem Khan, Kashif Ahmad, Aref Al Tamimi, Mohammed M. Alani, Amine Bermak, Issa Khalil, (参考訳) 製造におけるさまざまなタスクを実行するための人間と人工知能(AI)コラボレーションに焦点を当てた産業用5.0は、より多くのロボット、IoT(Internet of Things)デバイスと相互接続、AR(Augmented/Virtual Reality)その他のスマートデバイスを含んでいる。 これらのデバイスと、経済、健康、教育、防衛システムなど、さまざまな重要な分野における相互接続の巨大な関与は、いくつかの潜在的なセキュリティ欠陥を引き起こしている。 AI自体は、侵入検知、マルウェア検出、フィッシング検出など、さまざまなサイバーセキュリティ分野において、非常に効果的で強力なツールであることが証明されている。 多くのアプリケーション分野と同様に、サイバーセキュリティの専門家は、サイバーセキュリティアプリケーションに対するブラックボックスMLソリューションを受け入れることに消極的だった。 この反省は、MLベースのシステムにおける意思決定の仕方を説明するツールとして、eXplainable Artificial Intelligence(XAI)の採用を推し進めた。 本稿では,業界5.0における各種XAIによる侵入検知システムに関する包括的調査と,Adversarial XIDS (Adv-XIDS) アプローチのレンズによるサイバーセキュリティ実践に対する説明可能性と解釈性の影響について検討する。 さらに,業界5.0におけるXAIサイバーセキュリティシステムの可能性と課題について分析し,今後,業界5.0で採用されるXAIベースのソリューションについて検討する。 この厳密な分析は、特定の領域内でのその後の研究活動の基礎となる枠組みを確立できると信じている。

Industry 5.0, which focuses on human and Artificial Intelligence (AI) collaboration for performing different tasks in manufacturing, involves a higher number of robots, Internet of Things (IoTs) devices and interconnections, Augmented/Virtual Reality (AR), and other smart devices. The huge involvement of these devices and interconnection in various critical areas, such as economy, health, education and defense systems, poses several types of potential security flaws. AI itself has been proven a very effective and powerful tool in different areas of cybersecurity, such as intrusion detection, malware detection, and phishing detection, among others. Just as in many application areas, cybersecurity professionals were reluctant to accept black-box ML solutions for cybersecurity applications. This reluctance pushed forward the adoption of eXplainable Artificial Intelligence (XAI) as a tool that helps explain how decisions are made in ML-based systems. In this survey, we present a comprehensive study of different XAI-based intrusion detection systems for industry 5.0, and we also examine the impact of explainability and interpretability on Cybersecurity practices through the lens of Adversarial XIDS (Adv-XIDS) approaches. Furthermore, we analyze the possible opportunities and challenges in XAI cybersecurity systems for industry 5.0 that elicit future research toward XAI-based solutions to be adopted by high-stakes industry 5.0 applications. We believe this rigorous analysis will establish a foundational framework for subsequent research endeavors within the specified domain.
翻訳日:2024-08-19 04:39:15 公開日:2024-07-21
# ニューロモルフィックハードウェアにおける個別ブレーキインテント検出のためのFew-Shot Transfer Learning

Few-Shot Transfer Learning for Individualized Braking Intent Detection on Neuromorphic Hardware ( http://arxiv.org/abs/2408.03336v1 )

ライセンス: Link先を確認
Nathan Lutes, Venkata Sriram Siddhardh Nadendla, K. Krishnamurthy, (参考訳) 目的:本研究は、脳チップのAkida AKD1000ニューロモルフィックシステム上で、従来の脳波データを用いたグループレベルのモデルではなく、個々のレベルを開発するための、畳み込みスパイクニューラルネットワーク(CSNN)のトレーニングと実装に、数発のトランスファー学習手法を使用することを検討する。 本手法の有効性について,ブレーキ意図を予測する先進運転支援システム関連課題について検討した。 主な結果: グループレベルのモデルを3つの訓練エポックに迅速に適応させ, 少なくとも90%の精度, 正の正の率, 正の負の率を達成し, 個別の制動意図予測モデルを開発するための方法論の有効性を示す。 さらに、Akida AKD1000プロセッサをIntel Xeon CPUと比較すると、レイテンシが1.3倍の97%以上のエネルギー削減効果を示した。 同様の結果は、19チャンネル中5チャンネルのサブセットを用いて、その後のアブレーション研究で得られた。 意義:本研究は,新たなデータが利用可能になるとCSNNをトレーニングし,操作条件が変化し,グループレベルのモデルをカスタマイズし,個々の個人固有のパーソナライズされたモデルを生成するニューロモルフィックプロセッサに実装した,エネルギー効率のよい,数発のトランスファー学習手法を提案する。

Objective: This work explores use of a few-shot transfer learning method to train and implement a convolutional spiking neural network (CSNN) on a BrainChip Akida AKD1000 neuromorphic system-on-chip for developing individual-level, instead of traditionally used group-level, models using electroencephalographic data. The efficacy of the method is studied on an advanced driver assist system related task of predicting braking intention. Main Results: Efficacy of the above methodology to develop individual specific braking intention predictive models by rapidly adapting the group-level model in as few as three training epochs while achieving at least 90% accuracy, true positive rate and true negative rate is presented. Further, results show an energy reduction of over 97% with only a 1.3x increase in latency when using the Akida AKD1000 processor for network inference compared to an Intel Xeon CPU. Similar results were obtained in a subsequent ablation study using a subset of five out of 19 channels. Significance: Especially relevant to real-time applications, this work presents an energy-efficient, few-shot transfer learning method that is implemented on a neuromorphic processor capable of training a CSNN as new data becomes available, operating conditions change, or to customize group-level models to yield personalized models unique to each individual.
翻訳日:2024-08-19 04:39:15 公開日:2024-07-21
# ゴールデンコードフィードバックを用いた対話生成のための大規模言語モデル

Large Language Model for Verilog Generation with Golden Code Feedback ( http://arxiv.org/abs/2407.18271v1 )

ライセンス: Link先を確認
Ning Wang, Bingkun Yao, Jie Zhou, Xi Wang, Zhe Jiang, Nan Guan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語命令からレジスタ・トランスファー・レベル(RTL)コード、特にVerilogの自動生成に大きな関心を喚起している。 ChatGPTのような商用のLLMがこの領域を支配しているが、オープンソースの代替製品は、この新興技術の柔軟性とデータプライバシを制限して、大幅にパフォーマンスを低下させている。 本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。 オープンソースデータとベースモデルを活用することで、最先端のSOTA(State-of-the-art)の成果をかなりのマージンで達成しました。 特に、我々の6.7Bパラメータモデル \ours{} は、現在の13Bおよび16Bモデルと比較して優れた性能を示す。 さらに、直接微調整の限界と強化学習の訓練力学を包括的に分析することにより、Verilogのコード固有の並列セマンティクスと整合した包括的な監視信号の開発が、効果的な生成に不可欠であると仮定する。 この研究に関連するコードとデータは、 \url{https://github.com/CatIIIIIIII/veriseek}で公開されている。 モデルウェイトは \url{https://huggingface.co/WANGNingroci/VeriSeek} でアクセスすることができる。

Recent advancements in large language models (LLMs) have catalyzed significant interest in the automatic generation of Register-Transfer Level (RTL) code, particularly Verilog, from natural language instructions. While commercial LLMs like ChatGPT have dominated this domain, open-source alternatives have lagged considerably in performance, limiting the flexibility and data privacy of this emerging technology. This study introduces a novel approach utilizing reinforcement learning with golden code feedback to enhance the performance of pre-trained models. Leveraging open-source data and base models, we have achieved state-of-the-art (SOTA) results with a substantial margin. Notably, our 6.7B parameter model \ours{} demonstrates superior performance compared to current best-in-class 13B and 16B models. Furthermore, through a comprehensive analysis of the limitations in direct fine-tuning and the training dynamics of reinforcement learning, we posit that the development of comprehensive supervisory signals, which are align with the inherent parallel semantics of Verilog code, is critical to effective generation. The code and data associated with this research are publicly available at \url{https://github.com/CatIIIIIIII/veriseek}. The model weights can be accessed at \url{https://huggingface.co/WANGNingroci/VeriSeek}.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-21
# AutoVCoder: LLMを用いたVerilogコードの自動生成のためのシステムフレームワーク

AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs ( http://arxiv.org/abs/2407.18333v1 )

ライセンス: Link先を確認
Mingzhe Gao, Jieru Zhao, Zhe Lin, Wenchao Ding, Xiaofeng Hou, Yu Feng, Chao Li, Minyi Guo, (参考訳) 近年,C/C++やPythonなど,ソフトウェアコード生成に大規模言語モデル(LLM)を使用することで,大きな成功を収めている。 しかし、LLMはVerilogのようなレジスタ転送レベル(RTL)コードの生成に関して、構文的および機能的正確性に悩まされている。 本稿では,Verilog コード生成における LLM の正確性を大幅に向上し,出力品質を同時に向上するオープンソースフレームワークである AutoVCoder を開発した。 本フレームワークは,高品質なハードウェアデータセット生成手法,2ラウンドのLCMファインチューニング手法,ドメイン固有検索拡張生成(RAG)機構など,3つの新しい手法を統合する。 実験の結果,AutoVCoderはVerilogコード生成において,産業用LLMと学術用LLMの両方に優れていた。 具体的には、AutoVCoderは、EvalMachineとEvalHumanのベンチマークでBetterVと比較して、機能的正しさが0.5%と2.2%向上しており、RTLLMベンチマークでは構文的正しさが3.4%、機能的正しさが3.4%向上している。

Recently, the use of large language models (LLMs) for software code generation, e.g., C/C++ and Python, has proven a great success. However, LLMs still suffer from low syntactic and functional correctness when it comes to the generation of register-transfer level (RTL) code, such as Verilog. To address this issue, in this paper, we develop AutoVCoder, a systematic open-source framework that significantly improves the LLMs' correctness of generating Verilog code and enhances the quality of its output at the same time. Our framework integrates three novel techniques, including a high-quality hardware dataset generation approach, a two-round LLM fine-tuning method and a domain-specific retrieval-augmented generation (RAG) mechanism. Experimental results demonstrate that AutoVCoder outperforms both industrial and academic LLMs in Verilog code generation. Specifically, AutoVCoder shows a 0.5% and 2.2% improvement in functional correctness on the EvalMachine and EvalHuman benchmarks compared with BetterV, and also achieves a 3.4% increase in syntax correctness and a 3.4% increase in functional correctness on the RTLLM benchmark compared with RTLCoder.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-21
# 自然言語とSageCopilotによるデータサイエンスの自動化に向けて--実践と教訓

Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned ( http://arxiv.org/abs/2407.21040v1 )

ライセンス: Link先を確認
Yuan Liao, Jiang Bian, Yuhui Yun, Shuo Wang, Yubo Zhang, Jiaming Chu, Tao Wang, Kewei Li, Yuchen Li, Xuhong Li, Shilei Ji, Haoyi Xiong, (参考訳) NL2SQLの分野は、データクエリと処理のための実行可能SQLスクリプトへの自然言語命令の変換において、大きな進歩を遂げているが、データクエリ、分析、可視化、レポートを含む、より広範なデータサイエンスパイプライン内で完全な自動化を実現することは、依然として複雑な課題である。 本研究では、大規模言語モデル(LLM)、自律エージェント(AutoAgents)、言語ユーザインタフェース(LUIs)を統合することにより、データサイエンスパイプラインを自動化する高度な産業レベルのシステムであるSageCopilotを紹介する。 具体的には、SageCopilotは2段階の設計を取り入れている: オンラインコンポーネントは、インコンテキストラーニング(ICL)を通じてユーザの入力を実行可能なスクリプトに精製し、結果のレポートと視覚化のためのスクリプトを実行し、オンラインフェーズでICLが要求するオフライン準備デモを実行する。 Chain-of-Thoughtやpush-tuningといったトレンド戦略のリストは、パフォーマンス向上のためにSageCopilotの拡張に使用されている。 厳密なテストとプロンプトベースのソリューションの比較分析を通じて、SageCopilotは、実世界のデータセットを背景としたスクリプトの生成や実行において、優れたエンドツーエンドパフォーマンスを実現するために、実証的に検証されている。 当社の詳細なアブレーション調査では、SageCopilotが使用するさまざまなコンポーネントと戦略の個々の貢献を、データサイエンスのエンドツーエンドの正しさに当てはめています。

While the field of NL2SQL has made significant advancements in translating natural language instructions into executable SQL scripts for data querying and processing, achieving full automation within the broader data science pipeline - encompassing data querying, analysis, visualization, and reporting - remains a complex challenge. This study introduces SageCopilot, an advanced, industry-grade system system that automates the data science pipeline by integrating Large Language Models (LLMs), Autonomous Agents (AutoAgents), and Language User Interfaces (LUIs). Specifically, SageCopilot incorporates a two-phase design: an online component refining users' inputs into executable scripts through In-Context Learning (ICL) and running the scripts for results reporting & visualization, and an offline preparing demonstrations requested by ICL in the online phase. A list of trending strategies such as Chain-of-Thought and prompt-tuning have been used to augment SageCopilot for enhanced performance. Through rigorous testing and comparative analysis against prompt-based solutions, SageCopilot has been empirically validated to achieve superior end-to-end performance in generating or executing scripts and offering results with visualization, backed by real-world datasets. Our in-depth ablation studies highlight the individual contributions of various components and strategies used by SageCopilot to the end-to-end correctness for data sciences.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-21
# 互いに似ている:大規模言語モデルを用いたTwitter上の説明可能な抑うつ検出のためのケースベース推論

They Look Like Each Other: Case-based Reasoning for Explainable Depression Detection on Twitter using Large Language Models ( http://arxiv.org/abs/2407.21041v1 )

ライセンス: Link先を確認
Mohammad Saeid Mahdavinejad, Peyman Adibi, Amirhassan Monadjemi, Pascal Hitzler, (参考訳) うつ病は、迅速な診断と治療を必要とする一般的な精神疾患である。 ソーシャルメディアデータによる抑うつ検出の約束にもかかわらず、採用されたディープラーニングモデルの不透明さは、解釈可能性を妨げるとともに、バイアスの懸念を引き起こす。 この課題に対処するため、Twitterベースの抑うつ検出のための新しい説明可能なフレームワークであるProtoDepを紹介した。 ProtoDepは,3つのレベルで透明な説明を提供するために,プロトタイプ学習と大規模言語モデルの生成能力を活用する。 (i)各ツイートとユーザに対する症状レベルの説明。 二 利用者を類似した個人と比較する事例に基づく説明 三 分類重量による透明な意思決定 ProtoDepは5つのベンチマークデータセットに基づいて、最先端のパフォーマンスを達成し、有意義なプロトタイプを学習する。 この多面的アプローチは、ソーシャルメディアにおけるうつ病検出の信頼性と透明性を高める大きな可能性を秘めており、最終的にはメンタルヘルスの専門家がより知的なケアを提供するのに役立つ。

Depression is a common mental health issue that requires prompt diagnosis and treatment. Despite the promise of social media data for depression detection, the opacity of employed deep learning models hinders interpretability and raises bias concerns. We address this challenge by introducing ProtoDep, a novel, explainable framework for Twitter-based depression detection. ProtoDep leverages prototype learning and the generative power of Large Language Models to provide transparent explanations at three levels: (i) symptom-level explanations for each tweet and user, (ii) case-based explanations comparing the user to similar individuals, and (iii) transparent decision-making through classification weights. Evaluated on five benchmark datasets, ProtoDep achieves near state-of-the-art performance while learning meaningful prototypes. This multi-faceted approach offers significant potential to enhance the reliability and transparency of depression detection on social media, ultimately aiding mental health professionals in delivering more informed care.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-21
# 分布不確実な力学系のオンライン最適化とあいまいさに基づく学習

Online Optimization and Ambiguity-based Learning of Distributionally Uncertain Dynamic Systems ( http://arxiv.org/abs/2102.09111v2 )

ライセンス: Link先を確認
Dan Li, Dariush Fooladivanda, Sonia Martinez, (参考訳) 本稿では,分散的に不確実な力学系のクラスを対象とする最適化問題 (P) に対して,データ駆動型オンラインソリューションを構築するための新しい手法を提案する。 導入されたフレームワークは、有限履歴データセットを用いてパラメータ化された制御依存曖昧性セットを通じて分布系の不確かさを同時学習し、確率的後悔関数境界でオンライン決定を行う。 機械学習の利点を生かして、主要な技術的アプローチは分散ロバスト最適化(DRO)の理論に依存し、不確実性に対処し、標準的なロバスト最適化アプローチよりも保守的な結果を提供する。 パラメータ化および制御に依存した経験分布とあいまいさラディウスを用いたあいまいさ集合を記述する最近の結果から、確率的保証を維持しつつ、対応する最適化問題のトラクタブルな再構成を最初に提示する。 次にこれらの問題を事例に専門化する。 1)分布不確実な非線形系の最適一段階制御、及び 2【配当の不確実性による資源配分】 この研究の斬新な点は、DROを分散的に不確実な力学系の制約を受けるオンライン最適化問題に拡張し、制御依存曖昧性セットによって処理し、後悔境界に対する確率的保証を伴うオンライントラクタブルな最適化へと導くことである。 さらに,Nesterovの高速化段階アルゴリズムのオンライン版を導入し,その性能を解析して,分散性理論を用いてこの問題のクラスを解く。

This paper proposes a novel approach to construct data-driven online solutions to optimization problems (P) subject to a class of distributionally uncertain dynamical systems. The introduced framework allows for the simultaneous learning of distributional system uncertainty via a parameterized, control-dependent ambiguity set using a finite historical data set, and its use to make online decisions with probabilistic regret function bounds. Leveraging the merits of Machine Learning, the main technical approach relies on the theory of Distributional Robust Optimization (DRO), to hedge against uncertainty and provide less conservative results than standard Robust Optimization approaches. Starting from recent results that describe ambiguity sets via parameterized, and control-dependent empirical distributions as well as ambiguity radii, we first present a tractable reformulation of the corresponding optimization problem while maintaining the probabilistic guarantees. We then specialize these problems to the cases of 1) optimal one-stage control of distributionally uncertain nonlinear systems, and 2) resource allocation under distributional uncertainty. A novelty of this work is that it extends DRO to online optimization problems subject to a distributionally uncertain dynamical system constraint, handled via a control-dependent ambiguity set that leads to online-tractable optimization with probabilistic guarantees on regret bounds. Further, we introduce an online version of Nesterov's accelerated-gradient algorithm, and analyze its performance to solve this class of problems via dissipativity theory.
翻訳日:2024-07-26 20:20:10 公開日:2024-07-21
# K‐Means

Breathing K-Means ( http://arxiv.org/abs/2006.15666v4 )

ライセンス: Link先を確認
Bernd Fritzke, (参考訳) 我々は,k-meansアルゴリズムを導入し,k-means++アルゴリズムを大幅に改良し,k-meansをScikit-learnパッケージにクラスタリングするデフォルト手法を提案する。 提案手法は, 局所誤差と有効性尺度に基づいて, センチロイドを循環的に増加・減少させることにより, k-means++ による解を改善することができる。 我々は,greedy k-means++をベースラインとして実験を行い,呼吸k-meansおよび他の5つのk-meansアルゴリズムと比較した。 その結果,k-meansの呼吸とk-means++の呼吸は基線より一貫して優れ,k-meansの呼吸は有意なリードを示した。 この優れた性能は、他の全てのアルゴリズムの10ランの最良の結果と1ランの呼吸k-meansと比較しても維持され、その効果と速度が実証された。 以上の結果から,呼吸k-meansアルゴリズムは他のk-means法,特にgreedy k-means++を10回繰り返して上回り,解の質と速度の両方で優位であることがわかった。 これによりk-meansの呼吸がgreedy k-means++の完全な置き換えとなる。

We introduce the breathing k-means algorithm, which significantly improves upon the widely-known greedy k-means++ algorithm, the default method for k-means clustering in the scikit-learn package. Our approach is able to improve solutions obtained by greedy k-means++ through a novel 'breathing' technique cyclically increasing and decreasing the number of centroids based on local error and utility measures. We conducted experiments using greedy k-means++ as a baseline, comparing it with breathing k-means and five other k-means algorithms. Among the methods investigated, only breathing k-means and better k-means++ consistently outperformed the baseline, with breathing k-means demonstrating a substantial lead. This superior performance was maintained even when comparing the best result of ten runs for all other algorithms to a single run of breathing k-means, demonstrating its effectiveness and speed. Our findings indicate that the breathing k-means algorithm outperforms the other k-means techniques, especially greedy k-means++ with ten repetitions, which it dominates in both solution quality and speed. This positions breathing k-means as a full replacement for greedy k-means++.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-21
# LSTMオートエンコーダを用いた大麦遺伝子間予測のためのディープニューラルネットワーク

LSTM Autoencoder-based Deep Neural Networks for Barley Genotype-to-Phenotype Prediction ( http://arxiv.org/abs/2407.16709v1 )

ライセンス: Link先を確認
Guanjin Wang, Junyu Xuan, Penghao Wang, Chengdao Li, Jie Lu, (参考訳) 人工知能(AI)は、作物の生産性の向上、最適化された資源利用、農業の持続可能性、情報的意思決定など、精密農業の鍵を握っている。 また、ゲノムシークエンシング技術の拡充により、作物ゲノム資源が大幅に増加し、遺伝的変異の理解が深まり、様々な環境におけるパフォーマンスを最適化するために好まれる作物形質が強化された。 機械学習(ML)とディープラーニング(DL)アルゴリズムを、大規模な高次元データセット内での複雑な相互作用の捕捉に長けていることから、ジェノタイプからフェノタイプへの予測に利用することへの関心が高まっている。 本研究では,大麦の遺伝子型からフェノタイプへの予測,特に開花時期と収量推定のためのLSTMオートエンコーダモデルを提案する。 本モデルでは, 複雑な高次元農業データセットの処理や, 作物の表現型予測性能の向上など, その他のベースライン手法よりも優れていた。

Artificial Intelligence (AI) has emerged as a key driver of precision agriculture, facilitating enhanced crop productivity, optimized resource use, farm sustainability, and informed decision-making. Also, the expansion of genome sequencing technology has greatly increased crop genomic resources, deepening our understanding of genetic variation and enhancing desirable crop traits to optimize performance in various environments. There is increasing interest in using machine learning (ML) and deep learning (DL) algorithms for genotype-to-phenotype prediction due to their excellence in capturing complex interactions within large, high-dimensional datasets. In this work, we propose a new LSTM autoencoder-based model for barley genotype-to-phenotype prediction, specifically for flowering time and grain yield estimation, which could potentially help optimize yields and management practices. Our model outperformed the other baseline methods, demonstrating its potential in handling complex high-dimensional agricultural datasets and enhancing crop phenotype prediction performance.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-21
# マルチビューキャプチャにおける品質表面被覆の改善手法

A Novel Method to Improve Quality Surface Coverage in Multi-View Capture ( http://arxiv.org/abs/2407.15883v1 )

ライセンス: Link先を確認
Wei-Lun Huang, Davood Tashayyod, Amir Gandjbakhche, Michael Kazhdan, Mehran Armand, (参考訳) カメラの被写界深度は、被写体から被写体までの距離が短い場合や、全身写真、考古学、その他の近距離写真撮影などの焦点距離が大きい場合の限界因子である。 さらに、ターゲットがカメラの視野よりも大きいマルチビューキャプチャでは、品質でキャプチャされた表面のカバレッジを最適化する効率的な方法が課題である。 対象物体の3次元メッシュとカメラのポーズを考慮し,被被覆表面積の品質を最適化するカメラ毎に焦点距離を導出する手法を提案する。 まず,カメラに一意にメッシュ上の点を割り当てる期待最小化(EM)アルゴリズムを設計し,関連する点集合から各カメラに焦点距離を求める。 複数ビューを同時に検討することで、ポイント割り当てとフォーカス距離の問題を解決する$k$-viewアルゴリズムを提案することにより、品質面のカバレッジをさらに向上する。 本手法の有効性を,全身撮影における様々なシミュレーションで示す。 EMと$k$-viewアルゴリズムは、それぞれ24ドル%と28ドル%の基準単一ビュー法の相対コストを、約1550ドルcm$^2$と1780ドルcm$^2$の増加に対応して改善する。 このアルゴリズムは、光グラムの細部を必要とするが、視野の深さによって制限される多くの視覚アプリケーションで有用であると考えている。

The depth of field of a camera is a limiting factor for applications that require taking images at a short subject-to-camera distance or using a large focal length, such as total body photography, archaeology, and other close-range photogrammetry applications. Furthermore, in multi-view capture, where the target is larger than the camera's field of view, an efficient way to optimize surface coverage captured with quality remains a challenge. Given the 3D mesh of the target object and camera poses, we propose a novel method to derive a focus distance for each camera that optimizes the quality of the covered surface area. We first design an Expectation-Minimization (EM) algorithm to assign points on the mesh uniquely to cameras and then solve for a focus distance for each camera given the associated point set. We further improve the quality surface coverage by proposing a $k$-view algorithm that solves for the points assignment and focus distances by considering multiple views simultaneously. We demonstrate the effectiveness of the proposed method under various simulations for total body photography. The EM and $k$-view algorithms improve the relative cost of the baseline single-view methods by at least $24$% and $28$% respectively, corresponding to increasing the in-focus surface area by roughly $1550$ cm$^2$ and $1780$ cm$^2$. We believe the algorithms can be useful in a number of vision applications that require photogrammetric details but are limited by the depth of field.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-21
# クロスアテンションを用いた機械的換気の必要性予測の改善

Improving Prediction of Need for Mechanical Ventilation using Cross-Attention ( http://arxiv.org/abs/2407.15885v1 )

ライセンス: Link先を確認
Anwesh Mohanty, Supreeth P. Shashikumar, Jonathan Y. Lam, Shamim Nemati, (参考訳) 集中治療室では、機械的換気(MV)の必要性を予測する能力により、よりタイムリーな介入により、患者の成果を改善することができる。 近年の研究では,機械学習モデルを用いたタスクの性能が向上している。 本稿では,より正確なMV予測を行い,個別患者のコンテキスト情報を学習することで偽陽性を減らすために,多視点注意型深層学習モデル(FFNN-MHA)の新たな応用について検討する。 MIMIC-IVデータセットを利用することで、FFNN-MHAは、フィードフォワードニューラルネットワークのようなベースラインモデルと比較して、AUCでの0.0379の改善と偽陽性の17.8%の減少を示す。 本研究は,医療現場における機械的換気の必要性を正確に予測するための有効なツールとして,FFNN-MHAモデルの可能性を強調した。

In the intensive care unit, the capability to predict the need for mechanical ventilation (MV) facilitates more timely interventions to improve patient outcomes. Recent works have demonstrated good performance in this task utilizing machine learning models. This paper explores the novel application of a deep learning model with multi-head attention (FFNN-MHA) to make more accurate MV predictions and reduce false positives by learning personalized contextual information of individual patients. Utilizing the publicly available MIMIC-IV dataset, FFNN-MHA demonstrates an improvement of 0.0379 in AUC and a 17.8\% decrease in false positives compared to baseline models such as feed-forward neural networks. Our results highlight the potential of the FFNN-MHA model as an effective tool for accurate prediction of the need for mechanical ventilation in critical care settings.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-21
# CatVTON: 拡散モデルで仮想試行錯誤がすべて

CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models ( http://arxiv.org/abs/2407.15886v1 )

ライセンス: Link先を確認
Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Xiaodan Liang, (参考訳) 拡散モデルに基づく仮想試行法は、現実的な試行効果を実現するが、しばしばReferenceNetとしてバックボーンネットワークを複製したり、条件入力を処理するために追加の画像エンコーダを使用したりすることで、高いトレーニングと推論コストをもたらす。 本研究では,リファレンスネットと画像エンコーダの必要性を再考し,シンプルで効率的な仮想トライオン拡散モデルであるCatVTONを提案する。 CatVTONは、任意のカテゴリーの着物や着物のシームレスな移動を容易にする。 1)軽量ネットワーク:元の拡散モジュールのみを使用し、追加のネットワークモジュールは使用しない。 バックボーン内のテキストインジェクション用のテキストエンコーダとクロスアテンションを除去し、パラメータを167.02M削減する。 2) パラメータ効率のトレーニング: 実験により試行関連モジュールを特定し, バックボーンネットワークのパラメータの約5.51パーセントである49.57Mパラメータのみをトレーニングすることで, 高品質な試行効果を得た。 (3) 簡易推論: CatVTONは、ポーズ推定、人間のパース、テキスト入力などの不要な条件と事前処理のステップをすべて排除し、仮想トライオンプロセスには衣服参照、対象人物画像、マスクのみを必要とする。 大規模な実験により、CatVTONはベースライン法よりも条件条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られることが示された。 さらに、CatVTONは73Kのサンプルしか持たないオープンソースデータセットを使用していないにも関わらず、Wildのシナリオにおいて優れた一般化を示している。

Virtual try-on methods based on diffusion models achieve realistic try-on effects but often replicate the backbone network as a ReferenceNet or use additional image encoders to process condition inputs, leading to high training and inference costs. In this work, we rethink the necessity of ReferenceNet and image encoders and innovate the interaction between garment and person by proposing CatVTON, a simple and efficient virtual try-on diffusion model. CatVTON facilitates the seamless transfer of in-shop or worn garments of any category to target persons by simply concatenating them in spatial dimensions as inputs. The efficiency of our model is demonstrated in three aspects: (1) Lightweight network: Only the original diffusion modules are used, without additional network modules. The text encoder and cross-attentions for text injection in the backbone are removed, reducing the parameters by 167.02M. (2) Parameter-efficient training: We identified the try-on relevant modules through experiments and achieved high-quality try-on effects by training only 49.57M parameters, approximately 5.51 percent of the backbone network's parameters. (3) Simplified inference: CatVTON eliminates all unnecessary conditions and preprocessing steps, including pose estimation, human parsing, and text input, requiring only a garment reference, target person image, and mask for the virtual try-on process. Extensive experiments demonstrate that CatVTON achieves superior qualitative and quantitative results with fewer prerequisites and trainable parameters than baseline methods. Furthermore, CatVTON shows good generalization in in-the-wild scenarios despite using open-source datasets with only 73K samples.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-21
# 分離可能なDeepONet:物理インフォームド機械学習における次元の曲線を破る

Separable DeepONet: Breaking the Curse of Dimensionality in Physics-Informed Machine Learning ( http://arxiv.org/abs/2407.15887v1 )

ライセンス: Link先を確認
Luis Mandl, Somdatta Goswami, Lena Lambers, Tim Ricken, (参考訳) Deep operator Network(ディープ・オペレータ・ネットワーク、DeepONet)は、ディープ・ニューラルネットワークを用いて無限次元の関数空間をマッピングすることで偏微分方程式(PDE)を解くことを約束するニューラルネットワークアーキテクチャである。 ラベル付きデータセットがない場合、PDE残欠損失を利用して物理系を学習する。 この手法は、主に次元の呪いによる重要な計算課題に直面するが、計算コストは、より詳細な離散化とともに指数関数的に増加する。 本稿では,これらの課題に対処し,高次元PDEのスケーラビリティを向上させるために,分離可能なDeepONetフレームワークを提案する。 我々の手法は、サブネットワークが個々の1次元座標を処理し、したがって前方通過の数とジャコビアン行列のサイズを減少させる分解技術を含む。 前方モード自動微分を用いて、ヤコビ行列に関する計算コストをさらに最適化する。 その結果, 離散化密度の計算コストの線形スケーリングを実現し, 分割可能なDeepONetを高次元PDEに適合させることができた。 本稿では, 粘性バーガース方程式, ビオットの凝縮理論, パラメタライズド熱方程式の3つのベンチマークPDEモデルを用いて, 分離可能なアーキテクチャの有効性を検証した。 いずれの場合も,提案フレームワークは従来のDeepONetに比べて計算時間を大幅に削減しつつ,同等あるいは改善された精度を実現している。 これらの結果は、複雑な高次元PDEを効率的に解決し、物理インフォームド機械学習の分野を前進させる上で、分離可能なDeepONetの可能性を示している。

The deep operator network (DeepONet) is a popular neural operator architecture that has shown promise in solving partial differential equations (PDEs) by using deep neural networks to map between infinite-dimensional function spaces. In the absence of labeled datasets, we utilize the PDE residual loss to learn the physical system, an approach known as physics-informed DeepONet. This method faces significant computational challenges, primarily due to the curse of dimensionality, as the computational cost increases exponentially with finer discretization. In this paper, we introduce the Separable DeepONet framework to address these challenges and improve scalability for high-dimensional PDEs. Our approach involves a factorization technique where sub-networks handle individual one-dimensional coordinates, thereby reducing the number of forward passes and the size of the Jacobian matrix. By using forward-mode automatic differentiation, we further optimize the computational cost related to the Jacobian matrix. As a result, our modifications lead to a linear scaling of computational cost with discretization density, making Separable DeepONet suitable for high-dimensional PDEs. We validate the effectiveness of the separable architecture through three benchmark PDE models: the viscous Burgers equation, Biot's consolidation theory, and a parametrized heat equation. In all cases, our proposed framework achieves comparable or improved accuracy while significantly reducing computational time compared to conventional DeepONet. These results demonstrate the potential of Separable DeepONet in efficiently solving complex, high-dimensional PDEs, advancing the field of physics-informed machine learning.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-21
# DNA配列と自然言語を結合する酵素機能のマルチモーダル予測のためのベンチマークデータセット

A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language ( http://arxiv.org/abs/2407.15888v1 )

ライセンス: Link先を確認
Yuchen Zhang, Ratish Kumar Chandrakant Jha, Soumya Bharadwaj, Vatsal Sanjaykumar Thakkar, Adrienne Hoarfrost, Jin Sun, (参考訳) DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。 多くのディープラーニングモデルがDNA配列を埋め込み、それらの酵素機能を予測し、DNA配列を酵素関数ラベルにリンクする公開データベースで情報を活用するために提案されている。 しかしながら、科学的コミュニティの生物学的機能に関する知識の多くは、これらの分類ラベルには表されず、代わりにメカニズム、反応、酵素の振る舞いに関する非構造化のテキスト記述に記録されている。 これらの記述は、しばしば、非構造的な方法で、生物学的データベースのDNA配列と一緒にキャプチャされる。 酵素機能を予測するモデルの深層学習は、生物学的機能に関する科学的知識をコードするこのマルチモーダルデータを組み込むことの恩恵を受けるだろう。 しかし、このマルチモーダル情報を利用する機械学習アルゴリズム用に設計されたデータセットは存在しない。 本稿では,遺伝子DNA配列と遺伝子機能の自然言語記述に基づく大規模マルチモーダルニューラルネットワークモデルの探索と開発を可能にする,新しいデータセットとベンチマークスイートを提案する。 本研究では, 教師なしタスクと教師なしタスクのベンチマークにおいて, このモデリング目的の難易度を示すとともに, 機能予測にマルチモーダルデータ型を組み込むことの潜在的な利点をDNA配列だけで示し, ベースライン性能を示す。 私たちのデータセットは以下のとおりです。

Predicting gene function from its DNA sequence is a fundamental challenge in biology. Many deep learning models have been proposed to embed DNA sequences and predict their enzymatic function, leveraging information in public databases linking DNA sequences to an enzymatic function label. However, much of the scientific community's knowledge of biological function is not represented in these categorical labels, and is instead captured in unstructured text descriptions of mechanisms, reactions, and enzyme behavior. These descriptions are often captured alongside DNA sequences in biological databases, albeit in an unstructured manner. Deep learning of models predicting enzymatic function are likely to benefit from incorporating this multi-modal data encoding scientific knowledge of biological function. There is, however, no dataset designed for machine learning algorithms to leverage this multi-modal information. Here we propose a novel dataset and benchmark suite that enables the exploration and development of large multi-modal neural network models on gene DNA sequences and natural language descriptions of gene function. We present baseline performance on benchmarks for both unsupervised and supervised tasks that demonstrate the difficulty of this modeling objective, while demonstrating the potential benefit of incorporating multi-modal data types in function prediction compared to DNA sequences alone. Our dataset is at: https://hoarfrost-lab.github.io/BioTalk/.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-21
# ボルツマン機械学習と多列アライメントから進化場とカップリングを推定するための正規化法

Boltzmann machine learning and regularization methods for inferring evolutionary fields and couplings from a multiple sequence alignment ( http://arxiv.org/abs/1909.05006v5 )

ライセンス: Link先を確認
Sanzo Miyazawa, (参考訳) 相同性タンパク質配列のボルツマン分布をその一部位と一対のアミノ酸頻度から推定する逆ポッツ問題は最近、タンパク質の構造と進化の研究において大きな注目を集めている。 ボルツマン機械学習における正則化と学習法と、正則化パラメータを調整して相互作用を正しく推論する方法について検討する。 体に対する$L_2$正規化を用いて、結合に対する群$L_1$は、$L_2$と$L_1$と比較して疎結合に対して非常に有効であることが示されている。 2つの正規化パラメータは、進化エネルギーのサンプル平均とアンサンブル平均の両方に対して等しい値を得るように調整される。 どちらの平均も円滑に変化し、収束するが、その学習プロファイルは学習方法とは大きく異なる。 アダム法はスパース結合の勾配に比例したステップ化をするために修正される。 タンパク質配列とモンテカルロからの最初の相互作用を推測することにより、フィールドとカップリングは十分に回復できるが、全エネルギーの分解における対相関の回復は、タンパク質のような配列よりも自然タンパク質にとって難しいことが示される。 タンパク質の進化における折りたたみ・構造的制約の選択的温度も推定した。

The inverse Potts problem to infer a Boltzmann distribution for homologous protein sequences from their single-site and pairwise amino acid frequencies recently attracts a great deal of attention in the studies of protein structure and evolution. We study regularization and learning methods and how to tune regularization parameters to correctly infer interactions in Boltzmann machine learning. Using $L_2$ regularization for fields, group $L_1$ for couplings is shown to be very effective for sparse couplings in comparison with $L_2$ and $L_1$. Two regularization parameters are tuned to yield equal values for both the sample and ensemble averages of evolutionary energy. Both averages smoothly change and converge, but their learning profiles are very different between learning methods. The Adam method is modified to make stepsize proportional to the gradient for sparse couplings. It is shown by first inferring interactions from protein sequences and then from Monte Carlo samples that the fields and couplings can be well recovered, but that recovering the pairwise correlations in the resolution of a total energy is harder for the natural proteins than for the protein-like sequences. Selective temperature for folding/structural constrains in protein evolution is also estimated.
翻訳日:2024-07-24 06:25:22 公開日:2024-07-21
# 量子プッシュダウンシステム, 拡張について

On Quantum Pushdown Systems, Extensions ( http://arxiv.org/abs/2209.10517v9 )

ライセンス: Link先を確認
Deren Lin, Tianrong Lin, (参考訳) 本稿では、まず、確率的プッシュダウン系とマルコフ連鎖の量子アナログを定義し、ここで定義される量子マルコフ鎖の確率的および分岐時間特性を記述するために、確率的ツリー論理の量子アナログを定義する必要があるかどうかを考察する。 そこで本研究では, モデルチェック問題について検討し, 計算木論理(PCTL)に対する状態のない量子プッシュダウンシステム(qBPA)のモデルチェックが概ね不可能であることを示す。 次に、初めて {\em probabilistic $\omega$-pushdownautoon} の概念を定義し、$\omega$-PCTL (Chatterjee et al in \cite{CSH08} で定義される) に対する {\em stateless probabilistic $\omega$-pushdown system ($\omega$-PCTL") のモデルチェック問題の研究を行い、$\omega$-PCTL に対するモデルチェックが一般的には決定不可能であることを示す。 我々のアプローチは間接的に$\omega$-PCTLを符号化する公式を構築することである。

In this paper, we first define the quantum analogues of the {\em probabilistic pushdown systems} and {\em Markov chains}, and investigate the question whether it is necessary to define a quantum analogue of {\em probabilistic computational tree logic} to describe the probabilistic and branching-time properties of the {\em quantum Markov chain} defined here. We study its model-checking question and show that the model-checking of {\em stateless quantum pushdown systems (qBPA)} against {\em probabilistic computational tree logic (PCTL)} is generally undecidable. We next define the notion of {\em probabilistic $\omega$-pushdown automaton} for the first time and study the model-checking question of {\em stateless probabilistic $\omega$-pushdown system ($\omega$-pBPA)} against $\omega$-PCTL (defined by Chatterjee et al. in \cite{CSH08}) and show that the model-checking of {\em stateless probabilistic $\omega$-pushdown systems ($\omega$-pBPA)} against $\omega$-PCTL is generally undecidable. Our approach is to construct formulas of $\omega$-PCTL encoding the {\em Post Correspondence Problem} indirectly.
翻訳日:2024-07-24 06:15:59 公開日:2024-07-21
# 検索型および知識型言語モデルによる臨床診断

Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine ( http://arxiv.org/abs/2210.12777v4 )

ライセンス: Link先を確認
Fenglin Liu, Bang Yang, Chenyu You, Xian Wu, Shen Ge, Zhangdaihong Liu, Xu Sun, Yang Yang, David A. Clifton, (参考訳) 大規模言語モデル(ChatGPTなど)を含む言語モデル(LM)は、臨床医が様々な臨床ノートを作成するのを助ける可能性がある。 しかし、LMは「ハロシン化」、すなわち事実や知識と一致しない生成コンテンツを生成する傾向にある。 本稿では,LMが忠実な臨床テキストを生成できるように,検索拡張生成と知識基底推論を備えたRe$^3$Writer法を提案する。 本手法が患者の退院指示生成に有効であることを示す。 LMは、患者の長期臨床文書、すなわち入院中の健康記録を理解するだけでなく、退院時に介護者と患者の両方に提供される重要な教育情報を生成する必要がある。 提案したRe$3$Writerは、医師の作業パターンを模倣して、医師が記述した履歴的記述から、まず「textbf{re}trieve」に関連する作業経験を抽出し、それから「textbf{re}ason」に関連する医療知識を抽出する。 最後に、検索した作業経験と推論された医療知識を識別し、有用情報を抽出し、前例のない患者の退院指示を生成する。 実験により,本手法を用いることで,すべての指標において,5つの代表的なLMの性能を大幅に向上できることが確認された。 一方,人間による評価の結果は,流布度,忠実度,包括性の観点から評価する。

Language models (LMs), including large language models (such as ChatGPT), have the potential to assist clinicians in generating various clinical notes. However, LMs are prone to produce ``hallucinations'', i.e., generated content that is not aligned with facts and knowledge. In this paper, we propose the Re$^3$Writer method with retrieval-augmented generation and knowledge-grounded reasoning to enable LMs to generate faithful clinical texts. We demonstrate the effectiveness of our method in generating patient discharge instructions. It requires the LMs not to only understand the patients' long clinical documents, i.e., the health records during hospitalization, but also to generate critical instructional information provided both to carers and to the patient at the time of discharge. The proposed Re$^3$Writer imitates the working patterns of physicians to first \textbf{re}trieve related working experience from historical instructions written by physicians, then \textbf{re}ason related medical knowledge. Finally, it \textbf{re}fines the retrieved working experience and reasoned medical knowledge to extract useful information, which is used to generate the discharge instructions for previously-unseen patients. Our experiments show that, using our method, the performance of five representative LMs can be substantially boosted across all metrics. Meanwhile, we show results from human evaluations to measure the effectiveness in terms of fluency, faithfulness, and comprehensiveness.
翻訳日:2024-07-24 06:15:59 公開日:2024-07-21
# クライアント側データプライバシを高めるローカルウェイト共有のないスプリットラーニング

Split Learning without Local Weight Sharing to Enhance Client-side Data Privacy ( http://arxiv.org/abs/2212.00250v3 )

ライセンス: Link先を確認
Ngoc Duy Pham, Tran Khoa Phan, Alsharif Abuadbba, Yansong Gao, Doan Nguyen, Naveen Chilamkurti, (参考訳) Split Learning(SL)は、クライアントサーバ間で詳細なモデルを分散し、プライベートデータをローカルに保持することで、ユーザのデータプライバシを保護することを目的としている。 複数のクライアントとのSLトレーニングでは、ローカルモデル更新のために、ローカルモデルウェイトがクライアント間で共有される。 本稿ではまず,SL内のクライアント間の局所的な重み共有から,モデルインバージョン攻撃によるデータプライバシリークが悪化することを明らかにする。 そして、データプライバシーの漏洩問題を解決するために、プライバシ強化SL(P-SL)(ローカルな重み共有のないSL)を提案し、分析する。 さらに,複数のサーバサイドモデルインスタンスを複製し,精度を損なうことなくトレーニングプロセスを高速化する並列化P-SLを提案する。 最後に、遅延クライアントとP-SLを探索し、遅延クライアントが参加する際のSLの忘れ現象に対処するため、サーバサイドキャッシュベースのトレーニング方法を考案する。 実験の結果,P-SLはクライアント側のデータ漏洩の最大50%を削減できることがわかった。 さらに、P-SLとそのキャッシュベースのバージョンは、計算と通信のコストを抑えつつ、様々なデータ分散の下でベースラインSLに匹敵する精度を達成する。 さらに、P-SLにおけるキャッシュベースのトレーニングは、忘れることの負の効果を軽減し、学習を安定させ、遅滞したクライアントを持つ動的環境における実践的かつ低複雑さなトレーニングを可能にする。

Split learning (SL) aims to protect user data privacy by distributing deep models between client-server and keeping private data locally. In SL training with multiple clients, the local model weights are shared among the clients for local model update. This paper first reveals data privacy leakage exacerbated from local weight sharing among the clients in SL through model inversion attacks. Then, to reduce the data privacy leakage issue, we propose and analyze privacy-enhanced SL (P-SL) (or SL without local weight sharing). We further propose parallelized P-SL to expedite the training process by duplicating multiple server-side model instances without compromising accuracy. Finally, we explore P-SL with late participating clients and devise a server-side cache-based training method to address the forgetting phenomenon in SL when late clients join. Experimental results demonstrate that P-SL helps reduce up to 50% of client-side data leakage, which essentially achieves a better privacy-accuracy trade-off than the current trend by using differential privacy mechanisms. Moreover, P-SL and its cache-based version achieve comparable accuracy to baseline SL under various data distributions, while cost less computation and communication. Additionally, caching-based training in P-SL mitigates the negative effect of forgetting, stabilizes the learning, and enables practical and low-complexity training in a dynamic environment with late-arriving clients.
翻訳日:2024-07-24 06:15:59 公開日:2024-07-21
# 選択的アムネシア:トロイの木馬機械学習モデルにおけるバックドア効果の効率的・高忠実・ブラインド抑制について

Selective Amnesia: On Efficient, High-Fidelity and Blind Suppression of Backdoor Effects in Trojaned Machine Learning Models ( http://arxiv.org/abs/2212.04687v2 )

ライセンス: Link先を確認
Rui Zhu, Di Tang, Siyuan Tang, XiaoFeng Wang, Haixu Tang, (参考訳) 本稿では,バックドアモデル上で「選択的アムネシア」を誘導する,単純かつ驚くほど効果的な手法を提案する。 SEAMと呼ばれる我々のアプローチは、連続学習における長年の課題である破滅的忘れ(CF)の問題にインスパイアされている。 我々の考えは、ランダムにラベル付けされたクリーンデータ上で与えられたDNNモデルをトレーニングし、モデル上でCFを誘導し、プライマリタスクとバックドアタスクの両方を突然忘れ、ランダム化されたモデルを正しくラベル付けされたクリーンデータ上で再トレーニングすることで、プライマリタスクを回復することである。 本研究では,非学習過程を連続学習としてモデル化してSEAMを解析し,さらにCFの測定にNeural Tangent Kernelを用いてDNNを近似した。 提案手法は, 入出力がない場合, 未知のバックドア上のCFを最大化し, ネットワーク内の特徴抽出を有効にすることで, 初期タスクの迅速な復元を可能にする。 さらに,SEAMを画像処理と自然言語処理の両方のタスクで評価し,データ汚染とトレーニング操作攻撃の両面で,一般的な画像データセットでトレーニングされた何千ものモデル,あるいはTrojAIコンペティションによって提供された何千ものモデルについて検討した。 実験の結果、SEAMは最先端の未学習技術よりも優れており、数分間(MNISTデータセットを用いてスクラッチからモデルをトレーニングするより約30倍速い)で高い忠実性(プライマリタスクの精度とバックドアの精度のギャップを計測する)を達成でき、少量のクリーンデータ(TrojAIモデルのトレーニングデータの0.1%)しかありません。

In this paper, we present a simple yet surprisingly effective technique to induce "selective amnesia" on a backdoored model. Our approach, called SEAM, has been inspired by the problem of catastrophic forgetting (CF), a long standing issue in continual learning. Our idea is to retrain a given DNN model on randomly labeled clean data, to induce a CF on the model, leading to a sudden forget on both primary and backdoor tasks; then we recover the primary task by retraining the randomized model on correctly labeled clean data. We analyzed SEAM by modeling the unlearning process as continual learning and further approximating a DNN using Neural Tangent Kernel for measuring CF. Our analysis shows that our random-labeling approach actually maximizes the CF on an unknown backdoor in the absence of triggered inputs, and also preserves some feature extraction in the network to enable a fast revival of the primary task. We further evaluated SEAM on both image processing and Natural Language Processing tasks, under both data contamination and training manipulation attacks, over thousands of models either trained on popular image datasets or provided by the TrojAI competition. Our experiments show that SEAM vastly outperforms the state-of-the-art unlearning techniques, achieving a high Fidelity (measuring the gap between the accuracy of the primary task and that of the backdoor) within a few minutes (about 30 times faster than training a model from scratch using the MNIST dataset), with only a small amount of clean data (0.1% of training data for TrojAI models).
翻訳日:2024-07-24 06:15:59 公開日:2024-07-21
# 同時頂点埋め込みとコミュニティ検出のためのグラフエンコーダアンサンブル

Graph Encoder Ensemble for Simultaneous Vertex Embedding and Community Detection ( http://arxiv.org/abs/2301.11290v3 )

ライセンス: Link先を確認
Cencheng Shen, Youngser Park, Carey E. Priebe, (参考訳) 本稿では, 頂点埋め込み, コミュニティ検出, コミュニティサイズ決定のための新しい, 計算効率の良い手法を提案する。 本手法では,正規化された1ホットグラフエンコーダと階数に基づくクラスタサイズ測定を利用する。 広範にシミュレーションを行い,提案したグラフエンコーダアンサンブルアルゴリズムの優れた数値性能を示す。

In this paper, we introduce a novel and computationally efficient method for vertex embedding, community detection, and community size determination. Our approach leverages a normalized one-hot graph encoder and a rank-based cluster size measure. Through extensive simulations, we demonstrate the excellent numerical performance of our proposed graph encoder ensemble algorithm.
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# BAFFLE: バックプロパゲーションフリーのフェデレーションラーニングのベースライン

BAFFLE: A Baseline of Backpropagation-Free Federated Learning ( http://arxiv.org/abs/2301.12195v3 )

ライセンス: Link先を確認
Haozhe Feng, Tianyu Pang, Chao Du, Wei Chen, Shuicheng Yan, Min Lin, (参考訳) フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。 FLは実用的なアプリケーションで有望なフレームワークですが、標準的なトレーニングパラダイムでは、クライアントが勾配を計算するためにモデルを通してバックプロパゲートする必要があります。 これらのクライアントは一般的にエッジデバイスであり、完全に信頼されていないため、バックプロパゲーションを実行すると、計算やストレージのオーバーヘッドやホワイトボックスの脆弱性が発生する。 これを踏まえて、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれるバックプロパゲーションフリーなフェデレーション学習を開発する。 BAFFLEは 1) メモリ効率が高く、アップロード帯域幅に容易に適合する。 2 推論のみのハードウェア最適化及びモデル量子化又はプルーニングとの互換性 BAFFLEのクライアントはフォワードプロパゲーションのみを実行し、一連のスカラーをサーバに返送するので、信頼性の高い実行環境に適しています。 経験的に、私たちはBAFFLEを使って、深いモデルをスクラッチからトレーニングしたり、事前訓練されたモデルを微調整したりして、許容可能な結果を実現しています。 コードはhttps://github.com/FengHZ/BAFFLEで入手できる。

Federated learning (FL) is a general principle for decentralized clients to train a server model collectively without sharing local data. FL is a promising framework with practical applications, but its standard training paradigm requires the clients to backpropagate through the model to compute gradients. Since these clients are typically edge devices and not fully trusted, executing backpropagation on them incurs computational and storage overhead as well as white-box vulnerability. In light of this, we develop backpropagation-free federated learning, dubbed BAFFLE, in which backpropagation is replaced by multiple forward processes to estimate gradients. BAFFLE is 1) memory-efficient and easily fits uploading bandwidth; 2) compatible with inference-only hardware optimization and model quantization or pruning; and 3) well-suited to trusted execution environments, because the clients in BAFFLE only execute forward propagation and return a set of scalars to the server. Empirically we use BAFFLE to train deep models from scratch or to finetune pretrained models, achieving acceptable results. Code is available in https://github.com/FengHZ/BAFFLE.
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# 大規模言語モデルのためのチェーン・オブ・サートを用いたアクティブ・プロンプティング

Active Prompting with Chain-of-Thought for Large Language Models ( http://arxiv.org/abs/2302.12246v5 )

ライセンス: Link先を確認
Shizhe Diao, Pengcheng Wang, Yong Lin, Rui Pan, Xiang Liu, Tong Zhang, (参考訳) 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。 タスク固有のプロンプトを効果的に設計することは、LLMが高品質な回答を得られる能力にとって重要であることが知られている。 特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・ソート(CoT)推論による例ベースのプロンプトである。 しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。 本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。 そこで本研究では,タスク固有のクエリのプールからアノテートを行う上で,どの質問が最も重要かつ有用なものかを判断する上で,重要な問題の解決法を提案する。 不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、アノテーションに関する最も不確実な問題を選択するために、不確実性を特徴付ける指標をいくつか導入する。 実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。 さらに, 異なる不確実性指標, プールサイズ, ゼロショット学習, 精度・不確実性関係を解析した結果, 提案手法の有効性が示された。 私たちのコードはhttps://github.com/shizhediao/active-prompt.comで公開されます。

The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs' ability to produce high-quality answers. In particular, an effective approach for complex question-and-answer tasks is example-based prompting with chain-of-thought (CoT) reasoning, which significantly improves the performance of LLMs. However, current CoT methods rely on a fixed set of human-annotated exemplars, which are not necessarily the most effective examples for different tasks. This paper proposes a new method, Active-Prompt, to adapt LLMs to different tasks with task-specific example prompts (annotated with human-designed CoT reasoning). For this purpose, we propose a solution to the key problem of determining which questions are the most important and helpful ones to annotate from a pool of task-specific queries. By borrowing ideas from the related problem of uncertainty-based active learning, we introduce several metrics to characterize the uncertainty so as to select the most uncertain questions for annotation. Experimental results demonstrate the superiority of our proposed method, achieving state-of-the-art on eight complex reasoning tasks. Further analyses of different uncertainty metrics, pool sizes, zero-shot learning, and accuracy-uncertainty relationship demonstrate the effectiveness of our method. Our code will be available at https://github.com/shizhediao/active-prompt.
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# 体系的評価による帰属法の違いの理解の改善

Better Understanding Differences in Attribution Methods via Systematic Evaluations ( http://arxiv.org/abs/2303.11884v2 )

ライセンス: Link先を確認
Sukrut Rao, Moritz Böhle, Bernt Schiele, (参考訳) ディープニューラルネットワークは多くの視覚タスクで非常に成功したが、ブラックボックスの性質のため解釈が難しい。 これを解決するために、モデル決定に最も影響を及ぼす画像領域を特定するために、様々なポストホック属性法が提案されている。 根拠となる真理の帰属は存在しないため、そのような方法を評価することは困難である。 そこで我々は,これらの手法の忠実度をより確実に測定し,それらの比較をより公平にし,視覚検査をより系統的にするための3つの新しい評価手法を提案する。 信頼度に対処するために,入力のどの部分が出力に影響を与えるかを慎重に制御して,不可能な属性と区別する,新しい評価設定(DiFull)を提案する。 公平性に対処するために、異なるメソッドが異なるレイヤに適用されることに留意し、同じレイヤ上のすべてのメソッド(ML-Att)を評価し、これが定量的メトリクスのパフォーマンスにどのように影響するかについて議論する。 より体系的な可視化を行うため,完全データセット上の手法を質的に評価する手法(AggAttt)を提案する。 これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。 最後に、いくつかの属性法の性能を大幅に向上させる後処理スムース化ステップを提案し、その適用性について議論する。

Deep neural networks are very successful on many vision tasks, but hard to interpret due to their black box nature. To overcome this, various post-hoc attribution methods have been proposed to identify image regions most influential to the models' decisions. Evaluating such methods is challenging since no ground truth attributions exist. We thus propose three novel evaluation schemes to more reliably measure the faithfulness of those methods, to make comparisons between them more fair, and to make visual inspection more systematic. To address faithfulness, we propose a novel evaluation setting (DiFull) in which we carefully control which parts of the input can influence the output in order to distinguish possible from impossible attributions. To address fairness, we note that different methods are applied at different layers, which skews any comparison, and so evaluate all methods on the same layers (ML-Att) and discuss how this impacts their performance on quantitative metrics. For more systematic visualizations, we propose a scheme (AggAtt) to qualitatively evaluate the methods on complete datasets. We use these evaluation schemes to study strengths and shortcomings of some widely used attribution methods over a wide range of models. Finally, we propose a post-processing smoothing step that significantly improves the performance of some attribution methods, and discuss its applicability.
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# 説明付きモデルを効果的かつ効果的にガイドする方法に関する研究

Studying How to Efficiently and Effectively Guide Models with Explanations ( http://arxiv.org/abs/2303.11932v2 )

ライセンス: Link先を確認
Sukrut Rao, Moritz Böhle, Amin Parchami-Araghi, Bernt Schiele, (参考訳) 高性能であるにもかかわらず、ディープニューラルネットワークは、提供されたラベルと突発的に相関する特徴に基づいて決定を下し、一般化を損なう可能性がある。 これを軽減するため、「モデルガイダンス」は近年、モデルの説明を「正しい理由のために正しい」ことを保証するために規則化するという考え方として人気を集めている。 このようなモデルガイダンスを実現するための様々な手法が提案されているが、これらの手法の実験的な検証は、これまでは比較的単純なデータセットや合成データセットに限られてきた。 本研究は、モデルガイダンスの文脈で検討された様々な設計選択の有効性をよりよく理解するため、PASCAL VOC 2007およびMS COCO 2014データセットにおいて、様々な損失関数、帰属方法、モデル、および「誘導深度」に関する詳細な評価を行う。 モデルガイダンスのアノテーションコストは適用性を制限できるため、効率性にも特に焦点を当てる。 具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドし、限定的(例えば、注釈付き画像の1%しか持たない)または過剰に粗いアノテーションによるモデルガイダンスの堅牢性を評価する。 さらに,EPGスコアを付加評価指標と損失関数(「エネルギー損失」)として用いることを提案する。 エネルギー損失の最適化は、背景領域を含む境界ボックスアノテーションのみを使用しながら、オブジェクト固有の特徴に明確な焦点をあてるモデルに繋がることを示す。 最後に、そのようなモデルガイダンスは、分布シフト下での一般化を改善することができることを示す。 コードは、https://github.com/sukrutrao/Model-Guidance.comで入手できる。

Despite being highly performant, deep neural networks might base their decisions on features that spuriously correlate with the provided labels, thus hurting generalization. To mitigate this, 'model guidance' has recently gained popularity, i.e. the idea of regularizing the models' explanations to ensure that they are "right for the right reasons". While various techniques to achieve such model guidance have been proposed, experimental validation of these approaches has thus far been limited to relatively simple and / or synthetic datasets. To better understand the effectiveness of the various design choices that have been explored in the context of model guidance, in this work we conduct an in-depth evaluation across various loss functions, attribution methods, models, and 'guidance depths' on the PASCAL VOC 2007 and MS COCO 2014 datasets. As annotation costs for model guidance can limit its applicability, we also place a particular focus on efficiency. Specifically, we guide the models via bounding box annotations, which are much cheaper to obtain than the commonly used segmentation masks, and evaluate the robustness of model guidance under limited (e.g. with only 1% of annotated images) or overly coarse annotations. Further, we propose using the EPG score as an additional evaluation metric and loss function ('Energy loss'). We show that optimizing for the Energy loss leads to models that exhibit a distinct focus on object-specific features, despite only using bounding box annotations that also include background regions. Lastly, we show that such model guidance can improve generalization under distribution shifts. Code available at: https://github.com/sukrutrao/Model-Guidance.
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# レイアウトガイド画像生成のための診断ベンチマークと反復塗布

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation ( http://arxiv.org/abs/2304.06671v3 )

ライセンス: Link先を確認
Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal, (参考訳) 空間制御は、制御可能な画像生成のコア機能である。 レイアウト誘導画像生成の進歩は、類似した空間構成を持つ非分布(ID)データセットに対して有望な結果を示している。 しかし、これらのモデルが任意のレイアウトでOOD(out-of-distriion)サンプルに直面する場合、どのように機能するかは不明である。 本稿では,レイアウト誘導画像生成のための診断ベンチマークであるLayoutBenchを提案する。 我々は最近の2つの代表的なレイアウト誘導画像生成手法をベンチマークし、良質なIDレイアウト制御が野生の任意のレイアウト(例えば境界のオブジェクト)にうまく適用できないことを観察する。 次に,IterInpaintを提案する。IterInpaintは,LayoutBenchの既存のOODレイアウトのモデルよりも強力な一般化性を示す,前景および背景領域を段階的に生成する新しいベースラインである。 既存のモデルの弱点を特定するために,4つのLayoutBenchスキルの定量的,定性的な評価ときめ細かい分析を行う。 本研究はIterInpaintに関する総合的アブレーション研究である。 最後に、IterInpaintは4つの分割でSOTAベースラインを一貫して上回っている実オブジェクトを用いたOODレイアウトのベンチマークであるLayoutBench-COCO上で、事前訓練されたレイアウト誘導画像生成モデルのゼロショット性能を評価した。 プロジェクトサイト: https://layoutbench.github.io

Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions step-by-step via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. We show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Lastly, we evaluate the zero-shot performance of different pretrained layout-guided image generation models on LayoutBench-COCO, our new benchmark for OOD layouts with real objects, where our IterInpaint consistently outperforms SOTA baselines in all four splits. Project website: https://layoutbench.github.io
翻訳日:2024-07-24 06:06:15 公開日:2024-07-21
# 物理インフォームド生成人工知能を用いたインバータブル粗粒化

Invertible Coarse Graining with Physics-Informed Generative Artificial Intelligence ( http://arxiv.org/abs/2305.01243v2 )

ライセンス: Link先を確認
Jun Zhang, Xiaohan Lin, Weinan E, Yi Qin Gao, (参考訳) マルチスケール分子モデリングは、大規模な時間と長さのスケールにおける分子特性の科学的研究に広く応用されている。 分子の粗い表現と微細な表現の間の情報は、適切に交換する必要があることを条件として、2つの特定の課題が存在する: 1つは、細かいレベルから粗いレベルに情報を渡すことによって粗い粒度のモデルを構築すること、もう1つは、粗い粒度の設定が与えられたときのより細かい分子の詳細を復元することである。 これらの2つの問題は独立して解決されるが、本研究ではそれらを結合する理論を提示し、両問題を統一的に解くためのCycle Coarse Graining(CCG)と呼ばれる方法論を開発する。 CCGでは、粗い粒度のシミュレーションから細部を抽出し、抽出可能な深部生成モデルにより再構成を行うことができる。 復元によって、より粗い粒度のモデルが提供され、より微細な物理を知らせ、希少な無限の方法で自由エネルギーの計算が可能になる。 これにより、CCGは、粗粒度シミュレーションのより詳細な詳細を効率的に検索し、粗粒度モデルを一貫した改善が可能な、マルチスケール分子モデリングの体系的な方法を提供する。

Multiscale molecular modeling is widely applied in scientific research of molecular properties over large time and length scales. Two specific challenges are commonly present in multiscale modeling, provided that information between the coarse and fine representations of molecules needs to be properly exchanged: One is to construct coarse grained models by passing information from the fine to coarse levels; the other is to restore finer molecular details given coarse grained configurations. Although these two problems are commonly addressed independently, in this work, we present a theory connecting them, and develop a methodology called Cycle Coarse Graining (CCG) to solve both problems in a unified manner. In CCG, reconstruction can be achieved via a tractable deep generative model, allowing retrieval of fine details from coarse-grained simulations. The reconstruction in turn delivers better coarse-grained models which are informed of the fine-grained physics, and enables calculation of the free energies in a rare-event-free manner. CCG thus provides a systematic way for multiscale molecular modeling, where the finer details of coarse-grained simulations can be efficiently retrieved, and the coarse-grained models can be improved consistently.
翻訳日:2024-07-24 05:56:27 公開日:2024-07-21
# 関数型学習のための分散Gradient Descent

Distributed Gradient Descent for Functional Learning ( http://arxiv.org/abs/2305.07408v3 )

ライセンス: Link先を確認
Zhan Yu, Jun Fan, Zhongjie Shi, Ding-Xuan Zhou, (参考訳) 近年,大規模データ情報を扱う上での強みとして,分散学習と並列学習の多種多様な手法が注目されている。 情報時代において,関数型データ解析から得られたビッグデータ問題に直面するために,カーネル・ヒルベルト空間を再現するフレームワークにおいて,多数のローカルマシン(プロセッサ)にまたがる関数型データに取り組むために,分散勾配勾配関数型学習(DGDFL)アルゴリズムを提案する。 積分作用素のアプローチに基づいて、DGDFLアルゴリズムを文献の様々な側面において初めて理論的に理解する。 まず、DGDFLを理解するために、データに基づく勾配降下関数学習(GDFL)アルゴリズムを提案し、包括的に研究した。 軽度条件下では、DGDFLの信頼に基づく最適学習速度は、機能回帰における以前の研究で被った正則性指数の飽和境界を伴わずに得られる。 さらに、ローカルマシンの最大数の制限を弱め、最適なレートを確保するための半教師付きDGDFLアプローチを提供する。 我々の知る限り、DGDFLは、内在的に無限次元のランダム関数(関数共変量)のデータサンプルに基づいて関数型学習に最初の分割・連立学習アプローチを提供し、関数型データ解析の方法論を充実させる。

In recent years, different types of distributed and parallel learning schemes have received increasing attention for their strong advantages in handling large-scale data information. In the information era, to face the big data challenges {that} stem from functional data analysis very recently, we propose a novel distributed gradient descent functional learning (DGDFL) algorithm to tackle functional data across numerous local machines (processors) in the framework of reproducing kernel Hilbert space. Based on integral operator approaches, we provide the first theoretical understanding of the DGDFL algorithm in many different aspects of the literature. On the way of understanding DGDFL, firstly, a data-based gradient descent functional learning (GDFL) algorithm associated with a single-machine model is proposed and comprehensively studied. Under mild conditions, confidence-based optimal learning rates of DGDFL are obtained without the saturation boundary on the regularity index suffered in previous works in functional regression. We further provide a semi-supervised DGDFL approach to weaken the restriction on the maximal number of local machines to ensure optimal rates. To our best knowledge, the DGDFL provides the first divide-and-conquer iterative training approach to functional learning based on data samples of intrinsically infinite-dimensional random functions (functional covariates) and enriches the methodologies for functional data analysis.
翻訳日:2024-07-24 05:56:27 公開日:2024-07-21
# ENOTO: Q-Ensemblesによるオフライン・オンライン強化学習の改善

ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles ( http://arxiv.org/abs/2306.06871v4 )

ライセンス: Link先を確認
Kai Zhao, Jianye Hao, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng, (参考訳) オフライン強化学習(RL)は、エージェントが一定の経験のデータセットから学習する学習パラダイムである。 しかし、静的データセットからのみ学習することは、探索の欠如によってパフォーマンスを制限できる。 オフラインからオンラインまでのRLは、オフラインの事前トレーニングとオンラインの微調整を組み合わせることで、エージェントがリアルタイムで環境と対話することで、ポリシーをさらに洗練することができる。 その利点にもかかわらず、既存のオフラインからオンラインまでのRLメソッドは、オンラインフェーズにおけるパフォーマンスの低下と改善の遅さに悩まされている。 これらの課題に対処するため、ENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。 さらに,オンラインのパフォーマンス向上を図るため,Q値推定の悲観性を適切に緩和し,アンサンブルに基づく探索機構を我々のフレームワークに組み込む。 実験結果から,既存のオフラインRL手法のオンライン微調整において,ENOTOはトレーニング安定性,学習効率,最終性能を大幅に向上し,既存のオフラインRL手法よりも大幅に向上することが示された。

Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called ENsemble-based Offline-To-Online (ENOTO) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that ENOTO can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
翻訳日:2024-07-24 05:56:27 公開日:2024-07-21
# Retrieval-Pretrained Transformer:Self-Retrievalを用いた長距離言語モデリング

Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval ( http://arxiv.org/abs/2306.13421v2 )

ライセンス: Link先を確認
Ohad Rubin, Jonathan Berant, (参考訳) Retrieval-augmented Language Model (LM) は近年注目されている。 しかし、通常、レトリバーはLMのネイティブコンポーネントとして共同で訓練されるのではなく、既に事前訓練されたLMにポストホックを追加し、LMとレトリバーが互いに適応する能力を制限する。 本研究では,検索拡張LMをスクラッチからトレーニングするためのアーキテクチャと訓練手順であるRetrieval-Pretrained Transformer(RPT)を提案し,それを長文のモデリングタスクに適用する。 最近生成された長いドキュメントのテキストチャンクが与えられた後、LMはクエリ表現を計算し、それを使ってドキュメントの以前のチャンクを検索する。 取得したチャンクからの情報はLM表現に融合され、次のターゲットチャンクを予測する。 参照 LM によれば,検索対象は次のチャンクの確率を増加させるチャンクを検索することである。 我々は,4つの長距離言語モデリングタスク,書籍,コード,数学的記述についてRTPを評価し,RTPが検索品質を向上し,その結果,強いベースラインよりも難易度が高いことを示す。

Retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the LM, but added post-hoc to an already-pretrained LM, which limits the ability of the LM and the retriever to adapt to one another. In this work, we propose the Retrieval-Pretrained Transformer (RPT), an architecture and training procedure for jointly training a retrieval-augmented LM from scratch and apply it to the task of modeling long texts. Given a recently generated text chunk in a long document, the LM computes query representations, which are then used to retrieve earlier chunks in the document, located potentially tens of thousands of tokens before. Information from retrieved chunks is fused into the LM representations to predict the next target chunk. We train the retriever component with a semantic objective, where the goal is to retrieve chunks that increase the probability of the next chunk, according to a reference LM. We evaluate RPT on four long-range language modeling tasks, spanning books, code, and mathematical writing, and demonstrate that RPT improves retrieval quality and subsequently perplexity across the board compared to strong baselines.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# Smpling to Distill: オープンワールドデータからの知識伝達

Sampling to Distill: Knowledge Transfer from Open-World Data ( http://arxiv.org/abs/2307.16601v2 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Jie Zhang, Dingkang Yang, Zuhao Ge, Yang Liu, Siao Liu, Yunquan Sun, Wenqiang Zhang, Lizhe Qi, (参考訳) Data-Free Knowledge Distillation (DFKD)は,教師ネットワークのみを用いて,学習データなしで高性能な生徒モデルを訓練することを目的とした新しい課題である。 既存のDFKD法の多くは、置換データを合成するために追加の生成モジュールに大きく依存しており、計算コストが高く、容易にアクセスでき、低コストで、ラベル付けされていないオープンワールドデータを無視している。 一方、既存の手法では、置換データと元のデータとの間のドメインシフトの問題を無視しており、教師の知識は必ずしも信頼に値するものではなく、データから構造化された知識が重要なサプリメントとなる。 そこで本研究では,DFKDタスクの冗長な生成処理を伴わずに,新しいオープンワールドデータサンプリング蒸留法を提案する。 まず、適応サンプリングモジュールを用いて、元のデータの分布に近いオープンワールドデータをサンプリングし、ドメインシフト問題を緩和するために低ノイズ表現を導入する。 そこで我々は,学生モデル自体と教師の構造化表現を通して,データ知識を活用するために,複数のデータ例の構造化関係を構築した。 CIFAR-10, CIFAR-100, NYUv2, ImageNetの広範囲な実験により, ODSD法は, FLOPとパラメータの低い最先端性能を実現することが示された。 特に、ImageNetデータセットの1.50\%-9.59\%の精度を改善し、各クラスの別々のジェネレータのトレーニングを避ける。

Data-Free Knowledge Distillation (DFKD) is a novel task that aims to train high-performance student models using only the pre-trained teacher network without original training data. Most of the existing DFKD methods rely heavily on additional generation modules to synthesize the substitution data resulting in high computational costs and ignoring the massive amounts of easily accessible, low-cost, unlabeled open-world data. Meanwhile, existing methods ignore the domain shift issue between the substitution data and the original data, resulting in knowledge from teachers not always trustworthy and structured knowledge from data becoming a crucial supplement. To tackle the issue, we propose a novel Open-world Data Sampling Distillation (ODSD) method for the DFKD task without the redundant generation process. First, we try to sample open-world data close to the original data's distribution by an adaptive sampling module and introduce a low-noise representation to alleviate the domain shift issue. Then, we build structured relationships of multiple data examples to exploit data knowledge through the student model itself and the teacher's structured representation. Extensive experiments on CIFAR-10, CIFAR-100, NYUv2, and ImageNet show that our ODSD method achieves state-of-the-art performance with lower FLOPs and parameters. Especially, we improve 1.50\%-9.59\% accuracy on the ImageNet dataset and avoid training the separate generator for each class.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# RSAアルゴリズムの謎解き:サイバーセキュリティの初心者の直感的な紹介

Demystifying the RSA Algorithm: An Intuitive Introduction for Novices in Cybersecurity ( http://arxiv.org/abs/2308.02785v2 )

ライセンス: Link先を確認
Zhengping Jay Luo, Ruowen Liu, Aarav Mehta, Md Liakat Ali, (参考訳) サイバーセキュリティの重要性が増大していることを考えると、多様なコミュニティが基本的なセキュリティメカニズムを理解することはますます有益になる。 これらのうち、RSAアルゴリズムは公開鍵暗号システムにおいて重要な要素である。 しかし、RSAアルゴリズムを理解するには、通常、数論、モジュラー算術、関連する概念に精通し、サイバーセキュリティの分野に入る初心者の知識ベースを超えることがある。 本研究では,RSAアルゴリズムを直感的に構築し,学生指向で導入する手法を提案する。 私たちの読者は数学とサイバーセキュリティの基本的な背景しか持っていないと仮定する。 公開鍵暗号システムの3つの重要な目標から、RSAアルゴリズムがこれらの目的をどのように達成するかをステップバイステップで解明する。 さらに,実践的な理解を深めるために,おもちゃの例を用いる。 同コースの2つのセクションにまたがって実施した学生の学習成績評価の結果,学生の成績が明らかに向上したことが明らかとなった。

Given the escalating importance of cybersecurity, it becomes increasingly beneficial for a diverse community to comprehend fundamental security mechanisms. Among these, the RSA algorithm stands out as a crucial component in public-key cryptosystems. However, understanding the RSA algorithm typically entails familiarity with number theory, modular arithmetic, and related concepts, which can often exceed the knowledge base of beginners entering the field of cybersecurity. In this study, we present an intuitively crafted, student-oriented introduction to the RSA algorithm. We assume that our readers possess only a basic background in mathematics and cybersecurity. Commencing with the three essential goals of public-key cryptosystems, we provide a step-by-step elucidation of how the RSA algorithm accomplishes these objectives. Additionally, we employ a toy example to further enhance practical understanding. Our assessment of student learning outcomes, conducted across two sections of the same course, reveals a discernible improvement in grades for the students.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# フェルミオン・ボソン以外の粒子交換統計

Particle exchange statistics beyond fermions and bosons ( http://arxiv.org/abs/2308.05203v2 )

ライセンス: Link先を確認
Zhiyuan Wang, Kaden R. A. Hazzard, (参考訳) 量子力学、フェルミオン、ボソンには2種類の粒子交換統計量しか存在しないと一般的に信じられている。 原則として、2次元の外側に広がるパラ統計学として知られる第2の例外は、フェルミオンやボソンと物理的に等価であると考えられている。 本稿では,フェルミオンやボソンと等価でない非自明なパラ統計学が物理系に存在することを示す。 これらの新しい種類の同一粒子は、一般化された排他原理に従い、自由フェルミオンやボソンの系とは異なるエキゾチックな自由粒子熱力学をもたらす。 パラ粒子の第二量子化は、自然に解ける非相互作用理論を含み、局所性のような物理的制約を組み込む。 次に、自由パラ粒子が準粒子励起として現れる1次元と2次元において、正確に解ける量子スピンモデルの族を構築し、それらの交換統計は物理的に観察され、フェルミオンやボソンと明確に区別される。 これは、凝縮物質系における新しいタイプの準粒子の可能性を示し、より投機的に、以前は考えられていなかった素粒子のタイプの可能性を示す。

It is commonly believed that there are only two types of particle exchange statistics in quantum mechanics, fermions and bosons, with the exception of anyons in two dimension. In principle, a second exception known as parastatistics, which extends outside of two dimensions, has been considered but was believed to be physically equivalent to fermions and bosons. In this paper we show that nontrivial parastatistics inequivalent to either fermions or bosons can exist in physical systems. These new types of identical particles obey generalized exclusion principles, leading to exotic free-particle thermodynamics distinct from any system of free fermions and bosons. We formulate our theory by developing a second quantization of paraparticles, which naturally includes exactly solvable non-interacting theories, and incorporates physical constraints such as locality. We then construct a family of exactly solvable quantum spin models in one and two dimensions where free paraparticles emerge as quasiparticle excitations, and their exchange statistics can be physically observed and is notably distinct from fermions and bosons. This demonstrates the possibility of a new type of quasiparticle in condensed matter systems, and, more speculatively, the potential for previously unconsidered types of elementary particles.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# ガウス過程とアクティブラーニングによる電力グリッドの高速リスク評価

Fast Risk Assessment in Power Grids through Novel Gaussian Process and Active Learning ( http://arxiv.org/abs/2308.07867v2 )

ライセンス: Link先を確認
Parikshit Pareek, Deepjyoti Deka, Sidhant Misra, (参考訳) 本稿では,臨界電圧制約に対するデータ駆動型リスク評価のためのグラフ構造化ガウス過程(GP)モデルを提案する。 提案したGPは、ネットワークグラフに基づいて電圧-負荷関係を分解する、vertex-degree kernel (VDK) と呼ばれる新しいカーネルに基づいている。 GPを効率的に推定するために,VDKの付加構造を利用した新しいアクティブラーニング手法を提案する。 さらに、VDK-GPモデルを用いたリスク推定における誤差の確率的境界を証明し、標準交流電力フロー(AC-PF)と統計的に比較できるが、多数のACPFソリューションを計算する必要がなくなることを示した。 シミュレーションにより,提案したVDK-GPは,中規模500-Busと大規模1354-Busの汎用GPと比較して,2倍以上の複雑さの低減を実現することが示された。 さらに, モンテカルロシミュレーション (MCS) の時間的複雑さと比較して, アクティブラーニングの精度は15倍以上に低下し, 500-Bus と 1354-Bus のいずれにおいても, オーダー1E-4 のリスク推定誤差があり, リスク推定の効率が優れていた。

This paper presents a graph-structured Gaussian process (GP) model for data-driven risk assessment of critical voltage constraints. The proposed GP is based on a novel kernel, named the vertex-degree kernel (VDK), that decomposes the voltage-load relationship based on the network graph. To estimate the GP efficiently, we propose a novel active learning scheme that leverages the additive structure of VDK. Further, we prove a probabilistic bound on the error in risk estimation using VDK-GP model that demonstrates that it is statistically comparable to using standard AC power flow (AC-PF), but does not require computing a large number of ACPF solutions. Simulations demonstrate that the proposed VDK-GP achieves more than two fold sample complexity reduction, compared to a generic GP on medium scale 500-Bus and large scale 1354-Bus power systems. Moreover, active learning achieves an impressive reduction of over 15 times in comparison to the time complexity of Monte-Carlo simulations (MCS), and have risk estimation error of order 1E-4 for both 500-Bus and 1354-Bus system, demonstrating its superior efficiency in risk estimation.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# マルチデータセット・ポイント・プロンプト・トレーニングによる大規模3次元表現学習に向けて

Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training ( http://arxiv.org/abs/2308.09718v2 )

ライセンス: Link先を確認
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao, (参考訳) ディープラーニングモデルの急速な進歩は、大規模なトレーニングデータを活用する能力に起因することが多い。 対照的に、このような特権は、主に大規模な3Dデータセットの可用性が限られているため、まだ3Dのディープラーニングに完全に恩恵を受けていない。 複数の利用可能なデータソースをマージして、ひとつのモデルを協調的にトレーニングすることは、潜在的な解決策です。 しかし、3Dポイントクラウドデータセット間の大きなドメインギャップのため、このような混在した監視はモデルの性能に悪影響を及ぼし、単一データセットのトレーニングに比べて劣化したパフォーマンス(負の転送)につながる可能性がある。 この課題を考慮したPPT(Point Prompt Training)は,複数の事前学習パラダイムをサポートする3次元表現学習の文脈において,マルチデータセットのシナジスティック学習のための新しいフレームワークである。 本稿では、ドメイン固有のプロンプトを持つ異なるデータセットにモデルを適応させるPrompt-driven Normalizationと、ラベルテキスト間の関係を利用して、複数データセットのラベル空間を適切に統一するLanguage-Guided Categorical Alignmentを提案する。 大規模な実験により、PTTは相乗的学習に関連する負の伝達を克服し、一般化可能な表現を生成することができることが検証された。 特に、教師付きマルチデータセットトレーニングを備えた単一の重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。 さらに、事前学習フレームワークとして機能する場合には、表現品質に関する他のトレーニング済みアプローチよりも優れており、屋内および屋外の両方の3Dシナリオにまたがる10以上の下流タスクにおいて、最先端のパフォーマンスを達成することができる。

The rapid advancement of deep learning models often attributes to their ability to leverage massive training data. In contrast, such privilege has not yet fully benefited 3D deep learning, mainly due to the limited availability of large-scale 3D datasets. Merging multiple available data sources and letting them collaboratively train a single model is a potential solution. However, due to the large domain gap between 3D point cloud datasets, such mixed supervision could adversely affect the model's performance and lead to degenerated performance (i.e., negative transfer) compared to single-dataset training. In view of this challenge, we introduce Point Prompt Training (PPT), a novel framework for multi-dataset synergistic learning in the context of 3D representation learning that supports multiple pre-training paradigms. Based on this framework, we propose Prompt-driven Normalization, which adapts the model to different datasets with domain-specific prompts and Language-guided Categorical Alignment that decently unifies the multiple-dataset label spaces by leveraging the relationship between label text. Extensive experiments verify that PPT can overcome the negative transfer associated with synergistic learning and produce generalizable representations. Notably, it achieves state-of-the-art performance on each dataset using a single weight-shared model with supervised multi-dataset training. Moreover, when served as a pre-training framework, it outperforms other pre-training approaches regarding representation quality and attains remarkable state-of-the-art performance across over ten diverse downstream tasks spanning both indoor and outdoor 3D scenarios.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-21
# ドイツのChatGPTユーザの特徴--Web追跡データからのデジタル分割をめざして

Characteristics of ChatGPT users from Germany: implications for the digital divide from web tracking data ( http://arxiv.org/abs/2309.02142v3 )

ライセンス: Link先を確認
Celina Kacperski, Denis Bonnay, Juhi Kulshrestha, Peter Selb, Andreas Spitz, Roberto Ulloa, (参考訳) 我々の時代の大きな課題は、デジタル技術へのアクセスと効果的な利用の格差を減らすことであり、近年の議論は、デジタルディビジョンを悪化させる上でAIが果たす役割を強調している。 本稿では,AIを利用した会話エージェントChatGPTのユーザ特性について検討する。 N=1376人のドイツ市民のWeb追跡データと行動データを組み合わせて、2022年11月30日のサービス開始から11ヶ月のChatGPT活動の違い(使用状況、訪問状況、導入状況)を調査した。 技術受容モデル(UTAUT-2)により、ChatGPT活動におけるデジタル分断に共通する社会デミノグラフィーの役割を考察し、ラッソ回帰における安定性の選択を通じて特定されるさらなる社会的・政治的属性を探求する。 高齢化と高等教育がChatGPTの使用に影響を及ぼすことは確認できたが、性別や収入は見つからなかった。 フルタイムの雇用と、より多くの子どもがChatGPT活動の障壁になることに気付きました。 様々なソーシャルメディアの使用は、ChatGPT活動と肯定的に関連していた。 政治的変数、政治的知識、政治的自己効力、および投票、オンラインおよびオフラインでの政治的問題を議論する、政治的行動は、すべてChatGPTの活動に関係しており、オンラインの政治的議論と政治的自己効力は否定的に関連していた。 最後に、書記、出席会議、プレゼンテーションなどの認知とコミュニケーションのスキルの必要性もChatGPTの関与に関連していたが、議長・組織会議は否定的に関連していた。 本研究は, デジタルの格差に対処し, 被保護者のデジタルリテラシーを促進するために, 倫理的・社会的問題に関する示唆, 勧告, 議論を提示する。

A major challenge of our time is reducing disparities in access to and effective use of digital technologies, with recent discussions highlighting the role of AI in exacerbating the digital divide. We examine user characteristics that predict usage of the AI-powered conversational agent ChatGPT. We combine behavioral and survey data in a web tracked sample of N=1376 German citizens to investigate differences in ChatGPT activity (usage, visits, and adoption) during the first 11 months from the launch of the service (November 30, 2022). Guided by a model of technology acceptance (UTAUT- 2), we examine the role of socio-demographics commonly associated with the digital divide in ChatGPT activity and explore further socio-political attributes identified via stability selection in Lasso regressions. We confirm that lower age and higher education affect ChatGPT usage, but do not find that gender or income do. We find full-time employment and more children to be barriers to ChatGPT activity. Using a variety of social media was positively associated with ChatGPT activity. In terms of political variables, political knowledge and political self-efficacy as well as some political behaviors such as voting, debating political issues online and offline and political action online were all associated with ChatGPT activity, with online political debating and political self-efficacy negatively so. Finally, need for cognition and communication skills such as writing, attending meetings, or giving presentations, were also associated with ChatGPT engagement, though chairing/organizing meetings was negatively associated. Our research informs efforts to address digital disparities and promote digital literacy among underserved populations by presenting implications, recommendations, and discussions on ethical and social issues of our findings.
翻訳日:2024-07-24 05:36:51 公開日:2024-07-21
# USL-Net:unsupervised Skin Lesion Segmentationのための不確実なセルフラーニングネットワーク

USL-Net: Uncertainty Self-Learning Network for Unsupervised Skin Lesion Segmentation ( http://arxiv.org/abs/2309.13289v3 )

ライセンス: Link先を確認
Xiaofan Li, Bo Peng, Jie Hu, Changyou Ma, Daipeng Yang, Zhuyang Xie, (参考訳) 監督されていない皮膚病変のセグメンテーションは、専門家の人的資源の保存、主観的なヒトのラベル付けによる相違の低減、新しい環境への適応など、いくつかの利点を提供する。 しかし,手動ラベリング指導を使わずに画像分割を行うことは,ヘアノイズ,ブラスターノイズ,微妙なエッジ差などの皮膚内視鏡的画像アーティファクトによる重要な課題を呈している。 これらの課題に対処するために、皮膚病変のセグメンテーション用に設計された革新的不確実性自己学習ネットワーク(USL-Net)を導入する。 USL-Netは、手動ラベリングガイダンスの必要性をなくし、効果的に範囲の病変を区分することができる。 当初、特徴は対照的な学習を用いて抽出され、続いてこれらの特徴を用いた唾液マップとしてクラスアクティベーションマップ(CAM)が生成される。 異なるCAM位置は、その唾液度に基づく病変領域の重要性に対応している。 地図内の高濃度領域は病変領域の擬似ラベルとして機能し、低濃度領域は背景を表す。 しかし、中間領域は、しばしば病変の縁に近づいたり、毛髪やブリスターからの干渉のために分類するのが困難である。 疑似ラベル誤りの危険性や、これらの領域を強制的に分類することで混乱を学習する代わりに、疑似ラベルを除外し、ネットワークを自己学習可能にする不確実な領域とみなす。 さらに、接続検出と集中度検出を用いて、前景の擬似ラベルを洗練し、ノイズによるエラーを低減する。 サイクル精製の適用により、さらに性能が向上する。 提案手法はISIC-2017, ISIC-2018, PH2データセットに対して徹底的な検証を行い, その性能は弱教師付きおよび教師付き手法と同等であり, 既存の教師なし手法よりも優れていることを示した。

Unsupervised skin lesion segmentation offers several benefits, including conserving expert human resources, reducing discrepancies due to subjective human labeling, and adapting to novel environments. However, segmenting dermoscopic images without manual labeling guidance presents significant challenges due to dermoscopic image artifacts such as hair noise, blister noise, and subtle edge differences. To address these challenges, we introduce an innovative Uncertainty Self-Learning Network (USL-Net) designed for skin lesion segmentation. The USL-Net can effectively segment a range of lesions, eliminating the need for manual labeling guidance. Initially, features are extracted using contrastive learning, followed by the generation of Class Activation Maps (CAMs) as saliency maps using these features. The different CAM locations correspond to the importance of the lesion region based on their saliency. High-saliency regions in the map serve as pseudo-labels for lesion regions while low-saliency regions represent the background. However, intermediate regions can be hard to classify, often due to their proximity to lesion edges or interference from hair or blisters. Rather than risk potential pseudo-labeling errors or learning confusion by forcefully classifying these regions, we consider them as uncertainty regions, exempting them from pseudo-labeling and allowing the network to self-learn. Further, we employ connectivity detection and centrality detection to refine foreground pseudo-labels and reduce noise-induced errors. The application of cycle refining enhances performance further. Our method underwent thorough experimental validation on the ISIC-2017, ISIC-2018, and PH2 datasets, demonstrating that its performance is on par with weakly supervised and supervised methods, and exceeds that of other existing unsupervised methods.
翻訳日:2024-07-24 05:36:51 公開日:2024-07-21
# ビジョンランゲージタスクのためのスーパーピクセルセマンティック表現と事前学習

Superpixel Semantics Representation and Pre-training for Vision-Language Task ( http://arxiv.org/abs/2310.13447v3 )

ライセンス: Link先を確認
Siyu Zhang, Yeming Chen, Yaoru Sun, Fang Wang, Jun Yang, Lizhi Bai, Shangce Gao, (参考訳) 視覚言語タスクを統合するための鍵は、優れたアライメント戦略を確立することです。 近年、視覚的意味表現は、グリッドや画像パッチを分割することで、きめ細やかな視覚的理解を実現している。 しかし、画像空間における粗粒度の意味的相互作用は無視されるべきではなく、シーン境界における複雑な文脈的意味的関係の抽出を妨げる。 本稿では,スーパーピクセルを包括的かつ堅牢な視覚的プリミティブとして提案し,知覚的に類似したピクセルをクラスタリングすることで粗粒度の意味的相互作用をマイニングし,その後のプリミティブ処理を高速化する。 スーパーピクセルレベルのセマンティックな特徴を捉えるために,MDGCN (Multiscale Different Graph Convolutional Network) を提案する。 画像全体を細粒度で粗い視覚階層として解析することができる。 実際の意味関係を推論するために、隣接グラフノード間の差分情報を集約することにより、潜在的なノイズ干渉を低減する。 最後に, 相補的な空間情報を異なるレベルでマイニングすることで, 偏差の理解を避けるため, ボトムアップ方式で多層融合ルールを提案する。 実験の結果,提案手法は複数の下流タスクの学習を効果的に促進できることがわかった。 当社の手法は,すべての指標において,従来の手法よりも優れています。 私たちのコードは出版時に公開される。

The key to integrating visual language tasks is to establish a good alignment strategy. Recently, visual semantic representation has achieved fine-grained visual understanding by dividing grids or image patches. However, the coarse-grained semantic interactions in image space should not be ignored, which hinders the extraction of complex contextual semantic relations at the scene boundaries. This paper proposes superpixels as comprehensive and robust visual primitives, which mine coarse-grained semantic interactions by clustering perceptually similar pixels, speeding up the subsequent processing of primitives. To capture superpixel-level semantic features, we propose a Multiscale Difference Graph Convolutional Network (MDGCN). It allows parsing the entire image as a fine-to-coarse visual hierarchy. To reason actual semantic relations, we reduce potential noise interference by aggregating difference information between adjacent graph nodes. Finally, we propose a multi-level fusion rule in a bottom-up manner to avoid understanding deviation by mining complementary spatial information at different levels. Experiments show that the proposed method can effectively promote the learning of multiple downstream tasks. Encouragingly, our method outperforms previous methods on all metrics. Our code will be released upon publication.
翻訳日:2024-07-24 05:26:51 公開日:2024-07-21
# ディファレンシャル・プライベート・スプリット・ラーニングにおける精度と生産性のトレードオフの促進

Enhancing Accuracy-Privacy Trade-off in Differentially Private Split Learning ( http://arxiv.org/abs/2310.14434v2 )

ライセンス: Link先を確認
Ngoc Duy Pham, Khoa Tran Phan, Naveen Chilamkurti, (参考訳) Split Learning(SL)は、クライアントサーバ間で詳細なモデルを分散し、プライベートデータをローカルに保持することで、ユーザのデータプライバシを保護することを目的としている。 SLプロセス中にクライアントからサーバに送信できるのは、処理されたデータまたは‘スマッシュ’データのみである。 しかし、最近提案されたモデル反転攻撃は、スマッシュされたデータから元のデータを復元することができる。 このような攻撃に対するプライバシー保護を強化するために、ある精度の損失を犠牲にして、スマッシュされたデータを保護することを含む差分プライバシー(DP)を採用する戦略がある。 本稿では、SLにおける複数のクライアントをさまざまなプライバシー要件でトレーニングする際の精度への影響について、初めて検討する。 そこで本研究では,クライアントトレーニング中のDPノイズ分布を検証し,精度の劣化に対処する手法を提案する。 また, SLの局所モデルに対するDPの適用について検討し, 精度とプライバシのトレードオフについて考察する。 具体的には、後続のローカルレイヤにノイズを導入することで、精度とプライバシのバランスが最も良好であることが判明した。 より浅い層における洞察から、より高精度を維持しながらデータの漏洩を最小限に抑え、精度とプライバシのトレードオフを最適化する手法を提案する。 さらに、スマッシュデータのサイズが小さくなれば、クライアント側の通信オーバーヘッドが減少し、SLの顕著な欠点の1つが軽減される。 一般的なデータセットを用いた実験により,提案手法はDPをSLに組み込むための最適なトレードオフを提供することを示した。

Split learning (SL) aims to protect user data privacy by distributing deep models between client-server and keeping private data locally. Only processed or `smashed' data can be transmitted from the clients to the server during the SL process. However, recently proposed model inversion attacks can recover the original data from the smashed data. In order to enhance privacy protection against such attacks, a strategy is to adopt differential privacy (DP), which involves safeguarding the smashed data at the expense of some accuracy loss. This paper presents the first investigation into the impact on accuracy when training multiple clients in SL with various privacy requirements. Subsequently, we propose an approach that reviews the DP noise distributions of other clients during client training to address the identified accuracy degradation. We also examine the application of DP to the local model of SL to gain insights into the trade-off between accuracy and privacy. Specifically, findings reveal that introducing noise in the later local layers offers the most favorable balance between accuracy and privacy. Drawing from our insights in the shallower layers, we propose an approach to reduce the size of smashed data to minimize data leakage while maintaining higher accuracy, optimizing the accuracy-privacy trade-off. Additionally, a smaller size of smashed data reduces communication overhead on the client side, mitigating one of the notable drawbacks of SL. Experiments with popular datasets demonstrate that our proposed approaches provide an optimal trade-off for incorporating DP into SL, ultimately enhancing training accuracy for multi-client SL with varying privacy requirements.
翻訳日:2024-07-24 05:26:51 公開日:2024-07-21
# VerityMath: ユニット一貫性による自己検証による数学的推論の促進

VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency ( http://arxiv.org/abs/2311.07172v2 )

ライセンス: Link先を確認
Vernon Toh Yan Han, Ratish Puduppully, Nancy F. Chen, (参考訳) 大規模言語モデル(LLM)とプログラムベースの問題解決技術を組み合わせることで、数学的推論の習熟度がますます高まっている。 例えば、OpenAI GPT-4やClaudeのようなクローズドソースモデルは、数学の単語問題を解くのに優れた結果を示している。 しかし、オープンソースのLLMに対する数学用語問題解決の進歩は限られており、これらのモデルが直面する課題は十分に研究されていない。 本稿では,Llama 2 (7B), Code Llama (7B), Mistral (7B) などの強力なオープンソース LLM の性能を,プログラムベースの解法を用いて解析する。 具体的には,数語問題に適用した場合のこれらのモデルのアウトプットを分析し,特に複数の単位にまたがる量を含む問題カテゴリを同定する。 この問題に対処するため,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。 単位整合性プログラム (UCPs) は, 単位仕様と単位検証ルーチンを含むプログラムと組み合わせた, 数学語問題の注釈付きデータセットである。 Llama 2 (7B), Code Llama (7B), Mistral (7B) モデルを UCP で微調整し,それらのVerityMath 変異体を作成した。 以上の結果から, 単体整合性を含む我々の手法は, 従来と比べ, わずかに性能が劣っていることが示唆された。 この背景にある理由を理解するため、我々は詳細なエラー分析を行い、今後の改善の選択肢を提案する。 私たちのコードとデータセットはhttps://github.com/vernontoh/VerityMath.orgで公開されています。

Large Language Models (LLMs), combined with program-based solving techniques, are increasingly demonstrating proficiency in mathematical reasoning. For example, closed-source models such as OpenAI GPT-4 and Claude show excellent results in solving math word problems. However, progress in math word problem-solving for open-source LLMs is limited, and the challenges these models face are not well-studied. In this paper, we study the performance of strong open-source LLMs, including Llama 2 (7B), Code Llama (7B), and Mistral (7B) on math word problems using program-based solving techniques. Specifically, we analyze the outputs of these models when applied to math word problems and identify a category of problems that pose a significant challenge, particularly those involving quantities spanning multiple units. To address this issue, we propose a systematic approach by defining the units for each quantity and ensuring the consistency of these units during mathematical operations. We developed Unit Consistency Programs (UCPs), an annotated dataset of math word problems, each paired with programs containing unit specifications and unit verification routines. We fine-tuned Llama 2 (7B), Code Llama (7B), and Mistral (7B) models with UCPs to produce theirVerityMath variants. Our findings indicate that our approach, which incorporates unit consistency, currently slightly underperforms compared to an approach that does not. To understand the reasons behind this, we conduct an in-depth error analysis and suggest options for future improvements. Our code and dataset are available at https://github.com/vernontoh/VerityMath.
翻訳日:2024-07-24 05:26:51 公開日:2024-07-21
# 故障データセットのための高品質ロバスト拡散フレームワーク

A High-Quality Robust Diffusion Framework for Corrupted Dataset ( http://arxiv.org/abs/2311.17101v2 )

ライセンス: Link先を確認
Quan Dao, Binh Ta, Tung Pham, Anh Tran, (参考訳) 画像生成モデルの開発は、トレーニングプロセスにおいて、アウトレーヤに対して堅牢なものであり、最近、研究コミュニティから注目を集めている。 非バランスな最適輸送(UOT)を敵のフレームワークに統合し易いため、既存の研究は主に生成的敵のモデル(GAN)のための堅牢なフレームワークの開発に重点を置いている。 一方、拡散モデルは近年、様々なタスクやデータセットにおいてGANを支配している。 しかしながら、私たちの知る限りでは、いずれも破損したデータセットに対して堅牢なものではない。 DDGANに触発された我々の研究は、最初のロバスト・ツー・アウトリエ拡散を導入する。 我々は, DDGAN における GAN の UOT に基づく生成モデルを置き換えることで, 後方拡散過程の学習を提案する。 さらに、我々のフレームワークにおける発散のリプシッツ特性がより安定した訓練収束に寄与することを示した。 顕著なことに,本手法は破損したデータセットに対して堅牢性を示すだけでなく,クリーンなデータセット上での優れた性能を実現する。

Developing image-generative models, which are robust to outliers in the training process, has recently drawn attention from the research community. Due to the ease of integrating unbalanced optimal transport (UOT) into adversarial framework, existing works focus mainly on developing robust frameworks for generative adversarial model (GAN). Meanwhile, diffusion models have recently dominated GAN in various tasks and datasets. However, according to our knowledge, none of them are robust to corrupted datasets. Motivated by DDGAN, our work introduces the first robust-to-outlier diffusion. We suggest replacing the UOT-based generative model for GAN in DDGAN to learn the backward diffusion process. Additionally, we demonstrate that the Lipschitz property of divergence in our framework contributes to more stable training convergence. Remarkably, our method not only exhibits robustness to corrupted datasets but also achieves superior performance on clean datasets.
翻訳日:2024-07-24 05:16:55 公開日:2024-07-21
# セマンティック・アウェア拡散モデルによる層状3次元人体生成

Layered 3D Human Generation via Semantic-Aware Diffusion Model ( http://arxiv.org/abs/2312.05804v3 )

ライセンス: Link先を確認
Yi Wang, Jian Ma, Ruizhi Shao, Qiao Feng, Yu-Kun Lai, Yebin Liu, Kun Li, (参考訳) 近年,3D衣服のヒトの誕生が注目されている。 しかし、既存の作業は、一貫した身体構造を持つ階層化された高品質な3D人間を生成できない。 その結果、人体や衣服を任意に、別々に変更・編集することができない。 本稿では, 物理的に分離された意味認識拡散モデルに基づくテキスト駆動型3次元ヒューマン生成フレームワークを提案する。 生成した衣服を対象のテキストと整合性を保つため,モデルが生成する非着装コンテンツを排除可能な衣服のセマンティック・信頼戦略を提案する。 そこで本研究では,衣服の自由移動と再利用を可能にするSMPL方式の暗黙的フィールド変形ネットワークを提案する。 さらに,身体と衣服のSMPLモデルに基づく均一な形状の先行モデルを導入し,個々のテンプレートに拘束されずに,より多様な3Dコンテンツを生成する。 実験結果から,本手法は立体構造が一貫した3次元人体を生成できるだけでなく,自由な編集もできることがわかった。 ソースコードは公開されます。

The generation of 3D clothed humans has attracted increasing attention in recent years. However, existing work cannot generate layered high-quality 3D humans with consistent body structures. As a result, these methods are unable to arbitrarily and separately change and edit the body and clothing of the human. In this paper, we propose a text-driven layered 3D human generation framework based on a novel physically-decoupled semantic-aware diffusion model. To keep the generated clothing consistent with the target text, we propose a semantic-confidence strategy for clothing that can eliminate the non-clothing content generated by the model. To match the clothing with different body shapes, we propose a SMPL-driven implicit field deformation network that enables the free transfer and reuse of clothing. Besides, we introduce uniform shape priors based on the SMPL model for body and clothing, respectively, which generates more diverse 3D content without being constrained by specific templates. The experimental results demonstrate that the proposed method not only generates 3D humans with consistent body structures but also allows free editing in a layered manner. The source code will be made public.
翻訳日:2024-07-24 05:07:10 公開日:2024-07-21
# コンピュータ著作権:音楽生成AIのロイヤリティモデルを目指して

Computational Copyright: Towards A Royalty Model for Music Generative AI ( http://arxiv.org/abs/2312.06646v4 )

ライセンス: Link先を確認
Junwei Deng, Shiyuan Zhang, Jiaqi Ma, (参考訳) 生成AIの進歩は、特に音楽業界における著作権問題に拍車をかけた。 本稿では,これらの課題の経済的側面に焦点をあて,著作権分野における経済的影響が中心的な課題となっていることを強調する。 さらに、ブラックボックス生成AI技術の複雑さは、アルゴリズムソリューションを暗示するだけでなく、必要としている。 しかし、そのようなソリューションはほとんど失われており、この状況における規制上のハードルが悪化している。 私たちは、AI音楽生成プラットフォーム上での収益分配のために、実行可能なロイヤリティモデルを提案することで、このギャップに対処しようとしています。 まず、SpotifyやYouTubeなどのプラットフォームで使用されている既存のロイヤリティモデルを調べ、AI生成音楽のユニークな状況にどのように適応するかを議論する。 この適応から生じる重要な課題は、トレーニングデータに影響を及ぼす著作権のあるコンテンツに対するAI生成音楽の帰属である。 そこで本研究では,データ帰属手法を用いたアルゴリズムソリューションを提案する。 また、これらのソリューションの有効性と堅牢性を検証するために、さまざまな実験も行っています。 この研究は、AI技術の不透明な性質によって引き起こされる課題に対して、計算的著作権ソリューションを提供する音楽生成AIの分野で、技術的進歩と経済的および法的考察を統合する初期の試みの1つである。

The advancement of generative AI has given rise to pressing copyright challenges, especially within the music industry. This paper focuses on the economic aspects of these challenges, emphasizing that the economic impact constitutes a central issue in the copyright arena. Furthermore, the complexity of the black-box generative AI technologies not only suggests but necessitates algorithmic solutions. Yet, such solutions have been largely missing, exacerbating regulatory hurdles in this landscape. We seek to address this gap by proposing viable royalty models for revenue sharing on AI music generation platforms. We start by examining existing royalty models utilized by platforms like Spotify and YouTube, and then discuss how to adapt them to the unique context of AI-generated music. A significant challenge emerging from this adaptation is the attribution of AI-generated music to influential copyrighted content in the training data. To this end, we present algorithmic solutions employing data attribution techniques. We also conduct a range of experiments to verify the effectiveness and robustness of these solutions. This research is one of the early attempts to integrate technical advancements with economic and legal considerations in the field of music generative AI, offering a computational copyright solution for the challenges posed by the opaque nature of AI technologies.
翻訳日:2024-07-24 05:07:10 公開日:2024-07-21
# GLOP:大規模ルーティング問題を解決するためのグローバルパーティションとローカル構築をリアルタイムで学習する

GLOP: Learning Global Partition and Local Construction for Solving Large-scale Routing Problems in Real-time ( http://arxiv.org/abs/2312.08224v2 )

ライセンス: Link先を確認
Haoran Ye, Jiarui Wang, Helan Liang, Zhiguang Cao, Yong Li, Fanzhang Li, (参考訳) 最近のエンドツーエンドのニューラルソルバは、小規模ルーティング問題への期待を示しているが、リアルタイムのスケーリングパフォーマンスの制限に悩まされている。 本稿では,大規模ルーティング問題に対して効率よくスケール可能な統一階層型フレームワークであるGLOP(Global and Local Optimization Policies)を提案する。 GLOPは、トラベルセールスマン問題(TSP)とTSPに分割して、最も短いハミルトンパス問題に分割する。 まず, 粗粒度問題分割のための非自己回帰型ニューラルヒューリスティックスと, 細粒度ルート構築のための自己回帰型ニューラルヒューリスティックスをハイブリダイズし, 前者のスケーラビリティと後者の繊細さを活用する。 実験結果から,TSP,ATSP,CVRP,PCTSPなどの大規模ルーティング問題に対して,GLOPは競合的かつ最先端のリアルタイム性能を実現することがわかった。

The recent end-to-end neural solvers have shown promise for small-scale routing problems but suffered from limited real-time scaling-up performance. This paper proposes GLOP (Global and Local Optimization Policies), a unified hierarchical framework that efficiently scales toward large-scale routing problems. GLOP partitions large routing problems into Travelling Salesman Problems (TSPs) and TSPs into Shortest Hamiltonian Path Problems. For the first time, we hybridize non-autoregressive neural heuristics for coarse-grained problem partitions and autoregressive neural heuristics for fine-grained route constructions, leveraging the scalability of the former and the meticulousness of the latter. Experimental results show that GLOP achieves competitive and state-of-the-art real-time performance on large-scale routing problems, including TSP, ATSP, CVRP, and PCTSP.
翻訳日:2024-07-24 05:07:10 公開日:2024-07-21
# NICP: 大規模人間の3次元登録のためのニューラルICP

NICP: Neural ICP for 3D Human Registration at Scale ( http://arxiv.org/abs/2312.14024v3 )

ライセンス: Link先を確認
Riccardo Marin, Enric Corona, Gerard Pons-Moll, (参考訳) 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。 最近のデータ駆動手法は予測表面対応を利用する。 しかし、それらは様々なポーズ、アイデンティティ、ノイズに対して堅牢ではない。 対照的に、産業ソリューションは高価な手動アノテーションやマルチビューキャプチャシステムに依存していることが多い。 近年、ニューラルフィールドは有望な結果を示している。 それでも、純粋にデータ駆動で外在的な性質は、ターゲット表面へのガイダンスを一切含まないため、テンプレート登録の簡単なミスアライメントが生じることが多い。 現在、ダウンストリームアプリケーションのスケーラビリティを制限し、3Dヒューマン登録の標準と見なす方法はない。 本研究では,ニューラルネットワークのスケーラブルな登録手法であるNSRを提案する。このパイプラインは,数千の形状と10以上の異なるデータソースにまたがって,初めて一般化とスケールを行うパイプラインである。 我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。 NSRは数秒を要し、自己管理され、トレーニング済みのニューラルネットワーク上ですぐに動作します。 NSRはNICPと大規模なMoCapデータセットでトレーニングされた局所ニューラルネットワークを組み合わせることで、公開ベンチマークの最先端を実現している。 コードとチェックポイントのリリースは、データセットのアライメントやクリーニング、アセットアニメーションなど、多くの下流タスクに有用な強力なツールを提供します。

Aligning a template to 3D human point clouds is a long-standing problem crucial for tasks like animation, reconstruction, and enabling supervised learning pipelines. Recent data-driven methods leverage predicted surface correspondences. However, they are not robust to varied poses, identities, or noise. In contrast, industrial solutions often rely on expensive manual annotations or multi-view capturing systems. Recently, neural fields have shown promising results. Still, their purely data-driven and extrinsic nature does not incorporate any guidance toward the target surface, often resulting in a trivial misalignment of the template registration. Currently, no method can be considered the standard for 3D Human registration, limiting the scalability of downstream applications. In this work, we propose a neural scalable registration method, NSR, a pipeline that, for the first time, generalizes and scales across thousands of shapes and more than ten different data sources. Our essential contribution is NICP, an ICP-style self-supervised task tailored to neural fields. NSR takes a few seconds, is self-supervised, and works out of the box on pre-trained neural fields. NSR combines NICP with a localized neural field trained on a large MoCap dataset, achieving the state of the art over public benchmarks. The release of our code and checkpoints provides a powerful tool useful for many downstream tasks like dataset alignments, cleaning, or asset animation.
翻訳日:2024-07-24 05:07:10 公開日:2024-07-21
# SusDevOps: ソフトウェアデリバリの第一原則に持続可能性を促進する

SusDevOps: Promoting Sustainability to a First Principle in Software Delivery ( http://arxiv.org/abs/2312.14843v2 )

ライセンス: Link先を確認
Istvan David, (参考訳) サステナビリティは、現代のソフトウェアシステムの重要な特性になりつつある。 持続可能なソフトウェアにはかなり多くの知識が生まれていますが、ソフトウェアデリバリライフサイクルの中で持続可能性に関連するアクティビティを集中するエンドツーエンドのフレームワークは欠落しています。 この記事では、DevOpsコンテキストにおける第一原則への持続可能性を促進するSusDevOpsフレームワークを提案する。 ソフトウェア開発スタートアップ企業を事例として,SusDevOpsのライフサイクルフェーズとテクニックを実演する。

Sustainability is becoming a key property of modern software systems. While there is a substantial and growing body of knowledge on engineering sustainable software, end-to-end frameworks that situate sustainability-related activities within the software delivery lifecycle are missing. In this article, we propose the SusDevOps framework that promotes sustainability to a first principle within a DevOps context. We demonstrate the lifecycle phases and techniques of SusDevOps through the case of a software development startup company.
翻訳日:2024-07-24 03:12:35 公開日:2024-07-21
# 多モードNOON状態による光子損失に対する最適多重位相推定

Optimal multiple-phase estimation with multi-mode NOON states against photon loss ( http://arxiv.org/abs/2401.09734v2 )

ライセンス: Link先を確認
Min Namkung, Dong-Hyun Kim, Seongjin Hong, Yong-Su Kim, Changhyoup Lee, Hyang-Tag Lim, (参考訳) マルチモードNOON状態は、光子損失がない場合に、量子エンハンスな多重位相推定を行うことができる。 しかし、マルチモードNOON状態は光子損失に弱いことが知られており、その量子エンハンスメントは損失環境によって消散することができる。 本研究では、推定精度における量子的優位性を、光子損失の存在下でも達成できることを実証する。 これは、他の位相を定義する参照モードを含む多重モードにおける光子損失率に応じて、多重モードNOON状態の重みを最適化することで達成される。 また,光子数を多モードビームスプリッタでカウントすることで,準最適,量子的優位性が得られることを示す。 この研究は、損失のある環境で量子化多重位相推定技術を開発するための貴重なガイダンスを提供することを期待している。

Multi-mode NOON states can quantum-enhance multiple-phase estimation in the absence of photon loss. However, a multi-mode NOON state is known to be vulnerable to photon loss, and its quantum-enhancement can be dissipated by lossy environment. In this work, we demonstrate that a quantum advantage in estimate precision can still be achieved in the presence of photon loss. This is accomplished by optimizing the weights of the multi-mode NOON states according to photon loss rates in the multiple modes, including the reference mode which defines the other phases. For practical relevance, we also show that photon-number counting via a multi-mode beam-splitter achieves the useful, albeit sub-optimal, quantum advantage. We expect this work to provide valuable guidance for developing quantum-enhanced multiple-phase estimation techniques in lossy environments.
翻訳日:2024-07-24 03:12:35 公開日:2024-07-21
# 心臓血管の脈波に関する一考察--スマートフォン光胸腔造影法による脈波解析による血圧推定

A Finger on the Pulse of Cardiovascular: Estimating Blood Pressure with Smartphone Photoplethysmography-Based Pulse Waveform Analysis ( http://arxiv.org/abs/2401.11117v2 )

ライセンス: Link先を確認
Ivan Liu, Fangyuan Liu, Qi Zhong, Shiguang Ni, (参考訳) 連続血圧(BP)モニタリングに携帯電話カメラを使用すると、コスト効率が高くアクセスしやすいアプローチが提示されるが、精度と解釈性に限界がある。 本研究は,BP推定のためのスマートフォンベースの光プラチスモグラフィー(SPW-BP)を強化し,解釈可能性・精度のジレンマに対処する4つの革新的戦略を紹介する。まず,高正規化や汚いデータ除去,境界信号再構成などのデータ品質向上手法を多用し,第2に,最も予測可能な特徴を特定するために3つのカテゴリにまたがる20以上の波形指標の詳細な分析を行い,第3に,SHAP分析を用いて機械学習結果の透明性と説明性を保証し,第4に,AAMIとBHSの標準とともに,Bland-Altman分析を用いて比較評価を行う。 127人の被験者のデータ分析により,スマートフォンの波形特徴と標準BPモニタリング装置の波形特徴との間に有意な相関が認められた。 クロスバリデーションフレームワーク内で複数の線形回帰を用いて、波形変数は、平均絶対誤差(MAE)が9.86.78 mmHg、拡張血圧(DBP)が8.01 5.15 mmHgと予測される。 さらにランダムフォレストモデルの適用により、SBPの予測MAEは8.91.30 mmHg、DBPは6.68.54 mmHgに改善され、予測精度が向上した。 相関とSHAP分析はBP推定を改善するための重要な特徴を同定した。 しかし, Bland-Altman 分析では系統的偏りがみられ, MAE 解析ではAAMI と BHS の精度基準を満たしていないことがわかった。 この結果はSPW-BPの可能性を浮き彫りにしているが,スマートフォンのPPG技術はBP測定のための従来の医療機器の代替手段にはなっていないことを示唆している。

Utilizing mobile phone cameras for continuous blood pressure(BP) monitoring presents a cost-effective and accessible approach, yet it is challenged by limitations in accuracy and interpretability. This study introduces four innovative strategies to enhance smartphone-based photoplethysmography for BP estimation(SPW-BP), addressing the interpretability-accuracy dilemma: First, we employ often-neglected data quality improvement techniques, such as height normalization, corrupt data removal, and boundary signal reconstruction; second, we conduct an in-depth analysis of over twenty waveform indicators across three categories to identify the most predictive features; third, we employ SHapley Additive exPlanations(SHAP) analysis to ensure the transparency and explainability of machine learning outcomes; and fourth, we utilize Bland-Altman analysis alongside AAMI and BHS standards for comparative evaluation. Analysis of data from 127 participants demonstrated a significant correlation between smartphone-captured waveform features and those from standard BP monitoring devices. Employing multiple linear regression within a cross-validation framework, waveform variables predicted systolic blood pressure(SBP) with a mean absolute error(MAE) of 9.86 6.78 mmHg and diastolic blood pressure(DBP) with an MAE of 8.01 5.15 mmHg. Further application of Random Forest models significantly improved the prediction MAE for SBP to 8.91 6.30 mmHg and for DBP to 6.68 4.54 mmHg, indicating enhanced predictive accuracy. Correlation and SHAP analysis identified key features for improving BP estimation. However, Bland-Altman analysis revealed systematic biases, and MAE analysis showed that the results did not meet AAMI and BHS accuracy standards. Our findings highlight the potential of SPW-BP, yet suggest that smartphone PPG technology is not yet a viable alternative to traditional medical devices for BP measurement.
翻訳日:2024-07-24 03:02:44 公開日:2024-07-21
# 超強結合量子ラビモデルの誤差耐性増幅とシミュレーション

Error-Tolerant Amplification and Simulation of the Ultrastrong-Coupling Quantum Rabi Model ( http://arxiv.org/abs/2402.00379v2 )

ライセンス: Link先を確認
Ye-Hong Chen, Zhi-Cheng Shi, Franco Nori, Yan Xia, (参考訳) フォトニック猫状態によって形成される立方体は、バイアスのあるノイズチャネルを持つ。 このようなバイアスノイズ量子ビットは、キャット状態量子ビットを光学キャビティに結合させることにより、量子ラビモデルの誤差耐性シミュレーションにも有効であることを示す。 猫状態量子ビットを用いることで、反回転結合を効果的に強化することができ、反回転相互作用に依存するいくつかの魅力的な量子現象を探索することができる。 さらに、2つの主誤差チャネル(周波数と振幅のミスマッチ)が指数関数的に抑制されるというバイアスノイズ猫量子ビットの利点もある。 したがって、シミュレーションプロトコルは、投影部分空間を決定するパラメトリックドライブのパラメータエラーに対して堅牢である。 3つの例を分析します。 一 量子状態の崩壊及び復活 (II)隠れ対称性とトンネル力学 (iii)ペア・キャット・コード計算。

Cat-state qubits formed by photonic cat states have a biased noise channel, i.e., one type of error dominates over all the others. We demonstrate that such biased-noise qubits are also promising for error-tolerant simulations of the quantum Rabi model (and its varieties) by coupling a cat-state qubit to an optical cavity. Using the cat-state qubit can effectively enhance the counter-rotating coupling, allowing us to explore several fascinating quantum phenomena relying on the counter-rotating interaction. Moreover, another benefit from biased-noise cat qubits is that the two main error channels (frequency and amplitude mismatches) are both exponentially suppressed. Therefore, the simulation protocols are robust against parameter errors of the parametric drive which determines the projection subspace. We analyze three examples: (i) collapse and revivals of quantum states; (ii) hidden symmetry and tunneling dynamics; and (iii) pair-cat-code computation.
翻訳日:2024-07-24 02:50:43 公開日:2024-07-21
# 良き教師が語る:説明の強化された知識蒸留

Good Teachers Explain: Explanation-Enhanced Knowledge Distillation ( http://arxiv.org/abs/2402.03119v2 )

ライセンス: Link先を確認
Amin Parchami-Araghi, Moritz Böhle, Sukrut Rao, Bernt Schiele, (参考訳) 知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。 学生モデルが教師と同じような格付けを達成できることはよく知られているが、それにもかかわらず、それらが同じ機能を学ばないことがしばしば示されている。 しかし、生徒が教師から「正しい特徴」を学べることを保証するため、生徒と教師の機能は、同じ入力特徴に基づく予測などの類似した特性を共有することが望ましいことが多い。 本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。 アイデアは単純で直感的ではあるが,提案した「説明強調」KD(e$^2$KD)(1)は,正確性と学生-教員合意の観点から一貫して大きな利益をもたらし,(2)学生が教師から正しい理由から学び,同様の説明をすることを保証するとともに,(3)モデルアーキテクチャ,トレーニングデータの量,さらには'近似的'で事前計算された説明に対しても堅牢である。

Knowledge Distillation (KD) has proven effective for compressing large teacher models into smaller student models. While it is well known that student models can achieve similar accuracies as the teachers, it has also been shown that they nonetheless often do not learn the same function. It is, however, often highly desirable that the student's and teacher's functions share similar properties such as basing the prediction on the same input features, as this ensures that students learn the 'right features' from the teachers. In this work, we explore whether this can be achieved by not only optimizing the classic KD loss but also the similarity of the explanations generated by the teacher and the student. Despite the idea being simple and intuitive, we find that our proposed 'explanation-enhanced' KD (e$^2$KD) (1) consistently provides large gains in terms of accuracy and student-teacher agreement, (2) ensures that the student learns from the teacher to be right for the right reasons and to give similar explanations, and (3) is robust with respect to the model architectures, the amount of training data, and even works with 'approximate', pre-computed explanations.
翻訳日:2024-07-24 02:50:43 公開日:2024-07-21
# Piecewise Polynomial Tensor Network Quantum Feature Encoding

Piecewise Polynomial Tensor Network Quantum Feature Encoding ( http://arxiv.org/abs/2402.07671v3 )

ライセンス: Link先を確認
Mazen Ali, Matthias Kabel, (参考訳) この研究は、低ランクテンソルネットワークを利用して、量子回路に連続変数を埋め込む新しい方法を紹介した。 PPTNQFE(Piecewise Polynomial Tensor Network Quantum Feature Encoding)と呼ばれる我々のアプローチは、偏微分方程式や関数回帰といった数値的な応用に適した空間的局所化表現を組み込むことで、量子アルゴリズムの適用性を拡大することを目的としている。 我々は、離散微分方程式の解の効率的な点評価と、ジャンプ不連続のような局所的特徴を持つモデル関数によるPTTNQFEの可能性を示す。 将来性はあるものの、未探索ノイズの影響やトレーニング可能な回路の設計といった課題は残されている。 本研究は、新しい特徴埋め込みによる量子モデルの拡張と、量子機械学習におけるより広範な関数型に対するTN表現の活用のための新たな道を開く。

This work introduces a novel method for embedding continuous variables into quantum circuits via piecewise polynomial features, utilizing low-rank tensor networks. Our approach, termed Piecewise Polynomial Tensor Network Quantum Feature Encoding (PPTNQFE), aims to broaden the applicability of quantum algorithms by incorporating spatially localized representations suited for numerical applications like partial differential equations and function regression. We demonstrate the potential of PPTNQFE through efficient point evaluations of solutions of discretized differential equations and in modeling functions with localized features such as jump discontinuities. While promising, challenges such as unexplored noise impact and design of trainable circuits remain. This study opens new avenues for enhancing quantum models with novel feature embeddings and leveraging TN representations for a wider array of function types in quantum machine learning.
翻訳日:2024-07-24 02:50:43 公開日:2024-07-21
# ゼロショット映像質問応答のための質問指導型視覚記述法

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering ( http://arxiv.org/abs/2402.10698v2 )

ライセンス: Link先を確認
David Romero, Thamar Solorio, (参考訳) 本稿では,複雑なアーキテクチャや計算コストのかかるパイプライン,GPTなどのクローズドモデルなどに基づく従来の手法とは異なり,Q-ViDはフレーム記述を用いたビデオQAに対処するために,単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している,という,ビデオ質問応答(ビデオQA)の簡単なアプローチを提案する。 具体的には、ビデオに関する対象の質問に依存するキャプション命令プロンプトを作成し、InstructBLIPを利用して、手作業に有用なビデオフレームキャプションを取得する。 次に,質問依存フレームキャプションを用いてビデオ全体の記述を作成し,その情報と質問応答プロンプトを大言語モデル(LLM)に入力する。 LLMは我々の推論モジュールであり、多重選択QAの最終ステップを実行します。 我々の単純なQ-ViDフレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQAを含む様々なビデオQAベンチマークにおいて、現在の最先端モデルよりも競争力や高いパフォーマンスを達成する。

We present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-aware open vision-language model (InstructBLIP) to tackle videoQA using frame descriptions. Specifically, we create captioning instruction prompts that rely on the target questions about the videos and leverage InstructBLIP to obtain video frame captions that are useful to the task at hand. Subsequently, we form descriptions of the whole video using the question-dependent frame captions, and feed that information, along with a question-answering prompt, to a large language model (LLM). The LLM is our reasoning module, and performs the final step of multiple-choice QA. Our simple Q-ViD framework achieves competitive or even higher performances than current state of the art models on a diverse range of videoQA benchmarks, including NExT-QA, STAR, How2QA, TVQA and IntentQA.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# 理科教師としての言語モデル

Language Models as Science Tutors ( http://arxiv.org/abs/2402.11111v2 )

ライセンス: Link先を確認
Alexis Chevalier, Jiayi Geng, Alexander Wettig, Howard Chen, Sebastian Mizera, Toni Annala, Max Jameson Aragon, Arturo Rodríguez Fanlo, Simon Frieder, Simon Machado, Akshara Prabhakar, Ellie Thieu, Jiachen T. Wang, Zirui Wang, Xindi Wu, Mengzhou Xia, Wenhan Xia, Jiatong Yu, Jun-Jie Zhu, Zhiyong Jason Ren, Sanjeev Arora, Danqi Chen, (参考訳) NLPは最近、強力な科学的問題解決スキルを持つ訓練言語モデル(LM)に向けて、エキサイティングな進歩を遂げた。 しかし、モデル開発は、長い科学文書の処理を必要とする教育の応用を含む、科学におけるLMの実際のユースケースに焦点を合わせていない。 これを解決するためにTutorEvalとTutorChatを紹介します。 TutorEvalは、専門家によって書かれたSTEM教科書の長い章に関する質問からなる多様な質問答えベンチマークである。 TutorEvalは、科学アシスタントとしてのLMの実際の使用性を測定するのに役立ち、長い文脈、自由形式生成、多分野の科学知識を組み合わせた最初のベンチマークである。 さらに,既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。 そこで、教科書に関する8万の合成対話のデータセットであるTutorChatを作成した。 我々はTutorChatを使って7Bと34Bパラメータを持つLlemmaモデルを微調整する。 数学に特化したこれらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalに優れている。 データセットはオープンソース素材に基づいて構築されており、モデル、データ、評価をリリースしています。

NLP has recently made exciting progress toward training language models (LMs) with strong scientific problem-solving skills. However, model development has not focused on real-life use-cases of LMs for science, including applications in education that require processing long scientific documents. To address this, we introduce TutorEval and TutorChat. TutorEval is a diverse question-answering benchmark consisting of questions about long chapters from STEM textbooks, written by experts. TutorEval helps measure real-life usability of LMs as scientific assistants, and it is the first benchmark combining long contexts, free-form generation, and multi-disciplinary scientific knowledge. Moreover, we show that fine-tuning base models with existing dialogue datasets leads to poor performance on TutorEval. Therefore, we create TutorChat, a dataset of 80,000 long synthetic dialogues about textbooks. We use TutorChat to fine-tune Llemma models with 7B and 34B parameters. These LM tutors specialized in math have a 32K-token context window, and they excel at TutorEval while performing strongly on GSM8K and MATH. Our datasets build on open-source materials, and we release our models, data, and evaluations.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# D-Flow:制御生成のための流れを微分する

D-Flow: Differentiating through Flows for Controlled Generation ( http://arxiv.org/abs/2402.14017v2 )

ライセンス: Link先を確認
Heli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman, (参考訳) タスク固有のモデルを再トレーニングすることなく、最先端の拡散・フローマッチング(FM)モデルの生成結果をタグ付けすることで、逆問題、条件生成、制御された生成を一般的に解決する強力なツールを解放する。 D-Flowは、フローを微分し、ソース(ノイズ)ポイントを最適化することで生成プロセスを制御するシンプルなフレームワークです。 我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を計画し、前者を最適化プロセスに暗黙的に注入する、というキー観察によって、この枠組みを動機付けている。 画像と音声の逆問題や条件付き分子生成など,線形および非線形に制御された生成問題に対する我々の枠組みを検証する。

Taming the generation outcome of state of the art Diffusion and Flow-Matching (FM) models without having to re-train a task-specific model unlocks a powerful tool for solving inverse problems, conditional generation, and controlled generation in general. In this work we introduce D-Flow, a simple framework for controlling the generation process by differentiating through the flow, optimizing for the source (noise) point. We motivate this framework by our key observation stating that for Diffusion/FM models trained with Gaussian probability paths, differentiating through the generation process projects gradient on the data manifold, implicitly injecting the prior into the optimization process. We validate our framework on linear and non-linear controlled generation problems including: image and audio inverse problems and conditional molecule generation reaching state of the art performance across all.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# CoLoRA:パラメータ化偏微分方程式の暗黙的ニューラルモデリングのための連続低ランク適応

CoLoRA: Continuous low-rank adaptation for reduced implicit neural modeling of parameterized partial differential equations ( http://arxiv.org/abs/2402.14646v2 )

ライセンス: Link先を確認
Jules Berman, Benjamin Peherstorfer, (参考訳) この研究は、与えられた偏微分方程式に対する事前学習ニューラルネットワークを用いて、新しい物理パラメータと新しい初期条件における解場の進化を迅速に予測するために、時間内に低ランクの重みを連続的に適応する、連続低ランク適応(CoLoRA)に基づく縮小モデルを導入する。 この適応は純粋にデータ駆動か、あるいはガレルキン-最適近似を与える方程式駆動の変分法によって可能である。 CoLoRA は解場を時間的に局所的に近似するので、重みのランクは小さく保つことができるので、CoLoRA がデータスカース状態によく適合するようにオフラインで訓練される軌道はごくわずかである。 CoLoRAの予測は従来の手法よりも桁違いに高速で、その精度とパラメータ効率は他のニューラルネットワークのアプローチよりも高い。

This work introduces reduced models based on Continuous Low Rank Adaptation (CoLoRA) that pre-train neural networks for a given partial differential equation and then continuously adapt low-rank weights in time to rapidly predict the evolution of solution fields at new physics parameters and new initial conditions. The adaptation can be either purely data-driven or via an equation-driven variational approach that provides Galerkin-optimal approximations. Because CoLoRA approximates solution fields locally in time, the rank of the weights can be kept small, which means that only few training trajectories are required offline so that CoLoRA is well suited for data-scarce regimes. Predictions with CoLoRA are orders of magnitude faster than with classical methods and their accuracy and parameter efficiency is higher compared to other neural network approaches.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# 深層学習眼球運動駆動バイオメトリックスパイプラインで学習した埋め込みの時間的持続性と相互相関

Temporal Persistence and Intercorrelation of Embeddings Learned by an End-to-End Deep Learning Eye Movement-driven Biometrics Pipeline ( http://arxiv.org/abs/2402.16399v2 )

ライセンス: Link先を確認
Mehedi Hasan Raju, Lee Friedman, Dillon J Lohr, Oleg V Komogortsev, (参考訳) バイオメトリックのパフォーマンスに有用な特徴は何だろうか? 先行研究では, 階層内相関係数(ICC)による時間的持続性(時間的持続性)とバイオメトリック性能(等誤差率, EER)との強い関係を, 深層学習(DL)によるバイオメトリック分析へのアプローチの出現を予知した。 より一般的には、優れた生体計測性能は、ICCの高い弱い相互関連特徴のセットが比較的大きいことから生じるという主張がなされた。 本研究の目的は,2つの公用眼球運動データセットに適用した,最先端のDLベースの眼球運動生体計測システム(Eye-Know-You-Too'')において,同じ関係が認められるかどうかを検討することである。 この目的のために,生体特性の変動を生み出す眼球追跡信号品質の様々な側面を操作し,その性能を時間的持続性と,その結果の埋め込みの相互相関に関連付ける。 データ品質指標は線形あるいは対数的適合のEERと関係があり、その結果のモデルR^2が注目された。 総じて, 経時的持続性はDLベースの生体計測性能の重要な予測因子であり, また, DL学習による埋め込みは一般的に相関が弱いことが判明した。

What qualities make a feature useful for biometric performance? In prior research, pre-dating the advent of deep learning (DL) approaches to biometric analysis, a strong relationship between temporal persistence, as indexed by the intraclass correlation coefficient (ICC), and biometric performance (Equal Error Rate, EER) was noted. More generally, the claim was made that good biometric performance resulted from a relatively large set of weakly intercorrelated features with high ICC. The present study aimed to determine whether the same relationships are found in a state-of-the-art DL-based eye movement biometric system (``Eye-Know-You-Too''), as applied to two publicly available eye movement datasets. To this end, we manipulate various aspects of eye-tracking signal quality, which produces variation in biometric performance, and relate that performance to the temporal persistence and intercorrelation of the resulting embeddings. Data quality indices were related to EER with either linear or logarithmic fits, and the resulting model R^2 was noted. As a general matter, we found that temporal persistence was an important predictor of DL-based biometric performance, and also that DL-learned embeddings were generally weakly intercorrelated.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# COMAE: ゼロショットハッシュのための総合的な属性探索

COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing ( http://arxiv.org/abs/2402.16424v3 )

ライセンス: Link先を確認
Yuqi Li, Qingqing Long, Yihang Zhou, Ning Cao, Shuai Liu, Fang Zheng, Zhihong Zhu, Zhiyuan Ning, Meng Xiao, Xuezhi Wang, Pengfei Wang, Yuanchun Zhou, (参考訳) ゼロショットハッシュ (ZSH) は, 大規模検索シナリオにおける効率性と一般化により, 優れた成功を収めている。 かなりの成功を収めたものの、依然として緊急の制限がある。 既存の作業では、表現と属性の局所性関係は無視されている。 また、連続値属性は完全に活用されていない。 これに対し、COMAE(Comprehensive Attribute Exploration for ZSH)と名づけられたZSH(Comprehensive Attribute Exploration for ZSH)を実施。 提案する属性プロトタイプネットワークから属性を回帰することにより、COMAEは視覚的属性に関連する局所的な特徴を学習する。 COMAEはコントラスト学習を利用して、インスタンスに依存しない最適化ではなく、属性のコンテキストを包括的に表現する。 最後に、クラスワイド制約は、ハッシュコード、画像表現、視覚属性をより効果的に学習するように設計されている。 人気の高いZSHデータセットの実験結果から、COMAEは最先端のハッシュ技術よりも優れており、特に多くの未確認ラベルクラスを持つシナリオでは特に優れています。

Zero-shot hashing (ZSH) has shown excellent success owing to its efficiency and generalization in large-scale retrieval scenarios. While considerable success has been achieved, there still exist urgent limitations. Existing works ignore the locality relationships of representations and attributes, which have effective transferability between seeable classes and unseeable classes. Also, the continuous-value attributes are not fully harnessed. In response, we conduct a COMprehensive Attribute Exploration for ZSH, named COMAE, which depicts the relationships from seen classes to unseen ones through three meticulously designed explorations, i.e., point-wise, pair-wise and class-wise consistency constraints. By regressing attributes from the proposed attribute prototype network, COMAE learns the local features that are relevant to the visual attributes. Then COMAE utilizes contrastive learning to comprehensively depict the context of attributes, rather than instance-independent optimization. Finally, the class-wise constraint is designed to cohesively learn the hash code, image representation, and visual attributes more effectively. Experimental results on the popular ZSH datasets demonstrate that COMAE outperforms state-of-the-art hashing techniques, especially in scenarios with a larger number of unseen label classes.
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# マルチモーダルLCMにおけるクロスモーダル投影は、テクスチャ空間への視覚的属性を実際に投影しない

Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space ( http://arxiv.org/abs/2402.16832v2 )

ライセンス: Link先を確認
Gaurav Verma, Minje Choi, Kartik Sharma, Jamelle Watson-Daniels, Sejoon Oh, Srijan Kumar, (参考訳) LLaVAやGPT-4(V)のようなマルチモーダルな大言語モデル(MLLM)は、言語モダリティを持つ画像に関する汎用的な会話を可能にする。 市販のMLLMは皮膚科や農業などの領域の画像に制限がある可能性があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。 現在のオープンソースMLLMのアーキテクチャは、イメージ言語(クロスモーダル)プロジェクションネットワークと大きな言語モデルという2つの主要なモジュールから構成されている。 これら2つのモジュールがドメイン固有の視覚特性をモデル化し、将来のモデルの設計を知らせ、現在のモデルにおける解釈可能性の取り組みを合理化する役割を理解することが望ましい。 この目的のために、4つのデータセットの実験と2つの微調整された設定により、MLLMは微調整されているため、実際にドメイン固有の視覚能力を得るが、更新は、関連するドメイン固有の視覚属性をプロジェクション抽出する原因にはならない。 本結果は,投影のみを微調整した場合でも,ドメイン固有の視覚特性がLLMによってモデル化されることを示唆している。 本研究では,MLLMアーキテクチャにおけるクロスモーダル・プロジェクションの役割を再解釈する可能性について述べる。 プロジェクトWebページ: https://claws-lab.github.io/ projection-in-MLLMs/

Multimodal large language models (MLLMs) like LLaVA and GPT-4(V) enable general-purpose conversations about images with the language modality. As off-the-shelf MLLMs may have limited capabilities on images from domains like dermatology and agriculture, they must be fine-tuned to unlock domain-specific applications. The prevalent architecture of current open-source MLLMs comprises two major modules: an image-language (cross-modal) projection network and a large language model. It is desirable to understand the roles of these two modules in modeling domain-specific visual attributes to inform the design of future models and streamline the interpretability efforts on the current models. To this end, via experiments on 4 datasets and under 2 fine-tuning settings, we find that as the MLLM is fine-tuned, it indeed gains domain-specific visual capabilities, but the updates do not lead to the projection extracting relevant domain-specific visual attributes. Our results indicate that the domain-specific visual attributes are modeled by the LLM, even when only the projection is fine-tuned. Through this study, we offer a potential reinterpretation of the role of cross-modal projections in MLLM architectures. Project webpage: https://claws-lab.github.io/projection-in-MLLMs/
翻訳日:2024-07-24 02:40:58 公開日:2024-07-21
# OmniACT: デスクトップとWeb用のマルチモーダルジェネラリスト自律エージェントのデータセットとベンチマーク

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web ( http://arxiv.org/abs/2402.17553v3 )

ライセンス: Link先を確認
Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov, (参考訳) 何十年もの間、人間とコンピュータのインタラクションは基本的に手作業だった。 現在でも、コンピュータで行われている生産的な作業は、あらゆるステップで人間の入力を必要とする。 自律的な仮想エージェントは、これらの作業の多くを自動化するためのエキサイティングなステップである。 仮想エージェントは、コンピュータシステムの可能性を最大限に活用するために、限られた技術能力を持つユーザーに権限を与える。 また、カレンダー管理から複雑な旅行予約まで、人間の介入を最小限に抑えて、多数のコンピュータタスクの効率的な合理化を可能にした。 本稿では,コンピュータタスクを遂行するための実行可能プログラムを生成するエージェントの能力を評価するための,第1世代のデータセットとベンチマークであるOmniACTを紹介する。 私たちのスコープは、従来のWebオートメーションを超えて、さまざまなデスクトップアプリケーションをカバーするものです。 データセットは、"Play the next song"のような基本的なタスクと、"Send a email to John Doe mentioning the time and place to meet"のような長い水平線タスクで構成されている。 具体的には、一対の画面イメージと視覚的に接地された自然言語タスクが与えられた場合、そのタスクを完全に実行可能なスクリプトを生成することが目標である。 ベンチマークでは、いくつかの強力なベースライン言語モデルエージェントを実行しています。 最強のベースラインであるGPT-4は、我々のベンチマークで最高の性能を発揮するが、その性能はタスクを完了できる実行可能なスクリプトを生成する能力のわずか15%に留まり、従来のWebエージェントに対するタスクの課題を実証している。 我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進歩を測定し評価するプラットフォームを提供し、大規模言語モデルとコンピュータ画面の視覚的基盤を橋渡しするマルチモーダルモデルの構築に向けた今後の取り組みを動機付けている。

For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. Autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would empower users with limited technical proficiency to harness the full possibilities of computer systems. They could also enable the efficient streamlining of numerous computer tasks, ranging from calendar management to complex travel bookings, with minimal human intervention. In this paper, we introduce OmniACT, the first-of-a-kind dataset and benchmark for assessing an agent's capability to generate executable programs to accomplish computer tasks. Our scope extends beyond traditional web automation, covering a diverse range of desktop applications. The dataset consists of fundamental tasks such as "Play the next song", as well as longer horizon tasks such as "Send an email to John Doe mentioning the time and place to meet". Specifically, given a pair of screen image and a visually-grounded natural language task, the goal is to generate a script capable of fully executing the task. We run several strong baseline language model agents on our benchmark. The strongest baseline, GPT-4, performs the best on our benchmark However, its performance level still reaches only 15% of the human proficiency in generating executable scripts capable of completing the task, demonstrating the challenge of our task for conventional web agents. Our benchmark provides a platform to measure and evaluate the progress of language model agents in automating computer tasks and motivates future work towards building multimodal models that bridge large language models and the visual grounding of computer screens.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# FSL-Rectifier:テスト時間拡張によるFew-Shot学習におけるアウトリーチの定式化

FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation ( http://arxiv.org/abs/2402.18292v3 )

ライセンス: Link先を確認
Yunwei Bai, Ying Kiat Tan, Tsuhan Chen, (参考訳) FSL(Few-shot-learning)は通常、新しいクラス(サポートセット)のラベル付きサンプルを参照として、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。 これまでのところ、FSLモデルの一般化能力を改善するためにデータ拡張をトレーニングするアルゴリズムはたくさんあるが、推論中の外部クエリやイメージのサポートは、依然として大きな一般化課題をもたらす可能性がある。 本研究は, 従来のテストサンプルによるバイアスを軽減するため, 適切な列車クラスサンプルと組み合わせたテストクラスサンプルを新たに生成する。 提案手法の有効性を実験的に理論的に実証し,FSLモデルの精度を約4倍に向上できることを示した。 重要な点として,本手法は市販のFSLモデルと共通に互換性があり,その性能は余分なデータセットやモデル自体のさらなるトレーニングなしで向上することができる。

Few-shot-learning (FSL) commonly requires a model to identify images (queries) that belong to classes unseen during training, based on a few labelled samples of the new classes (support set) as reference. So far, plenty of algorithms involve training data augmentation to improve the generalization capability of FSL models, but outlier query or support images during inference can still pose great generalization challenges. In this work, to reduce the bias caused by unconventional test samples, we generate additional test-class samples through combining them with suitable train-class samples, whose averaged representations then become more typical for few-shot classification. We experimentally and theoretically demonstrate the effectiveness of our method, via which we can achieve around 4\% test accuracy improvement for trained FSL models. Importantly, our method is universally compatible with different off-the-shelf FSL models, whose performance can be improved without extra dataset nor further training of the models themselves.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# Decompose-and-Compose:Spurious相関の緩和のための構成的アプローチ

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation ( http://arxiv.org/abs/2402.18919v3 )

ライセンス: Link先を確認
Fahimeh Hosseini Noohdani, Parsa Hosseini, Aryan Yazdan Parast, Hamidreza Yaghoubi Araghi, Mahdieh Soleymani Baghshah, (参考訳) 標準的な経験的リスク最小化(ERM)トレーニングは、分布内データに基づく画像分類に有効であることが証明されているが、分布外サンプルではうまく機能しない。 画像分類における分布シフトの主な原因の1つは、画像の構成的性質である。 具体的には、ラベルを決定するメインオブジェクトやコンポーネントに加えて、他のイメージコンポーネントも存在するため、列車とテスト環境間の入力分布のシフトにつながる可能性がある。 さらに重要なのは、これらのコンポーネントがラベルと急激な相関を持つ可能性があることだ。 この問題に対処するために,画像の要素の組み合わせに基づく構成的アプローチにより相関シフトに対する頑健性を向上させるDEC(Decompose-and-Compose)を提案する。 我々の観察に基づいて、ERMで訓練されたモデルは、通常、因果成分またはラベル(特にモデルに高い信頼度があるデータポイント)と高い刺激的な相関関係を持つコンポーネントのいずれかに、非常に関与します。 実際、素早い相関の量と因果成分や非因果成分に基づく分類の容易さにより、モデルは通常、より(高い信頼度を持つサンプルにおいて)これらの1つに付随する。 次に、まず、ERMで訓練されたモデルのクラスアクティベーションマップを用いて、画像の因果成分を同定する。 その後、それらを組み合わせて、偽物を含む拡張データ上でモデルを再訓練することで、画像に介入する。 本研究は、高い解釈可能性とともに、訓練中にグループラベルやスプリアスの特徴に関する情報を必要とせず、画像に介入するグループバランス手法を提案する。 本手法は, 相関シフトにおけるグループラベルの監督量と同じである従来の手法と比較して, 全体として最悪のグループ精度を有する。

While standard Empirical Risk Minimization (ERM) training is proven effective for image classification on in-distribution data, it fails to perform well on out-of-distribution samples. One of the main sources of distribution shift for image classification is the compositional nature of images. Specifically, in addition to the main object or component(s) determining the label, some other image components usually exist, which may lead to the shift of input distribution between train and test environments. More importantly, these components may have spurious correlations with the label. To address this issue, we propose Decompose-and-Compose (DaC), which improves robustness to correlation shift by a compositional approach based on combining elements of images. Based on our observations, models trained with ERM usually highly attend to either the causal components or the components having a high spurious correlation with the label (especially in datapoints on which models have a high confidence). In fact, according to the amount of spurious correlation and the easiness of classification based on the causal or non-causal components, the model usually attends to one of these more (on samples with high confidence). Following this, we first try to identify the causal components of images using class activation maps of models trained with ERM. Afterward, we intervene on images by combining them and retraining the model on the augmented data, including the counterfactual ones. Along with its high interpretability, this work proposes a group-balancing method by intervening on images without requiring group labels or information regarding the spurious features during training. The method has an overall better worst group accuracy compared to previous methods with the same amount of supervision on the group labels in correlation shift.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# 量子コンピュータによる量子熱力学不確かさ関係の検証

Quantum Computer-Based Verification of Quantum Thermodynamic Uncertainty Relation ( http://arxiv.org/abs/2402.19293v2 )

ライセンス: Link先を確認
Nobumasa Ishida, Yoshihiko Hasegawa, (参考訳) 量子熱力学的不確実性関係は、精度と熱力学的コストの基本的なトレードオフを確立するが、その実証的な検証は乏しい。 実世界の実験の範囲を拡大するため,一般的な量子熱力学不確実性関係を検証するためにノイズ量子コンピュータを利用する手法を提案する。 完全正のトレース保存写像の下での任意の可観測物に対する熱力学的不確実性関係を一般化し、弱いカップリング状態における熱力学的コスト(生存活動)を測定する方法を提案し、熱力学的不確実性関係の特性を利用して必要な回路深さを削減する。 我々は,IBMのクラウドベースの量子プロセッサ上での量子時間相関器測定プロトコルに適用する。 実験の結果、我々の拘束力は精度を厳しく制限し、相対的な分散は1桁の精度で理論上の限界に近づいた。 さらに, エンタングル計測を必要とする最適観測値を構築することにより, 熱力学的不確実性関係の飽和を可能にする。 この研究は、量子熱力学的トレードオフを示すため、ノイズの多い量子コンピュータの可能性と限界を強調した。

Quantum thermodynamic uncertainty relations establish the fundamental trade-off between precision and thermodynamic costs, yet their empirical verification is scarce. To extend the range of real-world tests, we present an approach that utilizes a noisy quantum computer for verifying a general quantum thermodynamic uncertainty relation. We employ a three-fold methodology to tackle the limitations of current quantum processors: generalizing a thermodynamic uncertainty relation to arbitrary observables under completely positive trace-preserving maps, proposing a method to measure the thermodynamic cost (survival activity) in the weak coupling regime, and reducing the required circuit depth by exploiting the properties of our thermodynamic uncertainty relation. We apply our bound to a quantum time correlator measurement protocol on IBM's cloud-based quantum processor. The empirical results show that our bound tightly constrains precision, with the relative variance approaching the theoretical limit within a single order of magnitude. Furthermore, our approach enables the saturation of our thermodynamic uncertainty relation by constructing the optimal observable that requires entangled measurements. This study highlights the potential and limitations of noisy quantum computers for demonstrating quantum thermodynamic trade-offs.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# 共通原因原理によるシンプソンのパラドックスの解法

Resolution of Simpson's paradox via the common cause principle ( http://arxiv.org/abs/2403.00957v2 )

ライセンス: Link先を確認
A. Hovhannisyan, A. E. Allahverdyan, (参考訳) シンプソンのパラドックスは、2つの事象$a_1$と$a_2$の間の確率的関連を確立するための障害である。 ランダム変数$A$($a_1$、$a_2$とそれらの補数を組み合わせたもの)と$B$が、観測する必要のない共通原因$C$を持つ場合のシナリオに注目します。 あるいは$C$が$A$から$B$とすると仮定できる。 このような場合、$a_1$と$a_2$の正確な関連は$C$の条件付けによって定義される。 この設定は、元のシンプソンのパラドックスを一般化する: 矛盾する2つの選択肢は、2つの特定の原因と異なる原因を$C$と呼ぶ。 B$ と $C$ が二進数であり、$A$ が四元数(シンプソンのパラドックスの最小かつ最も広く使われている状況)であるなら、$C$ はパラドックスの最初の定式化で$B$ を超える条件として$a_1$ と $a_2$ の関連性の同じ方向を確立する。 したがって、最小限の共通因数に対して、シンプソンのパラドックスの選択肢を選ぶべきである。 同じ結論は、シンプソンのパラドックスが3つの連続ガウス変数によって定式化されるときに達成される: パラドックス(3つのスカラー連続変数、$A_1$、$A_2$、および$B$)の最小の定式化の中で、$B$を超える条件でオプションを選択するべきである。

Simpson's paradox is an obstacle to establishing a probabilistic association between two events $a_1$ and $a_2$, given the third (lurking) random variable $B$. We focus on scenarios when the random variables $A$ (which combines $a_1$, $a_2$, and their complements) and $B$ have a common cause $C$ that need not be observed. Alternatively, we can assume that $C$ screens out $A$ from $B$. For such cases, the correct association between $a_1$ and $a_2$ is to be defined via conditioning over $C$. This setup generalizes the original Simpson's paradox: now its two contradicting options refer to two particular and different causes $C$. We show that if $B$ and $C$ are binary and $A$ is quaternary (the minimal and the most widespread situation for the Simpson's paradox), the conditioning over any binary common cause $C$ establishes the same direction of association between $a_1$ and $a_2$ as the conditioning over $B$ in the original formulation of the paradox. Thus, for the minimal common cause, one should choose the option of Simpson's paradox that assumes conditioning over $B$ and not its marginalization. The same conclusion is reached when Simpson's paradox is formulated via 3 continuous Gaussian variables: within the minimal formulation of the paradox (3 scalar continuous variables $A_1$, $A_2$, and $B$), one should choose the option with the conditioning over $B$.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# xT: 大規模画像におけるより大規模なコンテキストのためのネステッドトークン化

xT: Nested Tokenization for Larger Context in Large Images ( http://arxiv.org/abs/2403.01915v2 )

ライセンス: Link先を確認
Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam, (参考訳) 現代のコンピュータビジョンパイプラインは、ダウンサンプリング(down-sampling)またはトリミング( cropping)という2つのサブ最適方法の1つで、大きなイメージを処理する。 これらの2つの手法は、画像に存在する情報量とコンテキストに大きな損失をもたらす。 現実世界の衛星画像のように、グローバルなコンテキストが高頻度で重要なアプリケーションも数多く存在するが、そのような場合、研究者はどの情報を破棄するかという不快な選択をしなければならない。 このフレームワークは,グローバルコンテキストを局所的な詳細で効果的に集約し,現代的なGPU上での大規模イメージをエンドツーエンドにモデル化する。 視覚モデルが本当に大きな画像を理解する能力を正確に反映し、大規模に詳細を組み込んだベンチマークデータセットのセットを選択し、その方法の改善を評価します。 xTはストリーミングの2段階アーキテクチャで、既存のビジョンバックボーンと長いシーケンス言語モデルを適用して、二次記憶の成長を伴わない大規模な画像を効果的にモデル化する。 29,000 x 29,000ピクセルの画像上のコンテキスト依存のセグメンテーションで、挑戦的な分類タスクで最大8.6%の精度、F_1$スコアで11.6の精度向上を実現しています。

Modern computer vision pipelines handle large images in one of two sub-optimal ways: down-sampling or cropping. These two methods incur significant losses in the amount of information and context present in an image. There are many downstream applications in which global context matters as much as high frequency details, such as in real-world satellite imagery; in such cases researchers have to make the uncomfortable choice of which information to discard. We introduce xT, a simple framework for vision transformers which effectively aggregates global context with local details and can model large images end-to-end on contemporary GPUs. We select a set of benchmark datasets across classic vision tasks which accurately reflect a vision model's ability to understand truly large images and incorporate fine details over large scales and assess our method's improvement on them. xT is a streaming, two-stage architecture that adapts existing vision backbones and long sequence language models to effectively model large images without quadratic memory growth. We are able to increase accuracy by up to 8.6% on challenging classification tasks and $F_1$ score by 11.6 on context-dependent segmentation on images as large as 29,000 x 29,000 pixels.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# DiffClass:拡散型インクリメンタルラーニング

DiffClass: Diffusion-Based Class Incremental Learning ( http://arxiv.org/abs/2403.05016v2 )

ライセンス: Link先を確認
Zichong Meng, Jie Zhang, Changdi Yang, Zheng Zhan, Pu Zhao, Yanzhi Wang, (参考訳) クラスインクリメンタルラーニング(CIL)は破滅的な忘れが原因で困難である。 それに加えて、Exemplar-free Class Incremental Learningは、以前のタスクデータへのアクセスを禁止しているため、さらに難しい。 最近の例のないCIL手法は、過去のタスクデータを合成することによって破滅的な忘れを軽減しようとする。 しかし、実際のデータと合成データの大きな領域ギャップに対処できないために、破滅的な忘れを克服することはできなかった。 これらの問題を克服するために、我々は新しい非定型なCIL法を提案する。 本手法はMDM拡散モデルを用いて,トレーニングデータのすべての領域における品質と領域ギャップを統一する。 さらに,本手法では,選択的合成画像強調(SSIA)を統合してトレーニングデータの分布を拡大し,モデルの可塑性を向上し,本手法の最終的な構成要素であるマルチドメイン適応(MDA)の性能を向上する。 提案手法では,従来のCILをマルチドメイン適応問題に再構成し,ドメインギャップ問題に暗黙的に対処し,インクリメンタルトレーニング時のモデルの安定性を向上させる。 ベンチマーククラスのインクリメンタルデータセットと設定に関する大規模な実験により、我々の手法が従来の非定型CILメソッドより優れていることを示し、最先端の性能を実現している。

Class Incremental Learning (CIL) is challenging due to catastrophic forgetting. On top of that, Exemplar-free Class Incremental Learning is even more challenging due to forbidden access to previous task data. Recent exemplar-free CIL methods attempt to mitigate catastrophic forgetting by synthesizing previous task data. However, they fail to overcome the catastrophic forgetting due to the inability to deal with the significant domain gap between real and synthetic data. To overcome these issues, we propose a novel exemplar-free CIL method. Our method adopts multi-distribution matching (MDM) diffusion models to unify quality and bridge domain gaps among all domains of training data. Moreover, our approach integrates selective synthetic image augmentation (SSIA) to expand the distribution of the training data, thereby improving the model's plasticity and reinforcing the performance of our method's ultimate component, multi-domain adaptation (MDA). With the proposed integrations, our method then reformulates exemplar-free CIL into a multi-domain adaptation problem to implicitly address the domain gap problem to enhance model stability during incremental training. Extensive experiments on benchmark class incremental datasets and settings demonstrate that our method excels previous exemplar-free CIL methods and achieves state-of-the-art performance.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# InstructGIE: 汎用的な画像編集を目指して

InstructGIE: Towards Generalizable Image Editing ( http://arxiv.org/abs/2403.05018v2 )

ライセンス: Link先を確認
Zichong Meng, Changdi Yang, Jun Liu, Hao Tang, Pu Zhao, Yanzhi Wang, (参考訳) 画像編集の最近の進歩は、拡散モデルをデノナイズする開発によって推進され、この分野において大きな進歩をみせている。 これらの進歩にもかかわらず、最近の画像編集手法の一般化能力には制約がある。 この課題に対して,本研究では,文脈内学習能力の向上と言語指導の統一により,一般化の堅牢性を高めた新しい画像編集フレームワークを提案する。 このフレームワークには、イメージ編集タスクに特化して最適化されたモジュールが組み込まれており、VMamba Blockと編集-シフトマッチング戦略を活用して、コンテキスト内学習を強化している。 さらに,人間の顔の特徴などの画像の劣化した詳細に対処し,修正するために特別に設計された領域マッチング技術を紹介し,品質をさらに向上させる。 このアプローチのもうひとつの重要な革新は、画像編集の質を高めるために、言語埋め込みと編集セマンティクスを整合させる言語統一技術の統合である。 さらに、画像編集のための最初のデータセットを視覚的プロンプトでコンパイルし、コンテクスト内での処理能力を高めるために使用可能な命令を編集する。 このデータセットに基づいて,本手法は訓練されたタスクに対して優れた合成品質を達成できるだけでなく,調整されたプロンプトによって未確認の視覚タスクにまたがる堅牢な一般化能力を示す。

Recent advances in image editing have been driven by the development of denoising diffusion models, marking a significant leap forward in this field. Despite these advances, the generalization capabilities of recent image editing approaches remain constrained. In response to this challenge, our study introduces a novel image editing framework with enhanced generalization robustness by boosting in-context learning capability and unifying language instruction. This framework incorporates a module specifically optimized for image editing tasks, leveraging the VMamba Block and an editing-shift matching strategy to augment in-context learning. Furthermore, we unveil a selective area-matching technique specifically engineered to address and rectify corrupted details in generated images, such as human facial features, to further improve the quality. Another key innovation of our approach is the integration of a language unification technique, which aligns language embeddings with editing semantics to elevate the quality of image editing. Moreover, we compile the first dataset for image editing with visual prompts and editing instructions that could be used to enhance in-context capability. Trained on this dataset, our methodology not only achieves superior synthesis quality for trained tasks, but also demonstrates robust generalization capability across unseen vision tasks through tailored prompts.
翻訳日:2024-07-24 02:30:51 公開日:2024-07-21
# WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力

WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? ( http://arxiv.org/abs/2403.07718v4 )

ライセンス: Link先を確認
Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji, Manuel Del Verme, Tom Marty, Léo Boisvert, Megh Thakkar, Quentin Cappart, David Vazquez, Nicolas Chapados, Alexandre Lacoste, (参考訳) 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。 この目的のために,広く使用されているServiceNowプラットフォームに基づく33タスクのリモートホスト型ベンチマークであるWorkArenaを提案する。 また,このようなエージェントの設計と評価のための環境であるBrowserGymを紹介する。 私たちの経験的評価は、現在のエージェントがWorkArenaを約束している一方で、完全なタスク自動化を達成するための大きなギャップがまだ残っていることを示している。 特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差が明らかとなり,今後の研究・開発における重要な領域が浮かび上がっている。

We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents' ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 33 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field.
翻訳日:2024-07-24 02:21:06 公開日:2024-07-21
# 状態認識型患者シミュレータを用いた大規模言語モデルの対話的自動評価

Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator ( http://arxiv.org/abs/2403.08495v4 )

ライセンス: Link先を確認
Yusheng Liao, Yutong Meng, Yuhao Wang, Hongcheng Liu, Yanfeng Wang, Yu Wang, (参考訳) 大規模言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示しているが、医療分野におけるそれらの応用はいまだ不十分である。 これまでの研究は主に、現実的なシナリオとは程遠い検査による医学的知識のパフォーマンスに焦点を当てており、臨床上のLCMの能力を評価するのに不足している。 医療におけるLarge Language Models(LLMs)の適用性を高めるために,従来のLSM評価と臨床実践の曖昧な要求とのギャップをターゲットとした,AIE(Automated Interactive Evaluation)フレームワークとSAPS(State-Aware patient Simulator)を導入する。 静的な医療知識評価に依存する従来の方法とは異なり、AIEとSAPSは多ターンの医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。 このアプローチは、実際の臨床シナリオに密接な近似を提供し、複雑な患者の相互作用に応答して、LCMの挙動を詳細に分析することを可能にする。 我々は,AIEフレームワークの有効性を実証し,ヒトの評価と良好に一致し,医療用LLM検査に革命をもたらす可能性を示した。

Large Language Models (LLMs) have demonstrated remarkable proficiency in human interactions, yet their application within the medical field remains insufficiently explored. Previous works mainly focus on the performance of medical knowledge with examinations, which is far from the realistic scenarios, falling short in assessing the abilities of LLMs on clinical tasks. In the quest to enhance the application of Large Language Models (LLMs) in healthcare, this paper introduces the Automated Interactive Evaluation (AIE) framework and the State-Aware Patient Simulator (SAPS), targeting the gap between traditional LLM evaluations and the nuanced demands of clinical practice. Unlike prior methods that rely on static medical knowledge assessments, AIE and SAPS provide a dynamic, realistic platform for assessing LLMs through multi-turn doctor-patient simulations. This approach offers a closer approximation to real clinical scenarios and allows for a detailed analysis of LLM behaviors in response to complex patient interactions. Our extensive experimental validation demonstrates the effectiveness of the AIE framework, with outcomes that align well with human evaluations, underscoring its potential to revolutionize medical LLM testing for improved healthcare delivery.
翻訳日:2024-07-24 02:21:06 公開日:2024-07-21
# Jetfire: INT8データフローとブロック単位の量子化を前提とした効率的かつ高精度なトランスフォーマ

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization ( http://arxiv.org/abs/2403.12422v2 )

ライセンス: Link先を確認
Haocheng Xi, Yuxiang Chen, Kang Zhao, Kai Jun Teh, Jianfei Chen, Jun Zhu, (参考訳) 事前学習は一般的に時間を要する。 完全量子化トレーニング(FQT)は、事前トレーニングを高速化するための有望なアプローチである。 しかし、ほとんどのFQTメソッドは量子化-量子化処理を採用しており、メモリアクセスのオーバーヘッドや低精度の計算のためにトランスフォーマで使用される場合、しばしば最適以下のスピードアップと大幅な性能低下をもたらす。 本研究では, 変圧器に特化した高速かつ高精度な INT8 トレーニング手法であるJetfire を提案する。 本手法は、メモリアクセスを最適化するINT8データフローと、事前学習した変換器の精度を維持するブロックごとの量子化手法を特徴とする。 我々のINT8 FQT法は、FP16トレーニングベースラインに匹敵する精度を達成し、トランスフォーマーの既存のINT8トレーニング作業より優れていることを示す。 さらに、標準変圧器ブロックでは、FP16ベースラインと比較して、エンドツーエンドのトレーニングスピードアップが1.42倍、メモリ削減が1.49倍となる。 私たちのコードはhttps://github.com/thu-ml/Jetfire-INT8Training.comで公開されている。

Pretraining transformers are generally time-consuming. Fully quantized training (FQT) is a promising approach to speed up pretraining. However, most FQT methods adopt a quantize-compute-dequantize procedure, which often leads to suboptimal speedup and significant performance degradation when used in transformers due to the high memory access overheads and low-precision computations. In this work, we propose Jetfire, an efficient and accurate INT8 training method specific to transformers. Our method features an INT8 data flow to optimize memory access and a per-block quantization method to maintain the accuracy of pretrained transformers. Extensive experiments demonstrate that our INT8 FQT method achieves comparable accuracy to the FP16 training baseline and outperforms the existing INT8 training works for transformers. Moreover, for a standard transformer block, our method offers an end-to-end training speedup of 1.42x and a 1.49x memory reduction compared to the FP16 baseline. Our code is open sourced at https://github.com/thu-ml/Jetfire-INT8Training.
翻訳日:2024-07-24 02:21:06 公開日:2024-07-21
# HYDRA:動的合成視覚推論のためのハイパーエージェント

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning ( http://arxiv.org/abs/2403.12884v2 )

ライセンス: Link先を確認
Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi, (参考訳) 視覚的推論(VR)の最近の進歩、特に大型視覚言語モデル(VLM)の助けを借りて、将来性を示すが、大規模データセットへのアクセスが必要であり、高い計算コストや限られた一般化能力といった課題に直面している。 構成的視覚推論アプローチは効果的な戦略として現れてきたが、計画、推論、あるいはその両方を実行するためにLLM(Large Language Models)で符号化されたコモンセンス知識に大きく依存している。 これらの課題に対処するために、我々は、信頼性と漸進的な一般的な推論のために設計された多段階動的合成視覚推論フレームワークHYDRAを紹介する。 HYDRAは、プランナー、認知コントローラとして機能する強化学習(RL)エージェント、および推論の3つの必須モジュールを統合している。 プランナーおよび推論モジュールは、LSMを使用して、選択した命令からそれぞれ命令サンプルと実行可能なコードを生成する一方、RLエージェントは、これらのモジュールと動的に相互作用し、フィードバックループを介して記憶された履歴状態から与えられた最高の命令サンプルの選択を高レベルに決定する。 この適応可能な設計により、HYDRAは推論プロセス中に受け取った前のフィードバックに基づいて動作を調整することができ、より信頼性の高い推論出力が得られ、最終的には全体的な効果が向上する。 本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。

Recent advances in visual reasoning (VR), particularly with the aid of Large Vision-Language Models (VLMs), show promise but require access to large-scale datasets and face challenges such as high computational costs and limited generalization capabilities. Compositional visual reasoning approaches have emerged as effective strategies; however, they heavily rely on the commonsense knowledge encoded in Large Language Models (LLMs) to perform planning, reasoning, or both, without considering the effect of their decisions on the visual reasoning process, which can lead to errors or failed procedures. To address these challenges, we introduce HYDRA, a multi-stage dynamic compositional visual reasoning framework designed for reliable and incrementally progressive general reasoning. HYDRA integrates three essential modules: a planner, a Reinforcement Learning (RL) agent serving as a cognitive controller, and a reasoner. The planner and reasoner modules utilize an LLM to generate instruction samples and executable code from the selected instruction, respectively, while the RL agent dynamically interacts with these modules, making high-level decisions on selection of the best instruction sample given information from the historical state stored through a feedback loop. This adaptable design enables HYDRA to adjust its actions based on previous feedback received during the reasoning process, leading to more reliable reasoning outputs and ultimately enhancing its overall effectiveness. Our framework demonstrates state-of-the-art performance in various VR tasks on four different widely-used datasets.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-21
# 人工内耳の人工知能 : 戦略・課題・展望

Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives ( http://arxiv.org/abs/2403.15442v2 )

ライセンス: Link先を確認
Billel Essaid, Hamza Kheddar, Noureddine Batel, Muhammad E. H. Chowdhury, Abderrahmane Lakas, (参考訳) 自動音声認識 (ASR) は, 日常生活において重要な役割を担い, 機械との対話だけでなく, 難聴者や難聴者に対するコミュニケーションの促進にも有効である。 このプロセスでは、音声信号をアナログ形式で受信し、次に様々な信号処理アルゴリズムを用いて、人工内耳(CI)のような限られた容量のデバイスと互換性を持たせる。 残念なことに、これらのインプラントは有限個の電極を備えており、しばしば合成中に音声の歪みを引き起こす。 様々な最先端(SOTA)信号処理技術を用いて、受話器の質を高める努力にもかかわらず、特に複数の発話源、環境騒音、その他の悪条件を含むシナリオにおいて、課題は持続する。 新しい人工知能(AI)手法の出現は、CI専用の従来の信号処理技術に関連する制限と困難に対処するための最先端戦略に根ざしている。 本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。 主な目的は、メトリクスとデータセットの完全な概要を提供し、このバイオメディカル分野におけるAIアルゴリズムの能力を探求し、得られた最良の結果を要約し、コメントすることである。 さらに、このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。

Automatic speech recognition (ASR) plays a pivotal role in our daily lives, offering utility not only for interacting with machines but also for facilitating communication for individuals with partial or profound hearing impairments. The process involves receiving the speech signal in analog form, followed by various signal processing algorithms to make it compatible with devices of limited capacities, such as cochlear implants (CIs). Unfortunately, these implants, equipped with a finite number of electrodes, often result in speech distortion during synthesis. Despite efforts by researchers to enhance received speech quality using various state-of-the-art (SOTA) signal processing techniques, challenges persist, especially in scenarios involving multiple sources of speech, environmental noise, and other adverse conditions. The advent of new artificial intelligence (AI) methods has ushered in cutting-edge strategies to address the limitations and difficulties associated with traditional signal processing techniques dedicated to CIs. This review aims to comprehensively cover advancements in CI-based ASR and speech enhancement, among other related aspects. The primary objective is to provide a thorough overview of metrics and datasets, exploring the capabilities of AI algorithms in this biomedical field, and summarizing and commenting on the best results obtained. Additionally, the review will delve into potential applications and suggest future directions to bridge existing research gaps in this domain.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-21
# FEEL: 大規模言語モデルによる感情支援能力評価フレームワーク

FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models ( http://arxiv.org/abs/2403.15699v3 )

ライセンス: Link先を確認
Huaiwen Zhang, Yu Chen, Ming Wang, Shi Feng, (参考訳) 感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。 しかし、感情の分析にかかわる本質的な主観性のため、現在の非人工的方法論は感情支援能力を効果的に評価する上で困難に直面している。 これらの指標は人間の判断と相関が低い。 同時に、手作業による評価手法が極めて高いコストを発生させる。 これらの問題を解決するために,大規模言語モデル(LLM)を用いて感情支援能力を評価する新しいモデルFEEL(大規模言語モデルを用いた感情支援能力評価フレームワーク)を提案する。 モデルはESCの様々な評価側面を慎重に検討し、より包括的で正確な評価方法を適用する。 さらに、より安定した結果を得るために確率分布アプローチを採用し、アンサンブル学習戦略を統合し、割り当てられた重み付き複数のLLMを活用して評価精度を高める。 FEELの性能を評価するため,既存のESCモデル対話について広範な実験を行った。 実験結果から,本モデルでは,ベースラインと比較して,人体評価との整合性が著しく向上していることが示された。 ソースコードはhttps://github.com/Ansisy/FEELで公開されています。

Emotional Support Conversation (ESC) is a typical dialogue that can effectively assist the user in mitigating emotional pressures. However, owing to the inherent subjectivity involved in analyzing emotions, current non-artificial methodologies face challenges in effectively appraising the emotional support capability. These metrics exhibit a low correlation with human judgments. Concurrently, manual evaluation methods extremely will cause high costs. To solve these problems, we propose a novel model FEEL (Framework for Evaluating Emotional Support Capability with Large Lan-guage Models), employing Large Language Models (LLMs) as evaluators to assess emotional support capabilities. The model meticulously considers various evaluative aspects of ESC to apply a more comprehensive and accurate evaluation method for ESC. Additionally, it employs a probability distribution approach for a more stable result and integrates an ensemble learning strategy, leveraging multiple LLMs with assigned weights to enhance evaluation accuracy. To appraise the performance of FEEL, we conduct extensive experiments on existing ESC model dialogues. Experimental results demonstrate our model exhibits a substantial enhancement in alignment with human evaluations compared to the baselines. Our source code is available at https://github.com/Ansisy/FEEL.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-21
# ポイント・クラウド・トランスファー・ラーニングの重要課題の理解と対処

To Supervise or Not to Supervise: Understanding and Addressing the Key Challenges of Point Cloud Transfer Learning ( http://arxiv.org/abs/2403.17869v2 )

ライセンス: Link先を確認
Souhail Hadgi, Lei Li, Maks Ovsjanikov, (参考訳) トランスファーラーニングは、2次元画像解析を含む多くの分野の発展において、長い間重要な要素であった。 残念ながら、3Dデータ処理の適用性は比較的限られている。 ポイントクラウド転送学習のためのいくつかのアプローチが近年の文献で提案されているが、対照的な学習が顕著に普及しているのに対し、この領域の既存の手法のほとんどは、限られたシナリオでのみ研究され評価されている。 最も重要なことは、現在、いつ、なぜポイントクラウド転送学習手法が適用されるのかという、原則的な理解が欠如していることです。 注目すべきは、標準教師付き事前訓練の適用性さえ理解されていないことである。 本研究では,下流3D作業における教師付きコントラスト付き事前学習戦略とその有用性について,詳細な定量的・定性的な調査を行った。 学習した特徴を階層的に分析することで、トレーニングされたネットワークの下流ユーティリティに関する重要な洞察が得られることを実証する。 そこで本研究では,教師付き事前学習の伝達性を向上させる簡易な幾何正規化戦略を提案する。 そのため当社の作業は、ポイントクラウド移行学習の具体的な課題と、それを克服するための戦略の両方に光を当てています。

Transfer learning has long been a key factor in the advancement of many fields including 2D image analysis. Unfortunately, its applicability in 3D data processing has been relatively limited. While several approaches for point cloud transfer learning have been proposed in recent literature, with contrastive learning gaining particular prominence, most existing methods in this domain have only been studied and evaluated in limited scenarios. Most importantly, there is currently a lack of principled understanding of both when and why point cloud transfer learning methods are applicable. Remarkably, even the applicability of standard supervised pre-training is poorly understood. In this work, we conduct the first in-depth quantitative and qualitative investigation of supervised and contrastive pre-training strategies and their utility in downstream 3D tasks. We demonstrate that layer-wise analysis of learned features provides significant insight into the downstream utility of trained networks. Informed by this analysis, we propose a simple geometric regularization strategy, which improves the transferability of supervised pre-training. Our work thus sheds light onto both the specific challenges of point cloud transfer learning, as well as strategies to overcome them.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-21
# $R^2$-Tuning:ビデオ時間グラウンドのための効率的な画像-映像間変換学習

$R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding ( http://arxiv.org/abs/2404.00801v2 )

ライセンス: Link先を確認
Ye Liu, Jixuan He, Wanhua Li, Junsik Kim, Donglai Wei, Hanspeter Pfister, Chang Wen Chen, (参考訳) ビデオ時間グラウンドリング(VTG)は、自然言語クエリが与えられたビデオに関連性のあるクリップを埋め込むことを目的とした、きめ細かいビデオ理解の問題である。 既存のVTGモデルは、フレームワイドの最終層CLIP機能に基づいて構築されており、洗練された時間的推論機構を備えた追加の時間的バックボーン(例:SlowFast)によって支援されている。 本研究では,CLIP自体が,各層が異なる粒度レベル下で有用な情報を提供するため,より微細な時空間モデリングに非常に有意な可能性を示唆している。 ビデオ時間的グラウンド化のためのパラメータとメモリ効率の学習フレームワークであるReversed Recurrent Tuning(R^2$-Tuning)を提案する。 提案手法は,プログレッシブな時空間時間モデリングを行うために,全パラメータの1.5%しか含まない軽量な$R^2$ブロックを学習する。 CLIPの最後のレイヤから始まる$R^2$ Blockは、以前のレイヤから空間的特徴をリカレントに集約し、与えられたクエリの時間的相関条件を洗練し、粗い構造になる。 R^2$-Tuningは、追加のバックボーンなしで6つの公開ベンチマーク(QVHighlights、Charades-STA、Ego4D-NLQ、TACoS、YouTube Highlights、TVSum)における3つのVTGタスク(モーメント検索、ハイライト検出、ビデオ要約)における最先端のパフォーマンスを実現し、提案されたスキームの重要性と効果を実証する。 私たちのコードはhttps://github.com/yeliudev/R2-Tuning.comから入手可能です。

Video temporal grounding (VTG) is a fine-grained video understanding problem that aims to ground relevant clips in untrimmed videos given natural language queries. Most existing VTG models are built upon frame-wise final-layer CLIP features, aided by additional temporal backbones (e.g., SlowFast) with sophisticated temporal reasoning mechanisms. In this work, we claim that CLIP itself already shows great potential for fine-grained spatial-temporal modeling, as each layer offers distinct yet useful information under different granularity levels. Motivated by this, we propose Reversed Recurrent Tuning ($R^2$-Tuning), a parameter- and memory-efficient transfer learning framework for video temporal grounding. Our method learns a lightweight $R^2$ Block containing only 1.5% of the total parameters to perform progressive spatial-temporal modeling. Starting from the last layer of CLIP, $R^2$ Block recurrently aggregates spatial features from earlier layers, then refines temporal correlation conditioning on the given query, resulting in a coarse-to-fine scheme. $R^2$-Tuning achieves state-of-the-art performance across three VTG tasks (i.e., moment retrieval, highlight detection, and video summarization) on six public benchmarks (i.e., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights, and TVSum) even without the additional backbone, demonstrating the significance and effectiveness of the proposed scheme. Our code is available at https://github.com/yeliudev/R2-Tuning.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-21
# 真のリンダは立ち上がるか...大規模言語モデルへ? : LLMにおける代表性ヒューリスティックの検討

Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs ( http://arxiv.org/abs/2404.01461v3 )

ライセンス: Link先を確認
Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald, (参考訳) 大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な習熟性を示したが、訓練データから得られたバイアスを示す可能性がある。 特に、LSMは、代表性ヒューリスティックと呼ばれる人間の意思決定において共通の認知的罠に陥る可能性がある。 これは心理学における概念であり、より広い事実や統計的証拠を考えるよりも、よく知られたプロトタイプや典型的な例にどの程度近いかに基づいて事象の可能性を判断するものである。 本研究は, LLM推論における代表性ヒューリスティックの影響について検討する。 ReHeAT(Representativeness Heuristic AI Testing、表現性ヒューリスティックAIテスト)は、6種類の代表性ヒューリスティックにまたがる一連の問題を含むデータセットである。 実験の結果、ReHeATに適用された4つのLLMはいずれも代表性ヒューリスティックバイアスを示していた。 さらに、モデルの推論ステップが問題の記述よりもステレオタイプに基づいている場合が多いことを確認します。 興味深いことに、モデルにその知識を思い出させるプロンプトにヒントを加えると、パフォーマンスが向上する。 これは、従来の偏見と比較して代表性ヒューリスティックの独特さを示唆している。 LLMが認知的罠に陥りながら正しい知識を持っている場合でも起こりうる。 このことは、モデル推論と意思決定における代表性ヒューリスティックとそれに対応するソリューションの開発に焦点を当てた将来の研究の重要性を強調している。

Although large language models (LLMs) have demonstrated remarkable proficiency in modeling text and generating human-like text, they may exhibit biases acquired from training data in doing so. Specifically, LLMs may be susceptible to a common cognitive trap in human decision-making called the representativeness heuristic. This is a concept in psychology that refers to judging the likelihood of an event based on how closely it resembles a well-known prototype or typical example, versus considering broader facts or statistical evidence. This research investigates the impact of the representativeness heuristic on LLM reasoning. We created ReHeAT (Representativeness Heuristic AI Testing), a dataset containing a series of problems spanning six common types of representativeness heuristics. Experiments reveal that four LLMs applied to ReHeAT all exhibited representativeness heuristic biases. We further identify that the model's reasoning steps are often incorrectly based on a stereotype rather than on the problem's description. Interestingly, the performance improves when adding a hint in the prompt to remind the model to use its knowledge. This suggests the uniqueness of the representativeness heuristic compared to traditional biases. It can occur even when LLMs possess the correct knowledge while falling into a cognitive trap. This highlights the importance of future research focusing on the representativeness heuristic in model reasoning and decision-making and on developing solutions to address it.
翻訳日:2024-07-24 02:01:16 公開日:2024-07-21
# IISAN:decoupled PEFTを用いたシーケンスレコメンデーションのためのマルチモーダル表現の適応

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT ( http://arxiv.org/abs/2404.02059v3 )

ライセンス: Link先を確認
Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Jie Wang, Joemon M. Jose, (参考訳) マルチモーダル基礎モデルは、強力な表現学習能力を活用して、シーケンシャルなレコメンデーションシステムにおいて変換される。 パラメータ効率の微調整(PEFT)は推奨タスクに基礎モデルを適用するのに一般的に使用されるが、ほとんどの研究はパラメータ効率を優先し、GPUメモリ効率やトレーニング速度といった重要な要素を見落としている。 このギャップに対処するため,本論文では,デカップリングPEFT構造を用いたシンプルなプラグアンドプレイアーキテクチャであるIISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation)を導入する。 IISANはフルファインチューニング(FFT)と最先端PEFTのパフォーマンスにマッチする。 さらに重要なのは、マルチモーダルシーケンシャルレコメンデーションタスクにおいて、GPUメモリ使用量を47GBから3GBに大幅に削減することです。 さらに、FFTと比較して、エポックあたりのトレーニング時間を443から22に短縮する。 トレーニングには37~39GBのGPUメモリと350~380秒のトレーニングが必要だ。 さらに,「パラメータ効率は全体の効率を表す」という誤解を緩和するために,TPME(Training-time,パラメータ,GPUメモリ効率)という新しい複合効率指標を提案する。 TPMEは、異なる方法間の実用的な効率比較に関するより包括的な洞察を提供する。 さらに,全PEFTおよびFFTアプローチの効率解析を行い,IISANの優位性を示す。 コードやその他の資料はhttps://github.com/GAIR-Lab/IISANで公開しています。

Multimodal foundation models are transformative in sequential recommender systems, leveraging powerful representation learning capabilities. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt foundation models for recommendation tasks, most research prioritizes parameter efficiency, often overlooking critical factors like GPU memory efficiency and training speed. Addressing this gap, our paper introduces IISAN (Intra- and Inter-modal Side Adapted Network for Multimodal Representation), a simple plug-and-play architecture using a Decoupled PEFT structure and exploiting both intra- and inter-modal adaptation. IISAN matches the performance of full fine-tuning (FFT) and state-of-the-art PEFT. More importantly, it significantly reduces GPU memory usage - from 47GB to just 3GB for multimodal sequential recommendation tasks. Additionally, it accelerates training time per epoch from 443s to 22s compared to FFT. This is also a notable improvement over the Adapter and LoRA, which require 37-39 GB GPU memory and 350-380 seconds per epoch for training. Furthermore, we propose a new composite efficiency metric, TPME (Training-time, Parameter, and GPU Memory Efficiency) to alleviate the prevalent misconception that "parameter efficiency represents overall efficiency". TPME provides more comprehensive insights into practical efficiency comparisons between different methods. Besides, we give an accessible efficiency analysis of all PEFT and FFT approaches, which demonstrate the superiority of IISAN. We release our codes and other materials at https://github.com/GAIR-Lab/IISAN.
翻訳日:2024-07-24 02:01:16 公開日:2024-07-21
# 失敗から学ぶ:直観論的命題論理証明のための試行錯誤データを用いた微調整LDM

Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving ( http://arxiv.org/abs/2404.07382v2 )

ライセンス: Link先を確認
Chenyang An, Zhibo Chen, Qihao Ye, Emily First, Letian Peng, Jiayun Zhang, Zihan Wang, Sorin Lerner, Jingbo Shang, (参考訳) 自動定理証明の最近の進歩は、証明状態の探索に戦術(すなわち証明ステップ)を生成する(より大きな)言語モデルを活用することの有効性を示している。 現在のモデルは、成功した証明パスのみに基づいて訓練されているが、試行錯誤の段階では、失敗からの学習を取り入れないトレーニングとは異なり、成功を見つけるまで、各証明状態で様々な戦術をサンプリングして試さなければならないため、不一致に直面している。 直感的には、探索経路の失敗につながる戦術は、同様の戦術が次の試験においてより少ない注意を払わなければならないことを示している。 本稿では,探索経路の失敗から学習する学習モデルの利点を実証する。 既存のオープンソース定理証明データセットにそのような試行錯誤データが欠如しているにもかかわらず、直観主義的な命題論理定理のデータセットをキュレートし、リーンでそれを形式化し、証明の正しさを確実にチェックできるようにします。 比較的短いトライアル・アンド・エラー情報(TrialMaster)で訓練されたモデルと、正しい経路でのみ訓練されたモデルを比較し、前者が低いトライアル探索でより目に見えない定理を解くことを発見した。

Recent advances in Automated Theorem Proving have shown the effectiveness of leveraging a (large) language model that generates tactics (i.e. proof steps) to search through proof states. The current model, while trained solely on successful proof paths, faces a discrepancy at the inference stage, as it must sample and try various tactics at each proof state until finding success, unlike its training which does not incorporate learning from failed attempts. Intuitively, a tactic that leads to a failed search path would indicate that similar tactics should receive less attention during the following trials. In this paper, we demonstrate the benefit of training models that additionally learn from failed search paths. Facing the lack of such trial-and-error data in existing open-source theorem-proving datasets, we curate a dataset on intuitionistic propositional logic theorems and formalize it in Lean, such that we can reliably check the correctness of proofs. We compare our model trained on relatively short trial-and-error information (TrialMaster) with models trained only on the correct paths and discover that the former solves more unseen theorems with lower trial searches.
翻訳日:2024-07-24 02:01:16 公開日:2024-07-21
# ControlNet++: 効率的な一貫性フィードバックによる条件制御の改善

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback ( http://arxiv.org/abs/2404.07987v2 )

ライセンス: Link先を確認
Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen, (参考訳) テキストから画像への拡散モデルの制御性を高めるため、ControlNetのような既存の作業には画像ベースの条件制御が組み込まれている。 本稿では,画像条件制御と整合した画像を生成する上で,既存の手法が依然として重大な課題に直面していることを明らかにする。 そこで本研究では,生成した画像と条件付き制御との間の画素レベルのサイクル一貫性を明示的に最適化することにより,制御可能な生成を改善する新しい手法であるControlNet++を提案する。 具体的には、入力条件制御のために、事前学習した識別的報酬モデルを用いて、生成された画像の対応する条件を抽出し、入力条件制御と抽出条件との整合損失を最適化する。 単純な実装では、ランダムノイズから画像を生成し、一貫性損失を計算するが、このアプローチでは複数のサンプリングタイムステップに勾配を格納する必要があるため、かなりの時間とメモリコストがかかる。 そこで本稿では,ノイズを付加して入力画像を意図的に妨害する効率的な報奨戦略を導入し,さらに1ステップの復号化画像を用いて報酬の微調整を行う。 これにより、画像サンプリングに伴う広範なコストが回避され、より効率的な報酬の微調整が可能になる。 大規模な実験により、ControlNet++は様々な条件付きコントロール下でコントロール可能性を大幅に改善することが示された。 例えば、11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。 コード、モデル、デモ、組織化されたデータは、Github Repoでオープンソース化されました。

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 11.1% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions. All the code, models, demo and organized data have been open sourced on our Github Repo.
翻訳日:2024-07-24 02:01:16 公開日:2024-07-21
# 擬似シム:デクサラスマニピュレーション転送のためのパラメータ化擬似物理シミュレータ

QuasiSim: Parameterized Quasi-Physical Simulators for Dexterous Manipulations Transfer ( http://arxiv.org/abs/2404.07988v2 )

ライセンス: Link先を確認
Xueyi Liu, Kangbo Lyu, Jieqiong Zhang, Tao Du, Li Yi, (参考訳) シミュレータの設計によるデクスタラスな操作伝達問題について検討する。 このタスクは、人間の操作を器用なロボットの手のシミュレーションに転送することを目的としており、複雑な、高度に拘束された、不連続なダイナミクスと、人間の操作を正確に再現するためにDoFで器用な手を制御する必要があるため、本質的に困難である。 高忠実度ブラックボックスシミュレータや緩和された制約のある修正されたシミュレータを最適化する以前のアプローチは、限られた能力を示すか、あるいは不十分なシミュレーション忠実度によって制限される。 パラメータ化準物理シミュレータと物理カリキュラムを導入し,これらの制約を克服する。 鍵となるアイデアは 1【パラメータ化シミュレータのカリキュラムによるシミュレーションの忠実度と最適化性のバランス】 2) カリキュラムから各シミュレータの問題を解き, 高いタスク最適化性から高い忠実度まで多岐にわたる特性を持つ。 我々は,高忠実度模擬環境における複雑で多様な操作の追跡を成功させ,その成功率を最良性能のベースラインから11\%以上向上させることに成功した。 プロジェクトのWebサイトはhttps://meowuu7.github.io/QuasiSim/.comで公開されている。

We explore the dexterous manipulation transfer problem by designing simulators. The task wishes to transfer human manipulations to dexterous robot hand simulations and is inherently difficult due to its intricate, highly-constrained, and discontinuous dynamics and the need to control a dexterous hand with a DoF to accurately replicate human manipulations. Previous approaches that optimize in high-fidelity black-box simulators or a modified one with relaxed constraints only demonstrate limited capabilities or are restricted by insufficient simulation fidelity. We introduce parameterized quasi-physical simulators and a physics curriculum to overcome these limitations. The key ideas are 1) balancing between fidelity and optimizability of the simulation via a curriculum of parameterized simulators, and 2) solving the problem in each of the simulators from the curriculum, with properties ranging from high task optimizability to high fidelity. We successfully enable a dexterous hand to track complex and diverse manipulations in high-fidelity simulated environments, boosting the success rate by 11\%+ from the best-performed baseline. The project website is available at https://meowuu7.github.io/QuasiSim/.
翻訳日:2024-07-24 02:01:16 公開日:2024-07-21
# ガウス量子状態の曲率

Curvature of Gaussian quantum states ( http://arxiv.org/abs/2404.09600v2 )

ライセンス: Link先を確認
Harry J. D. Miller, (参考訳) 量子状態の空間は相対エントロピーの2階微分を用いて計量構造を授けられ、いわゆるクボ・モリ・ボゴリボフ内部積(Kubo-Mori-Bogoliubov inner product)が生じる。 共分散行列によってパラメータ付けされた忠実なゼロ変位ガウス状態の部分多様体上の幾何学的性質を探索し、測地方程式、曲率テンソル、スカラー曲率の式を導出する。 我々の分析は、多様体の曲率がフォン・ノイマンエントロピーに関して厳密に単調であることを示し、したがって状態不確実性の尺度として解釈できる。 これは連続変数系におけるペッツ予想を支持する証拠を与える。

The space of quantum states can be endowed with a metric structure using the second order derivatives of the relative entropy, giving rise to the so-called Kubo-Mori-Bogoliubov inner product. We explore its geometric properties on the submanifold of faithful, zero-displacement Gaussian states parameterised by their covariance matrices, deriving expressions for the geodesic equations, curvature tensors and scalar curvature. Our analysis suggests that the curvature of the manifold is strictly monotonic with respect to the von Neumann entropy, and thus can be interpreted as a measure of state uncertainty. This provides supporting evidence for the Petz conjecture in continuous variable systems.
翻訳日:2024-07-24 01:51:11 公開日:2024-07-21
# スコアベース生成モデルにおける確率フローODEの収束解析

Convergence Analysis of Probability Flow ODE for Score-based Generative Models ( http://arxiv.org/abs/2404.09730v2 )

ライセンス: Link先を確認
Daniel Zhengyu Huang, Jiaoyang Huang, Zhengjiang Lin, (参考訳) スコアベース生成モデルは高次元確率分布をサンプリングするための強力なアプローチとして登場した。 その効果にもかかわらず、理論上の基盤は比較的未発達のままである。 本研究では,確率フローODEに基づく決定論的サンプリング器の収束特性について,理論的および数値的両面から検討する。 スコア関数の$L^2$-正確な推定値にアクセスできると仮定すると、目標と生成されたデータ分布の総変動は、連続時間レベルで$\mathcal{O}(d^{3/4}\delta^{1/2})$で制限され、$d$はデータ次元を表し、$\delta$は$L^2$-scoreマッチングエラーを表す。 ステップサイズ$h$のRunge-Kutta積分器を$p$-次オーダーで実装する場合、離散レベルで$\mathcal{O}(d^{3/4}\delta^{1/2} + d\cdot(dh)^p)$の誤差境界を確立する。 最後に、我々の理論を検証するために、最大128次元の問題を数値的に研究する。

Score-based generative models have emerged as a powerful approach for sampling high-dimensional probability distributions. Despite their effectiveness, their theoretical underpinnings remain relatively underdeveloped. In this work, we study the convergence properties of deterministic samplers based on probability flow ODEs from both theoretical and numerical perspectives. Assuming access to $L^2$-accurate estimates of the score function, we prove the total variation between the target and the generated data distributions can be bounded above by $\mathcal{O}(d^{3/4}\delta^{1/2})$ in the continuous time level, where $d$ denotes the data dimension and $\delta$ represents the $L^2$-score matching error. For practical implementations using a $p$-th order Runge-Kutta integrator with step size $h$, we establish error bounds of $\mathcal{O}(d^{3/4}\delta^{1/2} + d\cdot(dh)^p)$ at the discrete level. Finally, we present numerical studies on problems up to 128 dimensions to verify our theory.
翻訳日:2024-07-24 01:51:11 公開日:2024-07-21
# CausalMed:患者の健康状態を中心とした因果性に基づくパーソナライズドメディケーション勧告

CausalMed: Causality-Based Personalized Medication Recommendation Centered on Patient health state ( http://arxiv.org/abs/2404.12228v3 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Yu Lei, Chen Li, Yulei Hou, Tengfei Ma, (参考訳) 特定の患者に適した薬剤を推奨する薬剤推奨システムを開発した。 これまでの研究は主に薬品表現の学習に焦点が当てられ、顕著な進歩をもたらした。 しかし、これらの方法は、以下の主な制限により、パーソナライズされた患者表現をキャプチャすることに限定されている。 一 病原体が各種患者の健康状態に与える影響の相違を把握できないこと。 (ii) 薬剤と患者の特定の健康状態の直接的な因果関係をモデル化できないため、各薬剤がどの疾患を治療しているかを判断できない。 これらの制約に対処するため,患者表現のパーソナライズを向上できる健康状態中心モデルCausalMedを提案する。 具体的には、CausalMedはまず因果関係を因果的発見によって捉え、その因果的影響を評価する。 これに基づいて、CausalMedは患者の健康状態を分析し、患者の異なる健康状態における疾患や栄養素の動的な相違を捉え、直接的な因果関係に基づいて疾患や栄養素を薬に変えることに焦点を当てている。 最終的にCausalMedは、長期訪問からの情報を統合して、医薬品の組み合わせを推奨する。 実世界のデータセットに対する大規模な実験により、我々の手法はよりパーソナライズされた患者の表現を学習し、最先端のモデルの精度と安全性を向上することが示された。

Medication recommendation systems are developed to recommend suitable medications tailored to specific patient. Previous researches primarily focus on learning medication representations, which have yielded notable advances. However, these methods are limited to capturing personalized patient representations due to the following primary limitations: (i) unable to capture the differences in the impact of diseases/procedures on patients across various patient health states; (ii) fail to model the direct causal relationships between medications and specific health state of patients, resulting in an inability to determine which specific disease each medication is treating. To address these limitations, we propose CausalMed, a patient health state-centric model capable of enhancing the personalization of patient representations. Specifically, CausalMed first captures the causal relationship between diseases/procedures and medications through causal discovery and evaluates their causal effects. Building upon this, CausalMed focuses on analyzing the health state of patients, capturing the dynamic differences of diseases/procedures in different health states of patients, and transforming diseases/procedures into medications on direct causal relationships. Ultimately, CausalMed integrates information from longitudinal visits to recommend medication combinations. Extensive experiments on real-world datasets show that our method learns more personalized patient representation and outperforms state-of-the-art models in accuracy and safety.
翻訳日:2024-07-24 01:51:11 公開日:2024-07-21
# サブパス線形近似モデルによる画像生成の高速化

Accelerating Image Generation with Sub-path Linear Approximation Model ( http://arxiv.org/abs/2404.13903v3 )

ライセンス: Link先を確認
Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang, (参考訳) 拡散モデルは、画像、オーディオ、ビデオ生成タスクの最先端を著しく進歩させてきた。 しかし、実際のシナリオにおけるそれらの応用は、推論速度の遅さによって妨げられる。 一貫性モデルで利用される近似戦略からインスピレーションを得たサブパス線形近似モデル(SLAM)を提案し,高品質な画像生成を維持しながら拡散モデルを加速する。 SLAMは、PF-ODEサブパスをサンプルポイントで分割した一連のPF-ODEサブパスとして扱い、サブパス線形(SL)ODEを用いて個々のPF-ODEサブパスに沿って進行的かつ連続的なエラー推定を生成する。 このようなSL-ODEの最適化により、SLAMはより小さい累積近似誤差でデノナイジングマッピングを構築することができる。 また, 潜伏拡散モデルなど, より高度な拡散モデルの導入を容易にするため, 効率的な蒸留法も開発されている。 以上の結果から,SLAMは2段階から4段階の高速生成が可能な高品質な生成モデルを生成するのに6A100 GPU日しか必要とせず,効率のよいトレーニングレギュレーションを実現することが示された。 LAION、MS COCO 2014、MS COCO 2017データセットに関する総合的な評価は、SLAMが既存のアクセラレーションメソッドを数ステップ生成タスクで超越し、FIDと生成された画像の品質の両方で最先端のパフォーマンスを達成することを示している。

Diffusion models have significantly advanced the state of the art in image, audio, and video generation tasks. However, their applications in practical scenarios are hindered by slow inference speed. Drawing inspiration from the approximation strategies utilized in consistency models, we propose the Sub-path Linear Approximation Model (SLAM), which accelerates diffusion models while maintaining high-quality image generation. SLAM treats the PF-ODE trajectory as a series of PF-ODE sub-paths divided by sampled points, and harnesses sub-path linear (SL) ODEs to form a progressive and continuous error estimation along each individual PF-ODE sub-path. The optimization on such SL-ODEs allows SLAM to construct denoising mappings with smaller cumulative approximated errors. An efficient distillation method is also developed to facilitate the incorporation of more advanced diffusion models, such as latent diffusion models. Our extensive experimental results demonstrate that SLAM achieves an efficient training regimen, requiring only 6 A100 GPU days to produce a high-quality generative model capable of 2 to 4-step generation with high performance. Comprehensive evaluations on LAION, MS COCO 2014, and MS COCO 2017 datasets also illustrate that SLAM surpasses existing acceleration methods in few-step generation tasks, achieving state-of-the-art performance both on FID and the quality of the generated images.
翻訳日:2024-07-24 01:51:11 公開日:2024-07-21
# DPOとPPO: RLHFのための強化トークン最適化

DPO Meets PPO: Reinforced Token Optimization for RLHF ( http://arxiv.org/abs/2404.18922v2 )

ライセンス: Link先を確認
Han Zhong, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang, (参考訳) 古典的なRLHF(Reinforcement Learning from Human Feedback)フレームワークでは、PPO(Proximal Policy Optimization)が、粗末な文レベルの報酬から学ぶために使用される。 最先端のクローズドソース言語モデル(LLM)のアライメントにおいてPPOは大きな成功を収めたが、多くの研究で広く報告されているように、そのオープンソース実装はいまだに準最適である。 これらの問題に対処するために,RLHF問題をマルコフ決定プロセス(MDP)としてモデル化するフレームワークを導入する。 さらに,従来の文レベルの帯域幅の定式化よりもMDPフレームワークの方が優れていることを示す理論的知見を提供する。 この枠組みでは, 優先データからトークンワイド報酬関数を学習し, この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うReinforced Token Optimization (\texttt{RTO}) と呼ばれるアルゴリズムを導入する。 理論的には、‘texttt{RTO} は、ほぼ最適のポリシーをサンプリング効率良く見つける能力を持つことが証明されている。 実践的な実装として、 \texttt{RTO} は、DPO(Direct Preference Optimization)とPPO(PPO)を革新的に統合している。 DPOは、もともとスパース文の報酬から派生したもので、驚くべきことに、反応の質をトークン的に評価し、その後のPPOトレーニングステージにシームレスに組み込まれています。 大規模な実世界のアライメント実験により,提案手法の有効性が検証された。

In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards -- a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of state-of-the-art closed-source large language models (LLMs), its open-source implementation is still largely sub-optimal, as widely reported by numerous research studies. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Furthermore, we provide theoretical insights that demonstrate the superiority of our MDP framework over the previous sentence-level bandit formulation. Under this framework, we introduce an algorithm, dubbed as Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive real-world alignment experiments verify the effectiveness of the proposed approach.
翻訳日:2024-07-24 01:41:25 公開日:2024-07-21
# 重み付きフィードバックに基づく励起状態計算のための量子アルゴリズム

Weighted Feedback-Based Quantum Algorithm for Excited States Calculation ( http://arxiv.org/abs/2404.19386v2 )

ライセンス: Link先を確認
Salahuddin Abdul Rahman, Özkan Karabacak, Rafal Wisniewski, (参考訳) 量子系のリアプノフ制御技術からインスピレーションを得て、ハミルトニアンの基底状態を計算するためにフィードバックベースの量子アルゴリズムが提案されている。 本研究では、これらのアルゴリズムを拡張して、励起状態の計算に取り組むことを検討する。 重み付き部分空間探索変分量子固有解法アルゴリズムに着想を得て, 励起状態計算のための新しい重み付きフィードバックベース量子アルゴリズムを提案する。 我々は、重みとフィードバック法則をどう設計するかによって、$p$th励起状態または$p$th励起状態までの最低エネルギー状態を作成することができることを示した。 量子化学の応用を通して,提案アルゴリズムの有効性を示し,その効果を数値シミュレーションを用いて評価する。

Drawing inspiration from the Lyapunov control technique for quantum systems, feedback-based quantum algorithms have been proposed for calculating the ground states of Hamiltonians. In this work, we consider extending these algorithms to tackle calculating excited states. Inspired by the weighted subspace-search variational quantum eigensolver algorithm, we propose a novel weighted feedback-based quantum algorithm for excited state calculation. We show that depending on how we design the weights and the feedback law, we can prepare the $p$th excited state or lowest energy states up to the $p$th excited state. Through an application in quantum chemistry, we show the effectiveness of the proposed algorithm, evaluating its efficacy via numerical simulations.
翻訳日:2024-07-24 01:41:25 公開日:2024-07-21
# Rydberg RF受信機の変調転送プロトコル

Modulation transfer protocol for Rydberg RF receivers ( http://arxiv.org/abs/2405.03618v2 )

ライセンス: Link先を確認
Duc-Anh Trinh, Adwaith K. V., Mickael Branco, Aliénor Rouxel, Sacha Welinski, Perrine Berger, Fabienne Goldfarb, Fabien Bretenaker, (参考訳) 本稿では,Rydberg RFレシーバの検出感度を,Rydberg レベル間の遷移からの共振場に高めるための変調転送プロトコルを提案する。 このプロトコルは、電磁誘導透明性(EIT)信号を生成するために使用される制御フィールドの位相変調に基づいている。 多成分カップリングレーザとプローブレーザの非線形波動混合は、RFフィールド検出に使用されるプローブレーザに変調を伝達する。 この測定は、原子-光相互作用の半古典シミュレーションとよく比較され、センサのRF帯域幅の改善と弱い磁場に対する応答の感度の向上を示す。

We propose and demonstrate a modulation transfer protocol to increase the detection sensitivity of a Rydberg RF receiver to fields out of resonance from the transition between Rydberg levels. This protocol is based on a phase modulation of the control field used to create the Electromagnetically Induced Transparency (EIT) signal. The nonlinear wave-mixing of the multi-component coupling laser and the probe laser transfers the modulation to the probe laser, which is used for RF-field detection. The measurements compare well with semi-classical simulations of atom-light interaction and show an improvement in the RF bandwidth of the sensor and an improved sensitivity of the response to weak fields.
翻訳日:2024-07-24 01:41:25 公開日:2024-07-21
# 自動運転の職業認知に関する調査研究:情報融合の視点から

A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective ( http://arxiv.org/abs/2405.05173v3 )

ライセンス: Link先を確認
Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau, (参考訳) 3D占有感技術は、自動運転車の密集した3D環境を観察し理解することを目的としている。 包括的な認識能力のため、この技術は自律運転認識システムのトレンドとして現れており、産業と学術の両方から大きな注目を集めている。 従来の鳥眼視(BEV)と同様に、3D占有感は多ソース入力の性質と情報融合の必要性を持っている。 しかし、違いは2次元のBEVによって無視される垂直構造を捉えることである。 本稿では,3次元占有感に関する最近の研究を概観し,様々な入力モダリティを持つ方法論の詳細な分析を行う。 具体的には、一般的なネットワークパイプラインを要約し、情報融合技術を強調し、効果的なネットワークトレーニングについて議論する。 我々は,最もポピュラーなデータセット上での最先端技術の占有感性能を評価し,分析する。 さらに,課題と今後の研究方向性についても論じる。 この論文がコミュニティを刺激し、3D占有感のさらなる研究を促進することを願っている。 この調査の包括的な研究リストは、最新の成果を継続的に収集するアクティブリポジトリで公開されている。

3D occupancy perception technology aims to observe and understand dense 3D environments for autonomous vehicles. Owing to its comprehensive perception capability, this technology is emerging as a trend in autonomous driving perception systems, and is attracting significant attention from both industry and academia. Similar to traditional bird's-eye view (BEV) perception, 3D occupancy perception has the nature of multi-source input and the necessity for information fusion. However, the difference is that it captures vertical structures that are ignored by 2D BEV. In this survey, we review the most recent works on 3D occupancy perception, and provide in-depth analyses of methodologies with various input modalities. Specifically, we summarize general network pipelines, highlight information fusion techniques, and discuss effective network training. We evaluate and analyze the occupancy perception performance of the state-of-the-art on the most popular datasets. Furthermore, challenges and future research directions are discussed. We hope this paper will inspire the community and encourage more research work on 3D occupancy perception. A comprehensive list of studies in this survey is publicly available in an active repository that continuously collects the latest work: https://github.com/HuaiyuanXu/3D-Occupancy-Perception.
翻訳日:2024-07-24 01:41:25 公開日:2024-07-21
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v2 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# QAに基づくイベント抽出におけるより良い質問生成に向けて

Towards Better Question Generation in QA-based Event Extraction ( http://arxiv.org/abs/2405.10517v3 )

ライセンス: Link先を確認
Zijin Hong, Jian Liu, (参考訳) イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的とした重要な情報抽出タスクである。 この課題のパラダイムは、従来の分類に基づく手法から、より現代的な質問回答に基づく(QAに基づく)アプローチへと移行してきた。 しかし、QAベースのEEでは、質問の品質が抽出精度に劇的に影響を与え、QAベースのEEに対して高品質な質問を生成する方法が課題である。 本研究は,質問の質を評価するための4つの基準を提案するとともに,QAモデルに対する一般化可能,高品質,文脈に依存した質問を生成できる強化学習手法であるRLQGを提案する。 ACEとRAMSデータセットで実施された広範な実験は、我々のアプローチの有効性を強く検証しており、訓練データに制限のあるシナリオにおける堅牢性も示している。 RLQGの対応するコードは、さらなる研究のためにリリースされている。

Event Extraction (EE) is an essential information extraction task that aims to extract event-related information from unstructured texts. The paradigm of this task has shifted from conventional classification-based methods to more contemporary question-answering-based (QA-based) approaches. However, in QA-based EE, the quality of the questions dramatically affects the extraction accuracy, and how to generate high-quality questions for QA-based EE remains a challenge. In this work, to tackle this challenge, we suggest four criteria to evaluate the quality of a question and propose a reinforcement learning method, RLQG, for QA-based EE that can generate generalizable, high-quality, and context-dependent questions and provides clear guidance to QA models. The extensive experiments conducted on ACE and RAMS datasets have strongly validated our approach's effectiveness, which also demonstrates its robustness in scenarios with limited training data. The corresponding code of RLQG is released for further research.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# BrainStorm @ iREL at #SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets

BrainStorm @ iREL at #SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets ( http://arxiv.org/abs/2405.11192v2 )

ライセンス: Link先を確認
Manav Chaudhary, Harshit Gupta, Vasudeva Varma, (参考訳) 様々なNLPタスクにおけるLSMの増殖は、特にバイアスや幻覚が生じる可能性のあるアノテーションタスクにおいて、その信頼性に関する議論を引き起こしている。 この共有タスクでは、ラテンアメリカスペイン語のつぶやきからCOVID-19の症状を検出するという文脈において、LLMによるアノテーションと人間のドメインの専門家によるアノテーションを区別するという課題に対処する。 本稿では,SMM4H 2024共有タスクに対するBrainStorm @iRELsアプローチを提案する。

The proliferation of LLMs in various NLP tasks has sparked debates regarding their reliability, particularly in annotation tasks where biases and hallucinations may arise. In this shared task, we address the challenge of distinguishing annotations made by LLMs from those made by human domain experts in the context of COVID-19 symptom detection from tweets in Latin American Spanish. This paper presents BrainStorm @ iRELs approach to the SMM4H 2024 Shared Task, leveraging the inherent topical information in tweets, we propose a novel approach to identify and classify annotations, aiming to enhance the trustworthiness of annotated data.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# 線形計算グラフを用いた局所回路と大域回路の自動同定

Automatically Identifying Local and Global Circuits with Linear Computation Graphs ( http://arxiv.org/abs/2405.13868v2 )

ライセンス: Link先を確認
Xuyang Ge, Fukang Zhu, Wentao Shu, Junxuan Wang, Zhengfu He, Xipeng Qiu, (参考訳) 任意のモデル挙動の回路解析は、機械的解釈可能性において中心的な課題である。 Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。 これら2つのモジュールをモデルに挿入すると、OVおよびMPP回路に対するモデルの計算グラフは厳密に線形になる。 本手法は各ノードの因果効果を計算するために線形近似を必要としない。 このきめ細かいグラフは、ロジットまたは中間的特徴のいずれについても、エンドツーエンドとローカルの両方の回路を識別する。 階層的属性(hierarchical Attribution)と呼ばれるテクニックで、このパイプラインを辛抱強く適用できます。 GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。 以上の結果から,既存の発見の根底にある新たな発見が明らかになった。

Circuit analysis of any certain model behavior is a central task in mechanistic interpretability. We introduce our circuit discovery pipeline with Sparse Autoencoders (SAEs) and a variant called Transcoders. With these two modules inserted into the model, the model's computation graph with respect to OV and MLP circuits becomes strictly linear. Our methods do not require linear approximation to compute the causal effect of each node. This fine-grained graph identifies both end-to-end and local circuits accounting for either logits or intermediate features. We can scalably apply this pipeline with a technique called Hierarchical Attribution. We analyze three kinds of circuits in GPT-2 Small: bracket, induction, and Indirect Object Identification circuits. Our results reveal new findings underlying existing discoveries.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# 人間の視覚診断のためのニューラル3次元デコード

Neural 3D decoding for human vision diagnosis ( http://arxiv.org/abs/2405.15239v2 )

ライセンス: Link先を確認
Li Zhang, Yuankun Yang, Ziyang Xie, Zhiyuan Yuan, Jianfeng Feng, Xiatian Zhu, Yu-Gang Jiang, (参考訳) 人間の視覚知覚の背後にある隠されたメカニズムを理解することは神経科学の基本的な問題である。 そのために、機能的磁気共鳴イメージング(fMRI)のような人間の心活動の神経反応を調べることは、重要な研究車両である。 しかし、fMRI信号の解析は困難であり、コストがかかり、おそろしく、専門的な訓練を必要としている。 人工知能(AI)に基づくfMRI分析の顕著な進歩にもかかわらず、既存のソリューションは生物学的に意味があり実用的に有用ではない。 この文脈では、AIが2D視覚から視覚的に可視で機能的により包括的な脳信号からデコードされた3D視覚へと進化し、fMRIデータのより洗練された自動モデリングを可能にすることによって、現在の最先端のAIをいかに超えるかを実証する。 本研究では,fMRIデータを条件付き3次元オブジェクト生成問題として解析するタスクを再構築する。 本研究では、2D画像で提示された被験者のfMRIデータを入力として、対応する3Dオブジェクト視覚を出力する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。 重要なことは、我々のAIエージェントが、人間の視覚系の各領域の異なる機能と、それらの複雑な相互作用関係を捉え、確立された神経科学の発見と著しく一致していることである。 非専門的な診断は、V1、V2、V3、V4、およびヒト視覚系における中間側頭葉(MTL)などのシミュレーションシナリオにおいて、障害した脳領域を正常に識別できることを示唆している。 また,3次元画像の知覚品質を指標として,クロスプラットフォームな3次元視覚生成設定の結果も提示した。

Understanding the hidden mechanisms behind human's visual perception is a fundamental question in neuroscience. To that end, investigating into the neural responses of human mind activities, such as functional Magnetic Resonance Imaging (fMRI), has been a significant research vehicle. However, analyzing fMRI signals is challenging, costly, daunting, and demanding for professional training. Despite remarkable progress in artificial intelligence (AI) based fMRI analysis, existing solutions are limited and far away from being biologically meaningful and practically useful. In this context, we leap forward to demonstrate how AI can go beyond the current state of the art by advancing from 2D visuals to visually plausible and functionally more comprehensive 3D visuals decoded from brain signals, enabling automatic more sophisticated modeling of fMRI data. Innovationally, we reformulate the task of analyzing fMRI data as a conditional 3D object generation problem. We design a novel 3D object representation learning method, Brain3D, that takes as input the fMRI data of a subject who was presented with a 2D image, and yields as output the corresponding 3D object visuals. Importantly, we show that our AI agent captures the distinct functionalities of each region of human vision system as well as their intricate interplay relationships, aligning remarkably with the established discoveries of neuroscience. Non-expert diagnosis indicate that \ourmodel{} can successfully identify the disordered brain regions in simulated scenarios, such as V1, V2, V3, V4, and the medial temporal lobe (MTL) within the human visual system. We also present results in cross-modal 3D visual generation setting, showcasing the perception quality of our 3D generation.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# V-Zen:新しいマルチモーダルLLMによるGUIの効率的な理解と精密グラウンドディング

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM ( http://arxiv.org/abs/2405.15341v2 )

ライセンス: Link先を確認
Abdur Rahman, Rajat Chawla, Muskaan Kumar, Arkajit Datta, Adarsh Jha, Mukunda NS, Ishaan Bhola, (参考訳) AI研究と応用の急速な発展の中で、マルチモーダル言語モデル(MLLM)は、テキスト、画像、グラフィカルユーザインタフェース(GUI)といった様々なモダリティからの情報の解釈と統合に適した変換力として登場した。 これらの進歩にもかかわらず、GUIの微妙な相互作用と理解は、自動化レベルを高めるために既存のモデルの可能性を制限するという大きな課題を生んでいる。 このギャップを埋めるために,GUIの理解と基盤化の領域に革命をもたらすために,革新的なマルチモーダル大規模言語モデル(MLLM)であるV-Zenを提案する。 デュアル解像度のイメージエンコーダを備えたV-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立し、自己動作型コンピュータシステムの基盤となる。 補完V-ZenはGUIDEデータセットであり、現実世界のGUI要素とタスクベースのシーケンスの広範なコレクションであり、微調整を専門とする触媒として機能している。 V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。 本稿は、GUI自動化の未来を形作る、このエキサイティングな旅に参加するための研究コミュニティへの招待を拡大する。 オープンサイエンスの精神では、私たちのコード、データ、モデルが公開され、複雑で正確な対話を伴うマルチモーダル対話シナリオの道が開かれます。

In the rapidly evolving landscape of AI research and application, Multimodal Large Language Models (MLLMs) have emerged as a transformative force, adept at interpreting and integrating information from diverse modalities such as text, images, and Graphical User Interfaces (GUIs). Despite these advancements, the nuanced interaction and understanding of GUIs pose a significant challenge, limiting the potential of existing models to enhance automation levels. To bridge this gap, this paper presents V-Zen, an innovative Multimodal Large Language Model (MLLM) meticulously crafted to revolutionise the domain of GUI understanding and grounding. Equipped with dual-resolution image encoders, V-Zen establishes new benchmarks in efficient grounding and next-action prediction, thereby laying the groundwork for self-operating computer systems. Complementing V-Zen is the GUIDE dataset, an extensive collection of real-world GUI elements and task-based sequences, serving as a catalyst for specialised fine-tuning. The successful integration of V-Zen and GUIDE marks the dawn of a new era in multimodal AI research, opening the door to intelligent, autonomous computing experiences. This paper extends an invitation to the research community to join this exciting journey, shaping the future of GUI automation. In the spirit of open science, our code, data, and model will be made publicly available, paving the way for multimodal dialogue scenarios with intricate and precise interactions.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-21
# 何百万人もの人々の道:Wikipediaから人生の軌跡を抽出する

Paths of A Million People: Extracting Life Trajectories from Wikipedia ( http://arxiv.org/abs/2406.00032v2 )

ライセンス: Link先を確認
Ying Zhang, Xiaofeng Li, Zhaoyang Liu, Haipeng Zhang, (参考訳) 著名な人々の人生の軌跡は、出生、死、教育、結婚、競争、仕事、スピーチ、科学的発見、芸術的成果、戦闘などの重要な出来事の時と場所を特定するために研究されている。 これらの個人が他者とどのように相互作用するかを理解することは、人間の力学の研究に有用な洞察を与える。 しかし、音量、密度、対人相互作用の観点での軌跡データの不足は、関連する研究が包括的でインタラクティブであることを制限する。 我々は、ウィキペディアから数百万の伝記ページを抽出し、軌跡記述の多様性と不均一性から生じる一般化問題に取り組む。 半教師付き学習とコントラスト学習を組み合わせた組立モデルCOSMOSは,F1スコア85.95%を達成している。 このタスクでは,8,852(人,時間,位置)のトリプルからなる手作業によるデータセットWikiLifeTrajectoryも作成する。 さらに,8,272人の歴史家の軌跡を実験的に分析し,抽出結果の有効性を実証した。 トラジェクトリ抽出の研究を円滑に進めるとともに,分析研究によるグランド・ナラティブ構築を支援するため,コード,百万レベルのトラジェクトリ,WikiLifeTrajectoryデータセットを公開している。

The life trajectories of notable people have been studied to pinpoint the times and places of significant events such as birth, death, education, marriage, competition, work, speeches, scientific discoveries, artistic achievements, and battles. Understanding how these individuals interact with others provides valuable insights for broader research into human dynamics. However, the scarcity of trajectory data in terms of volume, density, and inter-person interactions, limits relevant studies from being comprehensive and interactive. We mine millions of biography pages from Wikipedia and tackle the generalization problem stemming from the variety and heterogeneity of the trajectory descriptions. Our ensemble model COSMOS, which combines the idea of semi-supervised learning and contrastive learning, achieves an F1 score of 85.95%. For this task, we also create a hand-curated dataset, WikiLifeTrajectory, consisting of 8,852 (person, time, location) triplets as ground truth. Besides, we perform an empirical analysis on the trajectories of 8,272 historians to demonstrate the validity of the extracted results. To facilitate the research on trajectory extractions and help the analytical studies to construct grand narratives, we make our code, the million-level extracted trajectories, and the WikiLifeTrajectory dataset publicly available.
翻訳日:2024-07-24 01:21:37 公開日:2024-07-21
# ${\cal PT}=対称無調波発振器の厳密な量子化条件と全透過構造

Exact quantization conditions and full transseries structures for ${\cal PT}$ symmetric anharmonic oscillators ( http://arxiv.org/abs/2406.01230v2 )

ライセンス: Link先を確認
Syo Kamata, (参考訳) V_{\cal PT}(x) = \omega^2 x^2 + g x^{2 K} (i x)^{\varepsilon}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R}_{>0}$ and $K, \varepsilon \in {\mathbb N}$である。 分析では、主に質量のない場合、すなわち$\omega = 0$を検討し、任意の$(K,\varepsilon)$に対する正確な量子化条件(QC)を導出する。 正確なQCから、エネルギースペクトルの逆エネルギー準位展開に関する全列構造を明らかにし、その後、グッツウィラートレース公式、スペクトル和形式、ユークリッドパス積分を定式化する。 大規模の場合、すなわち$\omega > 0$ に対して、正確な QC の解の存在を要求することによって、EWKB における解析的連続の経路は与えられた$N = 2K + \varepsilon$ に対して一意に決定され、したがって、正確な QC 、エネルギースペクトル、および3つの公式はすべて摂動的であるという事実を示す。 ヘルミタンのQMと復活の類似性も追加の発言として議論されている。

We study exact Wentzel-Kramers-Brillouin analysis (EWKB) for a ${\cal PT}$ symmetric quantum mechanics (QM) defined by the potential that $V_{\cal PT}(x) = \omega^2 x^2 + g x^{2 K} (i x)^{\varepsilon}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R}_{>0}$ and $K, \varepsilon \in {\mathbb N}$ to clarify its perturbative/non-perturbative structure. In our analysis, we mainly consider the massless cases, i.e., $\omega = 0$, and derive the exact quantization conditions (QCs) for arbitrary $(K,\varepsilon)$ including all perturbative/non-perturbative corrections. From the exact QCs, we clarify full transseries structure of the energy spectra with respect to the inverse energy level expansion, and then formulate the Gutzwiller trace formula, the spectral summation form, and the Euclidean path-integral. For the massive cases, i.e., $\omega > 0$, we show the fact that, by requiring existence of solution of the exact QCs, the path of analytic continuation in EWKB is uniquely determined for a given $N = 2K + \varepsilon$, and in consequence the exact QCs, the energy spectra, and the three formulas are all perturbative. Similarities to Hermitian QMs and resurgence are also discussed as additional remarks.
翻訳日:2024-07-24 01:11:44 公開日:2024-07-21
# 多レベル辞書を用いたロスレス画像圧縮:バイナリ画像

Lossless Image Compression Using Multi-level Dictionaries: Binary Images ( http://arxiv.org/abs/2406.03087v2 )

ライセンス: Link先を確認
Samar Agnihotri, Renu Rameshan, Ritwik Ghosal, (参考訳) 画像の保存や送信コストを削減するために、さまざまなアプリケーションにおいてロスレス画像圧縮が必要であるが、再構成された画像はオリジナルのものと比べて情報損失がゼロである必要がある。 既存のロスレス画像圧縮手法は単純な設計だが圧縮性能は劣るが、複雑な設計、性能は向上するが、性能保証はない。 低複雑性で性能が保証されたロスレス画像圧縮手法の開発にあたり、カラー画像の圧縮性はその空間構造、強度変化、色変化のパターンから本質的に派生したものであると論じる。 したがって、損失のない画像圧縮方式の全体設計を、対応する冗長性を利用する3つの部分に分割する。 さらに、画像の双対化バージョンは、その基本的な空間構造をキャプチャすると主張する。 本研究の前半では,2値画像のロスレス圧縮方式を提案する。 提案手法はまず、さまざまなバイナリ画像のデータセットから16ドル/8ドル/4ドル/2ドル/4ドル/2ドル/4ドル/4ドル/2ドル/4セント/4ドル/4ドル/4セント/4セント/4セント/5セント/5セント/5セント/5セント/5セント/5セント/5セントの辞書を学習する。 次に、これらの辞書を使ってバイナリ画像をエンコードする。 これらの辞書には、効率的でスケーラブルなスキームを構築するためにさらに活用される様々な興味深い性質がある。 予備的な結果から,提案手法は従来型および学習型ロスレス圧縮手法を一貫して上回り,一般目的ロスレス圧縮方式(WebP)よりも1.5ドル以上高い性能,最先端の学習ベース方式よりも3ドル以上高い性能,バイナリ画像圧縮方式(JBIG2)よりも優れた性能を提供する。

Lossless image compression is required in various applications to reduce storage or transmission costs of images, while requiring the reconstructed images to have zero information loss compared to the original. Existing lossless image compression methods either have simple design but poor compression performance, or complex design, better performance, but with no performance guarantees. In our endeavor to develop a lossless image compression method with low complexity and guaranteed performance, we argue that compressibility of a color image is essentially derived from the patterns in its spatial structure, intensity variations, and color variations. Thus, we divide the overall design of a lossless image compression scheme into three parts that exploit corresponding redundancies. We further argue that the binarized version of an image captures its fundamental spatial structure. In this first part of our work, we propose a scheme for lossless compression of binary images. The proposed scheme first learns dictionaries of $16\times16$, $8\times8$, $4\times4$, and $2\times 2$ square pixel patterns from various datasets of binary images. It then uses these dictionaries to encode binary images. These dictionaries have various interesting properties that are further exploited to construct an efficient and scalable scheme. Our preliminary results show that the proposed scheme consistently outperforms existing conventional and learning based lossless compression approaches, and provides, on average, as much as $1.5\times$ better performance than a common general purpose lossless compression scheme (WebP), more than $3\times$ better performance than a state of the art learning based scheme, and better performance than a specialized scheme for binary image compression (JBIG2).
翻訳日:2024-07-24 01:11:44 公開日:2024-07-21
# GenAI著作権問題に対処する:オリジナル性の推定と生成

Tackling GenAI Copyright Issues: Originality Estimation and Genericization ( http://arxiv.org/abs/2406.03341v2 )

ライセンス: Link先を確認
Hiroaki Chiba-Okabe, Weijie J. Su, (参考訳) 生成AI技術の急速な進歩は、重要な著作権上の懸念を引き起こし、AI開発者に対する数多くの訴訟を引き起こした。 著作権データと類似するデータから生成モデルの出力を分離して著作権リスクを軽減する方法を模索する研究もあるが、類似性がどの程度望ましくないかという問題にはほとんど注目されていない。 本稿では,この原理を利用して生成モデルの出力を一般化し,著作権を侵害しにくくするジェネリック化手法を提案する。 これを実現するために、法的な枠組みと整合した方法でデータの独創性のレベルを定量化する指標を導入する。 この計量は、生成モデルからサンプルを抽出し、一般化過程に使用することにより、実際に推定することができる。 提案手法は,テキストから画像への生成モデルの出力を改良し,より汎用的で著作権に適合した画像を生成する。

The rapid progress of generative AI technology has sparked significant copyright concerns, leading to numerous lawsuits filed against AI developers. While some studies explore methods to mitigate copyright risks by steering the outputs of generative models away from those resembling copyrighted data, little attention has been paid to the question of how much of a resemblance is undesirable; more original or unique data are afforded stronger protection, and the threshold level of resemblance for constituting infringement correspondingly lower. Here, leveraging this principle, we propose a genericization method that modifies the outputs of a generative model to make them more generic and less likely to infringe copyright. To achieve this, we introduce a metric for quantifying the level of originality of data in a manner that is consistent with the legal framework. This metric can be practically estimated by drawing samples from a generative model, which is then used for the genericization process. Experiments demonstrate that our genericization method successfully modifies the output of a text-to-image generative model so that it produces more generic, copyright-compliant images.
翻訳日:2024-07-24 01:11:44 公開日:2024-07-21
# RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング

RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model ( http://arxiv.org/abs/2406.10157v5 )

ライセンス: Link先を確認
Hantao Zhou, Tianying Ji, Lukas Sommerhalder, Michael Goerner, Norman Hendrich, Jianwei Zhang, Fuchun Sun, Huazhe Xu, (参考訳) ミニゴルフ(Minigolf)は、エンボディインテリジェンスを調べるための模範的な現実世界のゲームであり、ボールを置くには空間的およびキノダイナミックな理解が必要である。 さらに、課題の実現可能性が保証されない場合には、リフレクティブ推論が必要である。 本稿では,双対カメラ認識と閉ループ動作改善を組み合わせたVLMベースのフレームワークであるRoboGolfを紹介する。 両方のループのコアは微調整されたVLMによって駆動される。 オフラインの推論設定でフレームワークの機能を解析し、記録されたトラジェクトリの広範なセットに依存する。 分析された問題領域の例示はhttps://jity16.github.io/RoboGolf/で公開されている。

Minigolf is an exemplary real-world game for examining embodied intelligence, requiring challenging spatial and kinodynamic understanding to putt the ball. Additionally, reflective reasoning is required if the feasibility of a challenge is not ensured. We introduce RoboGolf, a VLM-based framework that combines dual-camera perception with closed-loop action refinement, augmented by a reflective equilibrium loop. The core of both loops is powered by finetuned VLMs. We analyze the capabilities of the framework in an offline inference setting, relying on an extensive set of recorded trajectories. Exemplary demonstrations of the analyzed problem domain are available at https://jity16.github.io/RoboGolf/
翻訳日:2024-07-24 01:01:51 公開日:2024-07-21
# 機械的解釈可能性によるモデル性能のコンパクト証明

Compact Proofs of Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v9 )

ライセンス: Link先を確認
Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, (参考訳) 本稿では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性,すなわちリバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する手法を提案する。 提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。 我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。 定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。 さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。 これらの関係は、証明のサブセットを質的に検証することで確認する。 最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。

We propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.
翻訳日:2024-07-24 01:01:51 公開日:2024-07-21
# ディープ・スケールブル・ビジョン生成のためのニューラルネットワーク残差拡散モデル

Neural Residual Diffusion Models for Deep Scalable Vision Generation ( http://arxiv.org/abs/2406.13215v2 )

ライセンス: Link先を確認
Zhiyuan Ma, Liangliang Zhao, Biqing Qi, Bowen Zhou, (参考訳) 最も先進的な拡散モデルでは、大規模言語モデル(LLM)に似た視覚生成モデルの生成能力を促進するために、近年ますます深く積み重ねられたネットワーク(例えば、U-NetやTransformer)が採用されている。 しかし、より深く積み重ねられたネットワークは、直感的に数値伝搬誤差を生じさせ、生成データに対するノイズ予測能力を低下させるため、視覚生成モデルの大規模でスケーラブルなトレーニングを妨げている。 本稿では,入力信号の逆拡散過程と固有残差ユニットが一貫した動的特性を持ち,生成能力に優れたニューラルネットワークを効果的に実行できることを明らかにする。 その後、我々は、2つの共通タイプの深層ネットワークの肩の上に、統合的で大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(略してNeural-RDM)を提案し、これは、生成力学に適合する一連の学習可能なゲート残差パラメータを導入することで、深層ネットワークの共通アーキテクチャに単純かつ意味のある変更である。 様々な生成タスクに関する実験結果から,提案したニューラル残差モデルが画像およびビデオ生成ベンチマークの最先端スコアを得ることが示された。 厳密な理論的証明と広範な実験により、この単純なゲート残留機構の利点は、動的モデリングと一致し、生成されたコンテンツの忠実さと一貫性を改善し、大規模にスケーラブルなトレーニングをサポートすることを証明している。 コードはhttps://github.com/Anonymous/Neural-RDMで入手できる。

The most advanced diffusion models have recently adopted increasingly deep stacked networks (e.g., U-Net or Transformer) to promote the generative emergence capabilities of vision generation models similar to large language models (LLMs). However, progressively deeper stacked networks will intuitively cause numerical propagation errors and reduce noisy prediction capabilities on generative data, which hinders massively deep scalable training of vision generation models. In this paper, we first uncover the nature that neural networks being able to effectively perform generative denoising lies in the fact that the intrinsic residual unit has consistent dynamic property with the input signal's reverse diffusion process, thus supporting excellent generative abilities. Afterwards, we stand on the shoulders of two common types of deep stacked networks to propose a unified and massively scalable Neural Residual Diffusion Models framework (Neural-RDM for short), which is a simple yet meaningful change to the common architecture of deep generative networks by introducing a series of learnable gated residual parameters that conform to the generative dynamics. Experimental results on various generative tasks show that the proposed neural residual models obtain state-of-the-art scores on image's and video's generative benchmarks. Rigorous theoretical proofs and extensive experiments also demonstrate the advantages of this simple gated residual mechanism consistent with dynamic modeling in improving the fidelity and consistency of generated content and supporting large-scale scalable training. Code is available at https://github.com/Anonymous/Neural-RDM.
翻訳日:2024-07-24 01:01:51 公開日:2024-07-21
# エンティティ認識という医療用スポット

Medical Spoken Named Entity Recognition ( http://arxiv.org/abs/2406.13337v2 )

ライセンス: Link先を確認
Khai Le-Duc, David Thulke, Hung-Phong Tran, Long Vo-Dang, Khai-Nguyen Nguyen, Truong-Son Hy, Ralf Schlüter, (参考訳) Spoken Named Entity Recognition (NER)は、音声から名前付きエンティティを抽出し、人、場所、組織などのタイプに分類することを目的としている。 本稿では,医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。 我々の知る限りでは、我々の実世界のデータセットは18の異なるタイプを特徴とするエンティティタイプの数で世界最大のNERデータセットである。 第2に,エンコーダのみとシーケンス・ツー・シーケンスという,最先端の事前学習モデルを用いたベースライン結果を提案する。 事前学習した多言語モデルXLM-Rは、参照テキストとASR出力の両方のモノリンガルモデルよりも優れていた。 また、一般にエンコーダは、NERタスクのシーケンス・ツー・シーケンスモデルよりも優れている。 単に翻訳することで、文字はベトナム語だけでなく他の言語にも適用できる。 すべてのコード、データ、モデルはここで公開されています。

Spoken Named Entity Recognition (NER) aims to extracting named entities from speech and categorizing them into types like person, location, organization, etc. In this work, we present VietMed-NER - the first spoken NER dataset in the medical domain. To our best knowledge, our real-world dataset is the largest spoken NER dataset in the world in terms of the number of entity types, featuring 18 distinct types. Secondly, we present baseline results using various state-of-the-art pre-trained models: encoder-only and sequence-to-sequence. We found that pre-trained multilingual models XLM-R outperformed all monolingual models on both reference text and ASR output. Also in general, encoders perform better than sequence-to-sequence models for the NER task. By simply translating, the transcript is applicable not just to Vietnamese but to other languages as well. All code, data and models are made publicly available here: https://github.com/leduckhai/MultiMed
翻訳日:2024-07-24 01:01:51 公開日:2024-07-21
# DocParseNet: 効率的なスキャンドキュメンテーションアノテーションのための高度なセマンティックセグメンテーションとOCR埋め込み

DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation ( http://arxiv.org/abs/2406.17591v3 )

ライセンス: Link先を確認
Ahmad Mohammadshirazi, Ali Nosrati Firoozsalari, Mengxi Zhou, Dheeraj Kulshrestha, Rajiv Ramnath, (参考訳) スキャンされた文書のアノテーションを自動化することは困難であり、計算効率と精度のバランスを取る必要がある。 DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理することで、この問題に対処する。 このモデルは従来のOCRやセマンティックセグメンテーションを超えて、テキストと画像間の相互作用をキャプチャして、複雑なドキュメント構造におけるコンテキストニュアンスを保存する。 評価の結果,DocParseNetは従来のモデルよりも優れており,検証ではmIoUスコアが49.12,テストセットでは49.78であった。 これは、最先端のベースラインモデルよりも58%精度が向上し、UNextベースラインよりも18%向上したことを反映している。 注目すべきは、DocParseNetはたった280万のパラメータでこれらの結果を達成することで、モデルのサイズを約25倍削減し、他のモデルと比べてトレーニングを5倍高速化する。 これらのメトリクスは、0.039 TFLOPs (BS=1)の計算効率と相まって、DocParseNetのドキュメントアノテーションにおけるハイパフォーマンスを強調している。 モデルの適応性とスケーラビリティは、実際の企業文書処理アプリケーションに適しています。 コードはhttps://github.com/ahmad-shirazi/DocParseNetで入手できる。

Automating the annotation of scanned documents is challenging, requiring a balance between computational efficiency and accuracy. DocParseNet addresses this by combining deep learning and multi-modal learning to process both text and visual data. This model goes beyond traditional OCR and semantic segmentation, capturing the interplay between text and images to preserve contextual nuances in complex document structures. Our evaluations show that DocParseNet significantly outperforms conventional models, achieving mIoU scores of 49.12 on validation and 49.78 on the test set. This reflects a 58% accuracy improvement over state-of-the-art baseline models and an 18% gain compared to the UNext baseline. Remarkably, DocParseNet achieves these results with only 2.8 million parameters, reducing the model size by approximately 25 times and speeding up training by 5 times compared to other models. These metrics, coupled with a computational efficiency of 0.039 TFLOPs (BS=1), highlight DocParseNet's high performance in document annotation. The model's adaptability and scalability make it well-suited for real-world corporate document processing applications. The code is available at https://github.com/ahmad-shirazi/DocParseNet
翻訳日:2024-07-24 00:52:06 公開日:2024-07-21
# RouteLLM: 優先度データによるLLMの経路学習

RouteLLM: Learning to Route LLMs with Preference Data ( http://arxiv.org/abs/2406.18665v3 )

ライセンス: Link先を確認
Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択には、パフォーマンスとコストのトレードオフが伴うことが多い。 より強力なモデルは効果的ではあるが、高いコストが伴うが、能力の低いモデルはよりコスト効率が良い。 このジレンマに対処するため,提案手法では,コストと応答品質のバランスを最適化することを目的として,推論中に強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。 我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。 評価の結果,提案手法は応答の質を損なうことなく,特定のケースで2倍以上のコスト削減を実現していることがわかった。 興味深いことに、我々のルータモデルは、テスト時に強いモデルと弱いモデルが変更されても、大きな転送学習能力を示し、その性能を維持します。 このことは、これらのルータがLCMをデプロイするためのコスト効率は高く、高性能なソリューションを提供する可能性を強調している。

Large language models (LLMs) exhibit impressive capabilities across a wide range of tasks, yet the choice of which model to use often involves a trade-off between performance and cost. More powerful models, though effective, come with higher expenses, while less capable models are more cost-effective. To address this dilemma, we propose several efficient router models that dynamically select between a stronger and a weaker LLM during inference, aiming to optimize the balance between cost and response quality. We develop a training framework for these routers leveraging human preference data and data augmentation techniques to enhance performance. Our evaluation on widely-recognized benchmarks shows that our approach significantly reduces costs-by over 2 times in certain cases-without compromising the quality of responses. Interestingly, our router models also demonstrate significant transfer learning capabilities, maintaining their performance even when the strong and weak models are changed at test time. This highlights the potential of these routers to provide a cost-effective yet high-performance solution for deploying LLMs.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-21
# DiffLoss: 画像復元ネットワークの制約としての解放拡散モデル

DiffLoss: unleashing diffusion model as constraint for training image restoration network ( http://arxiv.org/abs/2406.19030v2 )

ライセンス: Link先を確認
Jiangtong Tan, Feng Zhao, (参考訳) 画像復元は、画質の低い画像を強化し、自然な視覚特性と微妙なセマンティック属性を示す高品質な画像を生成することを目的としている。 近年,拡散モデルが画像生成の強力な技術として登場し,画像復元作業のバックボーンとして明示的に採用され,優れた結果が得られた。 しかし、本質的な特徴から、速度の遅い推論速度と大きなモデルパラメータの欠点に悩まされる。 本稿では,DiffLossと呼ばれる画像修復ネットワークのトレーニングを支援するために,拡散モデルを暗黙的に活用する新たな視点を提案する。 これを実現するために,拡散モデルのモードカバレッジ機能を利用して,自然画像の分布を近似し,画像の意味的属性をキャプチャする能力を探索する。 一方,自然画像の分布のモデル化能力を活用するために,中間雑音を抽出し,自然性指向の最適化空間として機能する。 一方,拡散モデルのボトルネック特性を利用して,その意味的属性を意味的レベルの制約として活用する。 これら2つの設計を組み合わせることで、全体的な損失関数は画像復元の知覚的品質を改善することができ、視覚的に快く、意味的に強化された結果をもたらす。 本手法の有効性を検証するため,様々な画像復元タスクとベンチマーク実験を行った。 広範囲な実験結果から,本手法は修復ネットワークの視覚的品質と意味知覚を高めることが示唆された。

Image restoration aims to enhance low quality images, producing high quality images that exhibit natural visual characteristics and fine semantic attributes. Recently, the diffusion model has emerged as a powerful technique for image generation, and it has been explicitly employed as a backbone in image restoration tasks, yielding excellent results. However, it suffers from the drawbacks of slow inference speed and large model parameters due to its intrinsic characteristics. In this paper, we introduce a new perspective that implicitly leverages the diffusion model to assist the training of image restoration network, called DiffLoss, which drives the restoration results to be optimized for naturalness and semantic-aware visual effect. To achieve this, we utilize the mode coverage capability of the diffusion model to approximate the distribution of natural images and explore its ability to capture image semantic attributes. On the one hand, we extract intermediate noise to leverage its modeling capability of the distribution of natural images, which serves as a naturalness-oriented optimization space. On the other hand, we utilize the bottleneck features of diffusion model to harness its semantic attributes serving as a constraint on semantic level. By combining these two designs, the overall loss function is able to improve the perceptual quality of image restoration, resulting in visually pleasing and semantically enhanced outcomes. To validate the effectiveness of our method, we conduct experiments on various common image restoration tasks and benchmarks. Extensive experimental results demonstrate that our approach enhances the visual quality and semantic perception of the restoration network.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-21
# シーングラフ生成のための人工トリプレットと連携したデータ転送の強化

Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation ( http://arxiv.org/abs/2406.19316v2 )

ライセンス: Link先を確認
KuanChao Chu, Satoshi Yamazaki, Hideki Nakayama, (参考訳) この研究は、SGG(Scene Graph Generation)のための情報リレーショナルトリガのトレーニングデータセット強化に焦点を当てている。 効果的な監視が欠如しているため、現在のSGGモデル予測は、不十分なトレーニングサンプルを持つ情報的リレーショナル三重項に対して不十分に機能する。 そこで本稿では,FSTA(Feature Space Triplet Augmentation)とSoft Transferの2つの新しいトレーニングデータセット拡張モジュールを提案する。 FSTAは、リレーショナルトリガにおけるオブジェクトの表現を生成するために訓練された機能ジェネレータを利用する。 FSTAのバイアス予測に基づくサンプリングは、難しいものに焦点を当てた人工三重項を効率的に強化する。 さらに,ソフト・トランスファー(Soft Transfer)を導入し,ソフト・プレディケート・ラベルを一般的なリレーショナル・トリプレットに割り当て,より効果的なインフォメーション・プレディケート・クラスのための監督を行う。 実験結果から、FSTAとSoft Transferの統合は、Visual Genomeデータセットにおけるリコールと平均リコールの両方の高レベルを実現することが示された。 リコールの平均と平均リコールは、既存のすべてのモデルに依存しないメソッドの中で最高である。

This work focuses on training dataset enhancement of informative relational triplets for Scene Graph Generation (SGG). Due to the lack of effective supervision, the current SGG model predictions perform poorly for informative relational triplets with inadequate training samples. Therefore, we propose two novel training dataset enhancement modules: Feature Space Triplet Augmentation (FSTA) and Soft Transfer. FSTA leverages a feature generator trained to generate representations of an object in relational triplets. The biased prediction based sampling in FSTA efficiently augments artificial triplets focusing on the challenging ones. In addition, we introduce Soft Transfer, which assigns soft predicate labels to general relational triplets to make more supervisions for informative predicate classes effectively. Experimental results show that integrating FSTA and Soft Transfer achieve high levels of both Recall and mean Recall in Visual Genome dataset. The mean of Recall and mean Recall is the highest among all the existing model-agnostic methods.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-21
# YOLOv10の創世記

YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once Series ( http://arxiv.org/abs/2406.19407v3 )

ライセンス: Link先を確認
Ranjan Sapkota, Rizwan Qureshi, Marco Flores Calero, Chetan Badjugar, Upesh Nepal, Alwin Poulose, Peter Zeno, Uday Bhanu Prakash Vaddevolu, Sheheryar Khan, Maged Shoman, Hong Yan, Manoj Karkee, (参考訳) このレビューは、YOLOv1から最近公開されたYOLOv10までの、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進歩を体系的に検証する。 逆時間解析を用いて, YOLOv10からYOLOv9, YOLOv8, その後のバージョンを経由し, リアルタイム物体検出における速度, 精度, 計算効率の向上に寄与する各バージョンについて検討した。 この研究は、自動車安全、医療、工業製造、監視、農業の5つの重要な分野におけるYOLOの変革的な影響を強調している。 後続のYOLOバージョンにおける段階的な技術的進歩を詳述することにより、このレビューはYOLOの進化を詳述し、各以前のバージョンにおける課題と限界について論じる。 この進化は、今後10年間、YOLOをマルチモーダル、コンテキスト認識、一般人工知能(AGI)システムに統合する道のりを示している。

This review systematically examines the progression of the You Only Look Once (YOLO) object detection algorithms from YOLOv1 to the recently unveiled YOLOv10. Employing a reverse chronological analysis, this study examines the advancements introduced by YOLO algorithms, beginning with YOLOv10 and progressing through YOLOv9, YOLOv8, and subsequent versions to explore each version's contributions to enhancing speed, accuracy, and computational efficiency in real-time object detection. The study highlights the transformative impact of YOLO across five critical application areas: automotive safety, healthcare, industrial manufacturing, surveillance, and agriculture. By detailing the incremental technological advancements in subsequent YOLO versions, this review chronicles the evolution of YOLO, and discusses the challenges and limitations in each earlier versions. The evolution signifies a path towards integrating YOLO with multimodal, context-aware, and General Artificial Intelligence (AGI) systems for the next YOLO decade, promising significant implications for future developments in AI-driven applications.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-21
# StmtTree: 簡単に使えるが、Versatile Fortran変換ツールキット

StmtTree: An Easy-to-Use yet Versatile Fortran Transformation Toolkit ( http://arxiv.org/abs/2407.05652v2 )

ライセンス: Link先を確認
Jingbo Lin, Yi Yu, Zhang Yang, Yafan Zhao, (参考訳) Fortranプログラミング言語は科学計算コミュニティを支配し続けており、古いFortran-77方言で書かれた多くの生産コードがあるが、Cray poitersのような多くの標準ではない拡張がある。 これにより、コミュニティ内で大幅なメンテナンスの負担が発生し、近代化に多大な努力が費やされる。 しかし、先進的なコンパイラフレームワークの現代にもかかわらず、古いFortranコードの処理と変換は依然として困難である。 本稿では,この問題に対処する新しいFortranコード変換ツールキットであるStmtTreeを紹介する。 StmtTreeはFortran文法をステートメントツリーに抽象化し、低レベル表現操作APIと、高レベルで使いやすいクエリとミニ言語操作の両方を提供する。 StmtTreeはカスタマイズされたFortran変換ツールの作成を簡単にする。 実験によると、StmtTreeはレガシーなFortran-77コードによく適応しており、未使用のステートメントを削除するなどの複雑なツールは100行未満のpythonコードで開発することができる。

The Fortran programming language continues to dominate the scientific computing community, with many production codes written in the outdated Fortran-77 dialect, yet with many non-standard extensions such as Cray poiters. This creates significant maintenance burden within the community, with tremendous efforts devoted to modernization. However, despite the modern age of advanced compiler frameworks, processing and transforming old Fortran codes remains challenging. In this paper, we present StmtTree, a new Fortran code transformation toolkit to address this issue. StmtTree abstracts the Fortran grammar into statement tree, offering both a low-level representation manipulation API and a high-level, easy-to-use query and manipulation mini-language. StmtTree simplifies the creation of customized Fortran transformation tools. Experiments show that StmtTree adapts well to legacy Fortran-77 codes, and complex tools such as removing unused statements can be developed with fewer than 100 lines of python code.
翻訳日:2024-07-24 00:31:58 公開日:2024-07-21
# 変形-回復拡散モデル(DRDM):画像操作と合成のためのインスタンス変形

Deformation-Recovery Diffusion Model (DRDM): Instance Deformation for Image Manipulation and Synthesis ( http://arxiv.org/abs/2407.07295v2 )

ライセンス: Link先を確認
Jian-Qing Zheng, Yuanhan Mo, Yang Sun, Jiahua Li, Fuping Wu, Ziyang Wang, Tonia Vincent, Bartłomiej W. Papież, (参考訳) 医用画像では、拡散モデルが合成画像生成タスクに大きな可能性を示している。 しかし、これらのモデルは生成された画像と既存の画像の間の解釈可能な接続に苦しむことが多く、錯覚を生じさせる可能性がある。 これらの課題に対処するために,変形拡散と回復に基づく新しい拡散モデルを提案する。 このモデルは、変形-回復拡散モデル(DRDM)と呼ばれ、従来のスコア/インテンシティと潜在特徴に基づくアプローチから分岐し、直接画像合成ではなく、変形場による形態的変化を強調する。 これは、多スケール変形ベクトル場(DVF)の集合をランダムにサンプリングして統合するトポロジ保存変形場生成法を導入することで達成される。 DRDMは、不合理な変形成分の回復を学ぶために訓練され、ランダムに変形した各画像を現実的な分布に復元する。 これらの革新は、多種多様で解剖学的に妥当な変形の生成を促進し、データ拡張と合成を強化し、少数ショット学習や画像登録などの下流タスクでさらなる分析を行う。 心MRIおよび肺CTによる実験結果から,DRDMは多種多様(画像サイズ10\%以上)かつ高品質(ヤコビ行列の行列式が1\%未満)な変形場を生成できることが示された。 さらに,2次元画像セグメンテーションや3次元画像登録といった下流作業のさらなる実験結果から,DRDMによる大幅な改善が示され,医用画像等の画像操作と合成の促進が図られた。 プロジェクトページ: https://jianqingzheng.github.io/def_diff_rec/

In medical imaging, the diffusion models have shown great potential in synthetic image generation tasks. However, these models often struggle with the interpretable connections between the generated and existing images and could create illusions. To address these challenges, our research proposes a novel diffusion-based generative model based on deformation diffusion and recovery. This model, named Deformation-Recovery Diffusion Model (DRDM), diverges from traditional score/intensity and latent feature-based approaches, emphasizing morphological changes through deformation fields rather than direct image synthesis. This is achieved by introducing a topological-preserving deformation field generation method, which randomly samples and integrates a set of multi-scale Deformation Vector Fields (DVF). DRDM is trained to learn to recover unreasonable deformation components, thereby restoring each randomly deformed image to a realistic distribution. These innovations facilitate the generation of diverse and anatomically plausible deformations, enhancing data augmentation and synthesis for further analysis in downstream tasks, such as few-shot learning and image registration. Experimental results in cardiac MRI and pulmonary CT show DRDM is capable of creating diverse, large (over 10\% image size deformation scale), and high-quality (negative rate of the Jacobian matrix's determinant is lower than 1\%) deformation fields. The further experimental results in downstream tasks, 2D image segmentation and 3D image registration, indicate significant improvements resulting from DRDM, showcasing the potential of our model to advance image manipulation and synthesis in medical imaging and beyond. Project page: https://jianqingzheng.github.io/def_diff_rec/
翻訳日:2024-07-24 00:31:58 公開日:2024-07-21
# 逐次決定過程におけるLambda Disrepancyによる部分観測可能性の緩和

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy ( http://arxiv.org/abs/2407.07333v2 )

ライセンス: Link先を確認
Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris, (参考訳) 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。 しかし、状態情報が部分的にしか観測できない場合、エージェントはそのような状態表現をどうやって学べばいいのか。 基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成することのできるメトリクスを導入します。 我々の計量である$\lambda$-discrepancyは、2つの異なる時間差(TD)値の差であり、それぞれが$\lambda$の値を持つTD($\lambda$)を使用して計算される。 TD($\lambda$=0) は暗黙的なマルコフの仮定をし、TD($\lambda$=1) はそうでないので、これらの推定との相違は非マルコフ状態表現の潜在的指標である。 実際、$\lambda$-discrepancy はすべての Markov 決定プロセスで完全にゼロであり、部分的に観測可能な環境の広いクラスではほとんどゼロではないことを証明しています。 また、一度検出されると、$\lambda$-discrepancyを最小化することは、対応する部分観測可能性を軽減するためにメモリ関数を学ぶのに役立つことを実証的に示す。 次に、異なる$\lambda$パラメータを持つ2つの繰り返し値ネットワークを同時に構築する強化学習エージェントを訓練し、それらの差を補助損失として最小化する。 このアプローチは部分的に観測可能なドメインにスケールし、結果のエージェントは単一の値ネットワークしか持たないベースラインリカレントエージェントよりも、大幅にパフォーマンスが向上する(かつ、悪くはならない)。

Reinforcement learning algorithms typically rely on the assumption that the environment dynamics and value function can be expressed in terms of a Markovian state representation. However, when state information is only partially observable, how can an agent learn such a state representation, and how can it detect when it has found one? We introduce a metric that can accomplish both objectives, without requiring access to--or knowledge of--an underlying, unobservable state space. Our metric, the $\lambda$-discrepancy, is the difference between two distinct temporal difference (TD) value estimates, each computed using TD($\lambda$) with a different value of $\lambda$. Since TD($\lambda$=0) makes an implicit Markov assumption and TD($\lambda$=1) does not, a discrepancy between these estimates is a potential indicator of a non-Markovian state representation. Indeed, we prove that the $\lambda$-discrepancy is exactly zero for all Markov decision processes and almost always non-zero for a broad class of partially observable environments. We also demonstrate empirically that, once detected, minimizing the $\lambda$-discrepancy can help with learning a memory function to mitigate the corresponding partial observability. We then train a reinforcement learning agent that simultaneously constructs two recurrent value networks with different $\lambda$ parameters and minimizes the difference between them as an auxiliary loss. The approach scales to challenging partially observable domains, where the resulting agent frequently performs significantly better (and never performs worse) than a baseline recurrent agent with only a single value network.
翻訳日:2024-07-24 00:31:58 公開日:2024-07-21
# Rydberg 原子配列による創発的時空超対称性の発見

Uncovering Emergent Spacetime Supersymmetry with Rydberg Atom Arrays ( http://arxiv.org/abs/2407.08194v2 )

ライセンス: Link先を確認
Chengshu Li, Shang Liu, Hanteng Wang, Wenjun Zhang, Zi-Xiang Li, Hui Zhai, Yingfei Gu, (参考訳) 量子多体物理学における創発対称性の動物園では、これまで実現されていなかった創発時空超対称性(SUSY)が特に興味深い。 時空SUSYは (1+1)d三臨界イジング遷移で現れることが知られているが、実験的な実現はいまだに存在しない。 本稿では,Rydberg 原子配列を用いた三臨界イジング遷移の実現について提案する。 このような系では、時空 SUSY はボソニックモードとそのフェルミオンパートナーの相関関数に自身を表わす。 しかし、フェルミオンモードの相関関数は必然的に弦演算子を伴い、従来の設定では直接測定が難しい。 ここでは、物理ハミルトニアンをシミュレートし、同じプラットフォーム上でデジタル量子回路を実行するRydberg原子配列のアナログ-デジタルハイブリッド特性を用いて、フェルミオンモードの相関関数を測定する。 このハイブリッド化プロトコルは、三臨界イジング遷移で現れる時空SUSYの隠れ構造を明らかにする実験的に実現可能な方法を提供する。

In the zoo of emergent symmetries in quantum many-body physics, the previously unrealized emergent spacetime supersymmetry (SUSY) is particularly intriguing. Although it was known that spacetime SUSY could emerge at the (1+1)d tricritical Ising transition, an experimental realization is still absent. In this letter, we propose to realize the tricritical Ising transition with Rydberg atom arrays, taking advantage of the reconfigurability of these systems. In such systems, the spacetime SUSY manifests itself in the respective correlation functions of a bosonic mode and its fermionic partner. However, the correlation function of the fermionic mode inevitably involves a string operator, making direct measurement challenging in the conventional setting. Here, we utilize the analog--digital hybrid nature of the Rydberg atom arrays, which can simulate a physical Hamiltonian and perform a digital quantum circuit on the same platform, to measure the correlation function of the fermionic mode. This hybridized protocol provides an experimentally feasible way to reveal the hidden structure of the spacetime SUSY that emerges at the tricritical Ising transition.
翻訳日:2024-07-24 00:22:12 公開日:2024-07-21
# Model tell you to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks

Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks ( http://arxiv.org/abs/2407.08454v2 )

ライセンス: Link先を確認
Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang, (参考訳) 大規模言語モデル (LLM) を効率的に利用する方法は, 自己回帰生成プロセスにおいて計算コストが大きいため, 問題となっている。 計算コストを軽減するため、LLMは生成速度を改善するためにKVキャッシュ技術を使用することが多い。 計算効率は向上するが、KVキャッシュのストレージ要求は特に長期コンテキストのシナリオでは大幅に増加し、メモリ消費は大幅に増加する。 既存のKVキャッシュ消去手法は、消去によって引き起こされる情報損失により、長いコンテキストシナリオにおいてLLMの性能を劣化させることが多い。 本稿では,KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案する。 我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。 マージを容易にするために, マージに適したKV状態を特定するために, 効果的かつ簡単なマージセット識別アルゴリズムを開発した。 我々のマージセット識別アルゴリズムは、類似性の観点から、KVキャッシュのスパーシティがデータセットとは独立であり、モデルレベルで持続的であるという2つ目の観察を刺激する。 次に,各マージ集合内の全ての状態を選択的にマージするガウスカーネル重み付きマージアルゴリズムを提案する。 我々は,Llama2-7B-chatやLlama2-13B-chatなどのモデルに適用し,制約付きメモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を実証するための広範な実験を行った。 本稿では,LongBench と ZeroScroll のベンチマークを用いて,H2O と CaM を含む他の KV キャッシュ圧縮手法と比較し,50% と 35% の KV キャッシュ予算でタスク間で優れた性能を実現することを示す。

How to efficiently serve Large Language Models (LLMs) has become a pressing issue because of their huge computational cost in their autoregressive generation process. To mitigate computational costs, LLMs often employ the KV Cache technique to improve the generation speed. While improving the computational efficiency, the storage requirements of the KV cache are substantial, particularly in long-context scenarios, leading to significant memory consumption. Existing KV cache eviction methods often degrade the performance of LLMs in long-context scenarios due to the information loss introduced by eviction. In this paper, we propose a novel KV cache merging approach, called KVMerger, to achieve adaptive KV cache compression for long-context tasks without significant performance degradation under constrained memory budgets. Our approach is inspired by the intriguing observation that key states exhibit high similarity at the token level within a single sequence. To facilitate merging, we develop an effective yet straightforward merging set identification algorithm to identify suitable KV states for merging. Our merging set identification algorithm stimulates the second observation that KV cache sparsity, from similarity perspective, is independent of the dataset and remains persistent at the model level. Subsequently, we propose a Gaussian kernel weighted merging algorithm to selectively merge all states within each merging set. We conduct extensive experiments to demonstrate the effectiveness of KVMerger for long-context tasks under constrained memory budgets, applying it to models including Llama2-7B-chat and Llama2-13B-chat. Using the LongBench and ZeroScroll benchmarks, we compare our method with other KV cache compression techniques, including H2O and CaM, showing that our method achieves superior performance across tasks with both 50% and 35% KV cache budgets.
翻訳日:2024-07-24 00:22:12 公開日:2024-07-21
# ERD:弱空間とハイブリッド非凸正則化に基づく指数レチネックス分解とその応用

ERD: Exponential Retinex decomposition based on weak space and hybrid nonconvex regularization and its denoising application ( http://arxiv.org/abs/2407.08498v2 )

ライセンス: Link先を確認
Liang Wu, Wenjing Lu, Liming Tang, Zhuang Fang, (参考訳) Retinex理論は、画像を照明と反射成分の産物としてモデル化し、画像の強調、セグメンテーション、色復元に広く利用されている。 しかし、Retinexノイズ画像モデリングにおいて乗算演算と加算演算の両方が組み込まれているため、付加雑音除去にはほとんど使われていない。 本稿では,ハイブリッド非凸正則化と弱空間発振モデルに基づく指数関数的Retinex分解モデルを提案する。 提案モデルは,反射成分と照明成分の正則化のために,非凸一階全変動(TV)と非凸二階テレビを用い,残留成分を測定するために弱い$H^{-1}$ノルムを用いる。 異なる正規化器を利用することで、提案モデルは画像を反射、照明、ノイズ成分に効果的に分解する。 提案手法を解くために,adMM法とMajorize-Minimization (MM)アルゴリズムを組み合わせた交互方向乗算法(ADMM)を開発した。 さらに,アルゴリズムの収束特性の詳細な証明を行う。 数値実験により提案したモデルとアルゴリズムの両方が検証される。 複数の最先端デノーミングモデルと比較して、提案モデルはピーク信号-雑音比(PSNR)と平均構造類似度(MSSIM)において優れた性能を示す。

The Retinex theory models the image as a product of illumination and reflection components, which has received extensive attention and is widely used in image enhancement, segmentation and color restoration. However, it has been rarely used in additive noise removal due to the inclusion of both multiplication and addition operations in the Retinex noisy image modeling. In this paper, we propose an exponential Retinex decomposition model based on hybrid non-convex regularization and weak space oscillation-modeling for image denoising. The proposed model utilizes non-convex first-order total variation (TV) and non-convex second-order TV to regularize the reflection component and the illumination component, respectively, and employs weak $H^{-1}$ norm to measure the residual component. By utilizing different regularizers, the proposed model effectively decomposes the image into reflection, illumination, and noise components. An alternating direction multipliers method (ADMM) combined with the Majorize-Minimization (MM) algorithm is developed to solve the proposed model. Furthermore, we provide a detailed proof of the convergence property of the algorithm. Numerical experiments validate both the proposed model and algorithm. Compared with several state-of-the-art denoising models, the proposed model exhibits superior performance in terms of peak signal-to-noise ratio (PSNR) and mean structural similarity (MSSIM).
翻訳日:2024-07-24 00:22:12 公開日:2024-07-21
# 重なり合うグループエラー表現を持つ一般化低ランク行列補完モデル

Generalized Low-Rank Matrix Completion Model with Overlapping Group Error Representation ( http://arxiv.org/abs/2407.08517v2 )

ライセンス: Link先を確認
Wenjing Lu, Zhuang Fang, Liang Wu, Liming Tang, Hanxin Liu, Chuanjiang He, (参考訳) 低ランク行列補完(LRMC)技術は低レベル視覚タスクにおいて顕著な成果を上げている。 LRMCでは実世界の行列データが低ランクであるという前提がある。 しかし, 実行列データでは厳密な低ランク性は満たされていない。 幸いなことに、実データの本質的な情報を記述するための適切な効果的な事前表現を考案する、実現可能なスキームが存在する。 本稿では,まず行列データ${\bf{Y}}$を,低ランク近似成分$\bf{X}$と近似誤差成分$\cal{E}$の和としてモデル化する。 この微細なデータ分解アーキテクチャにより、各コンポーネントの情報をより正確に表現することができる。 さらに、上述の誤り構造を特徴付けるために重なり合うグループエラー表現(OGER)関数を設計し、OGERに基づく一般化された低ランク行列補完モデルを提案する。 具体的には、低ランク成分は、行列データの大域構造情報を記述し、OGER成分は、低ランク成分と実データとの近似誤差を補償するだけでなく、行列データの局所ブロック間隔情報をよりよくキャプチャする。 最後に,多元化最小化アルゴリズムを統合した乗算器の交互方向法(ADMM)を開発し,提案モデルの効率的な解法を実現する。 また,理論的にも実験的にも,アルゴリズムの収束を詳細に分析する。 さらに,実験結果から,提案モデルが既存の競合モデルよりも性能が優れていることが示された。

The low-rank matrix completion (LRMC) technology has achieved remarkable results in low-level visual tasks. There is an underlying assumption that the real-world matrix data is low-rank in LRMC. However, the real matrix data does not satisfy the strict low-rank property, which undoubtedly present serious challenges for the above-mentioned matrix recovery methods. Fortunately, there are feasible schemes that devise appropriate and effective priori representations for describing the intrinsic information of real data. In this paper, we firstly model the matrix data ${\bf{Y}}$ as the sum of a low-rank approximation component $\bf{X}$ and an approximation error component $\cal{E}$. This finer-grained data decomposition architecture enables each component of information to be portrayed more precisely. Further, we design an overlapping group error representation (OGER) function to characterize the above error structure and propose a generalized low-rank matrix completion model based on OGER. Specifically, the low-rank component describes the global structure information of matrix data, while the OGER component not only compensates for the approximation error between the low-rank component and the real data but also better captures the local block sparsity information of matrix data. Finally, we develop an alternating direction method of multipliers (ADMM) that integrates the majorization-minimization (MM) algorithm, which enables the efficient solution of the proposed model. And we analyze the convergence of the algorithm in detail both theoretically and experimentally. In addition, the results of numerical experiments demonstrate that the proposed model outperforms existing competing models in performance.
翻訳日:2024-07-24 00:22:12 公開日:2024-07-21
# ResVMUNetX: VMambaをベースとした低照度拡張ネットワーク

ResVMUNetX: A Low-Light Enhancement Network Based on VMamba ( http://arxiv.org/abs/2407.09553v2 )

ライセンス: Link先を確認
Shuang Wang, Qingchuan Tao, Zhenming Tang, (参考訳) 本研究では、低照度環境のための新しい画像強調ネットワークであるResVMUNetXについて、長距離画像情報の取得における既存のディープラーニング手法の限界に対処する。 ResVMUNetXは、エラーレグレッションと効率的なVMambaアーキテクチャを活用し、輝度を高め、構造の詳細を復元し、直接ピクセルの追加と特殊なDenoise CNNモジュールを含む2段階のプロセスを通してノイズを取り除く。 LOLデータセット上での優れたパフォーマンスを示すために、ResVMUNetXは、計算要求を減らし、画像の明瞭さと品質を著しく改善し、毎秒70フレームのリアルタイム処理速度を実現する。 これにより、低照度画像の高精細化と、実用的でリアルタイムな応用の可能性を確認することができる。

This study presents ResVMUNetX, a novel image enhancement network for low-light conditions, addressing the limitations of existing deep learning methods in capturing long-range image information. Leveraging error regression and an efficient VMamba architecture, ResVMUNetX enhances brightness, recovers structural details, and removes noise through a two-step process involving direct pixel addition and a specialized Denoise CNN module. Demonstrating superior performance on the LOL dataset, ResVMUNetX significantly improves image clarity and quality with reduced computational demands, achieving real-time processing speeds of up to 70 frames per second. This confirms its effectiveness in enhancing low-light images and its potential for practical, real-time applications.
翻訳日:2024-07-24 00:22:12 公開日:2024-07-21
# xLSTMTime : xLSTMによる長期時系列予測

xLSTMTime : Long-term Time Series Forecasting With xLSTM ( http://arxiv.org/abs/2407.10240v2 )

ライセンス: Link先を確認
Musleh Alharthi, Ausif Mahmood, (参考訳) 近年,多変量時系列予測(LTSF)では,高い計算要求,時間的ダイナミックス獲得の難しさ,長期依存の管理といった課題に直面しつつも,大きな進歩をみせている。 LTSF-Linearの出現は、その直線的アーキテクチャによって明らかにトランスフォーマーベースのアーキテクチャよりも優れており、時系列予測におけるトランスフォーマーの有用性の再評価につながっている。 そこで本研究では,最近のアーキテクチャである拡張LSTM (xLSTM) をLTSFに適用した。 xLSTM には指数ゲーティングと、LTSF に有望な高容量のメモリ構造が組み込まれている。 LTSF に採用したアーキテクチャは xLSTMTime と呼ばれ、現在のアプローチを超越しています。 我々は、xLSTMTimeの性能を、複数の実世界のダ-タセットにわたる様々な最先端モデルと比較し、優れた予測能力を示す。 この結果から,改良されたリカレントアーキテクチャは,時系列予測のランドスケープを再定義するLTSFタスクにおいて,トランスフォーマーモデルに代わる競合的な代替手段を提供する可能性が示唆された。

In recent years, transformer-based models have gained prominence in multivariate long-term time series forecasting (LTSF), demonstrating significant advancements despite facing challenges such as high computational demands, difficulty in capturing temporal dynamics, and managing long-term dependencies. The emergence of LTSF-Linear, with its straightforward linear architecture, has notably outperformed transformer-based counterparts, prompting a reevaluation of the transformer's utility in time series forecasting. In response, this paper presents an adaptation of a recent architecture termed extended LSTM (xLSTM) for LTSF. xLSTM incorporates exponential gating and a revised memory structure with higher capacity that has good potential for LTSF. Our adopted architecture for LTSF termed as xLSTMTime surpasses current approaches. We compare xLSTMTime's performance against various state-of-the-art models across multiple real-world da-tasets, demonstrating superior forecasting capabilities. Our findings suggest that refined recurrent architectures can offer competitive alternatives to transformer-based models in LTSF tasks, po-tentially redefining the landscape of time series forecasting.
翻訳日:2024-07-24 00:12:27 公開日:2024-07-21
# 心理的理論に基づくXAI体験品質評価のためのXEQ尺度

XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory ( http://arxiv.org/abs/2407.10662v2 )

ライセンス: Link先を確認
Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Belen Díaz-Agudo, Derek Bridge, (参考訳) 説明可能な人工知能(XAI)は、説明を通じて自律的な意思決定の透明性を向上させることを目的としている。 近年の文献では、ユーザによる総合的な「マルチショット」の説明の必要性と、XAIシステムとの関わりをパーソナライズする能力を強調している。 我々はこのユーザ中心のインタラクションをXAI Experienceと呼んでいる。 XAIエクスペリエンス作成の進歩にもかかわらず、ユーザ中心の方法で評価することは依然として困難である。 これを解決するために,ユーザ中心のXAIエクスペリエンスの品質を評価するXAI Experience Quality (XEQ) Scale(“Seek” Scale)を紹介した。 さらに、XEQは、学習、ユーティリティ、フルフィルメント、エンゲージメントの4つの評価次元で経験の質を定量化します。 これらのコントリビューションは、XAI評価の最先端を延長し、シングルショットの説明を評価するために頻繁に開発された1次元のメトリクスを越えている。 本稿では,XAIの専門家によるコンテンツ検証や,大規模パイロットスタディによる差別的,構成的検証を含む,XEQスケールの開発と検証プロセスを提案する。 パイロット実験の結果は、ユーザ中心のXAIエクスペリエンスを評価するための包括的なフレームワークとして、XEQスケールを確立する強力な証拠を提供する。

Explainable Artificial Intelligence (XAI) aims to improve the transparency of autonomous decision-making through explanations. Recent literature has emphasised users' need for holistic "multi-shot" explanations and the ability to personalise their engagement with XAI systems. We refer to this user-centred interaction as an XAI Experience. Despite advances in creating XAI experiences, evaluating them in a user-centred manner has remained challenging. To address this, we introduce the XAI Experience Quality (XEQ) Scale (pronounced "Seek" Scale), for evaluating the user-centred quality of XAI experiences. Furthermore, XEQ quantifies the quality of experiences across four evaluation dimensions: learning, utility, fulfilment and engagement. These contributions extend the state-of-the-art of XAI evaluation, moving beyond the one-dimensional metrics frequently developed to assess single-shot explanations. In this paper, we present the XEQ scale development and validation process, including content validation with XAI experts as well as discriminant and construct validation through a large-scale pilot study. Out pilot study results offer strong evidence that establishes the XEQ Scale as a comprehensive framework for evaluating user-centred XAI experiences.
翻訳日:2024-07-24 00:12:27 公開日:2024-07-21
# 説明可能な銀行失敗予測モデル:失敗リスクの低減のための非現実的説明

Explainable bank failure prediction models: Counterfactual explanations to reduce the failure risk ( http://arxiv.org/abs/2407.11089v2 )

ライセンス: Link先を確認
Seyma Gunonu, Gizem Altun, Mustafa Cavus, (参考訳) 銀行失敗予測モデルの正確性と理解性が重要である。 ロジスティック回帰のような解釈可能なモデルは、その説明可能性に好まれるが、ランダムフォレスト、サポートベクターマシン、ディープラーニングのような複雑なモデルは、高い予測性能を提供するが、説明容易性は低い。 ブラックボックスとして知られるこれらのモデルは、実用的な洞察を導き出すことを困難にしている。 この課題に対処するためには, 対実的な説明を用いることが提案されている。 これらの説明は、入力変数の変化がモデル出力を変化させる方法を示し、銀行の失敗リスクを軽減する方法を提案する。 重要な課題は、有効性、近接性、疎通性、そして妥当性を示す有用な偽物を生成するための最も効果的な方法を選択することである。 本稿は,「WhatIf」,「Multi Objective」,「Nearest Instance Counterfactual Explanation」,「WhatIf」,「Nearest Instance Counterfactual Explanation」,「WhatIf」,「WhatIf」,「WhatIf」,「WhatIf」,「Nearest Instance Counterfactual Explanation」を評価。 提案手法は, コストセンシティブな手法を中心に, 高い品質の対実説明を導出することを示す。 総合的に、多目的対実的および最も近い対実的説明法は、妥当性、近接性、および疎性に関する他の指標よりも優れており、コストセンシティブなアプローチは最も望ましい対実的説明を提供する。 これらの知見は、異なるバランス戦略と機械学習モデルにまたがる反ファクト生成手法の性能の変動を強調し、ブラックボックスバンクの故障予測モデルの有用性を高めるための貴重な戦略を提供する。

The accuracy and understandability of bank failure prediction models are crucial. While interpretable models like logistic regression are favored for their explainability, complex models such as random forest, support vector machines, and deep learning offer higher predictive performance but lower explainability. These models, known as black boxes, make it difficult to derive actionable insights. To address this challenge, using counterfactual explanations is suggested. These explanations demonstrate how changes in input variables can alter the model output and suggest ways to mitigate bank failure risk. The key challenge lies in selecting the most effective method for generating useful counterfactuals, which should demonstrate validity, proximity, sparsity, and plausibility. The paper evaluates several counterfactual generation methods: WhatIf, Multi Objective, and Nearest Instance Counterfactual Explanation, and also explores resampling methods like undersampling, oversampling, SMOTE, and the cost sensitive approach to address data imbalance in bank failure prediction in the US. The results indicate that the Nearest Instance Counterfactual Explanation method yields higher quality counterfactual explanations, mainly using the cost sensitive approach. Overall, the Multi Objective Counterfactual and Nearest Instance Counterfactual Explanation methods outperform others regarding validity, proximity, and sparsity metrics, with the cost sensitive approach providing the most desirable counterfactual explanations. These findings highlight the variability in the performance of counterfactual generation methods across different balancing strategies and machine learning models, offering valuable strategies to enhance the utility of black box bank failure prediction models.
翻訳日:2024-07-24 00:12:27 公開日:2024-07-21
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査

The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v3 )

ライセンス: Link先を確認
Nuo Chen, Yang Deng, Jia Li, (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。 当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。 データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。 この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。 目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。 関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。

This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# 制御情報は多言語テキスト生成と編集にどのように影響するか?

How Control Information Influences Multilingual Text Image Generation and Editing? ( http://arxiv.org/abs/2407.11502v2 )

ライセンス: Link先を確認
Boqiang Zhang, Zuan Gao, Yadong Qu, Hongtao Xie, (参考訳) 可読かつリアルなテキストで画像を生成することを目的とした拡散モデルにより、視覚テキスト生成は大幅に進歩した。 最近の研究は主に、拡散モデルを制御するために標準フォントのテキストイメージを使用するコントロールネットベースのフレームワークを使用している。 高品質テキスト生成における制御情報の重要性を認識し,入力符号化,異なる段階における役割,出力特性の3点からその影響を考察する。 私たちの発見は、こう示しています。 1)入力制御情報は,カニーエッジや深度マップのような従来の入力と比較して特徴がある。 2)制御情報は認知過程の異なる段階で異なる役割を担っている。 3)出力制御機能は周波数領域におけるU-Netデコーダのベースとスキップ機能とは大きく異なる。 これらの知見に基づいて,制御情報の最適化による生成品質向上を目的とした新しいフレームワークであるTextGenを提案する。 本研究では、Fourier解析を用いて入力・出力特性を改善し、関連する情報を強調し、ノイズを低減する。 さらに、制御情報の異なる役割を異なる段階で整合させるために、2段階生成フレームワークを用いる。 さらに、トレーニングのための効果的で軽量なデータセットも導入する。 本手法は、中国語と英語の両方のテキスト生成における最先端のパフォーマンスを実現する。 コードとデータセットはhttps://github.com/CyrilSterling/TextGen.orgで公開されている。

Visual text generation has significantly advanced through diffusion models aimed at producing images with readable and realistic text. Recent works primarily use a ControlNet-based framework, employing standard font text images to control diffusion models. Recognizing the critical role of control information in generating high-quality text, we investigate its influence from three perspectives: input encoding, role at different stages, and output features. Our findings reveal that: 1) Input control information has unique characteristics compared to conventional inputs like Canny edges and depth maps. 2) Control information plays distinct roles at different stages of the denoising process. 3) Output control features significantly differ from the base and skip features of the U-Net decoder in the frequency domain. Based on these insights, we propose TextGen, a novel framework designed to enhance generation quality by optimizing control information. We improve input and output features using Fourier analysis to emphasize relevant information and reduce noise. Additionally, we employ a two-stage generation framework to align the different roles of control information at different stages. Furthermore, we introduce an effective and lightweight dataset for training. Our method achieves state-of-the-art performance in both Chinese and English text generation. The code and dataset available at https://github.com/CyrilSterling/TextGen.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# 相互予測のための一様加速度運動モデル

Uniformly Accelerated Motion Model for Inter Prediction ( http://arxiv.org/abs/2407.11541v2 )

ライセンス: Link先を確認
Zhuoyuan Li, Yao Li, Chuanbo Tang, Li Li, Dong Liu, Feng Wu, (参考訳) インター予測は、ビデオ符号化における時間的冗長性を減少させる重要な技術である。 自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。 Versatile Video Coding (VVC) では、既存のインター予測手法は、通常、連続するフレーム間の均一な速度運動を仮定し、実世界の複雑な運動場をうまく扱えないような動き推定(ME)と動き補償(MC)に線形モデルを使用する。 これらの問題に対処するために,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を導入し,その組み合わせにより,時間領域における変動運動を扱うための相互予測手法を支援する。 具体的には、まずUAMMの理論について述べる。 次に,UAMMに基づくパラメータ導出手法と外挿方式を提案する。 第3に,UAMMを既存の予測モード(Merge, MMVD, CIIP)に統合し,高い予測精度を実現する。 提案手法はVVC参照ソフトウェアであるVTMバージョン12.0に実装されている。 実験の結果,VTMアンカーに比べて最大0.38%,平均0.13%のBDレート削減が可能であり,符号化/復号側では時間的複雑さがわずかに増大していることがわかった。

Inter prediction is a key technology to reduce the temporal redundancy in video coding. In natural videos, there are usually multiple moving objects with variable velocity, resulting in complex motion fields that are difficult to represent compactly. In Versatile Video Coding (VVC), existing inter prediction methods usually assume uniform speed motion between consecutive frames and use the linear models for motion estimation (ME) and motion compensation (MC), which may not well handle the complex motion fields in the real world. To address these issues, we introduce a uniformly accelerated motion model (UAMM) to exploit motion-related elements (velocity, acceleration) of moving objects between the video frames, and further combine them to assist the inter prediction methods to handle the variable motion in the temporal domain. Specifically, first, the theory of UAMM is mentioned. Second, based on that, we propose the UAMM-based parameter derivation and extrapolation schemes in the coding process. Third, we integrate the UAMM into existing inter prediction modes (Merge, MMVD, CIIP) to achieve higher prediction accuracy. The proposed method is implemented into the VVC reference software, VTM version 12.0. Experimental results show that the proposed method achieves up to 0.38% and on average 0.13% BD-rate reduction compared to the VTM anchor, under the Low-delay P configuration, with a slight increase of time complexity on the encoding/decoding side.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# Ada-KV:効率的なLLM推論のための適応的予算割当によるKVキャッシュ推定の最適化

Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference ( http://arxiv.org/abs/2407.11550v2 )

ライセンス: Link先を確認
Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou, (参考訳) 大規模言語モデルは様々な分野で優れていますが、長いシーケンス推論に必要なキーバリュー(KV)キャッシュのために効率の限界に直面しています。 最近の取り組みでは、実行中に非クリティカルなキャッシュ要素を排除し、生成品質を維持しながら、所定のメモリ予算内でのキャッシュサイズを削減しようとしている。 基本原理の再検討により,多頭部自己認識機構の事前推定出力と後推定出力とのL1距離として定量化され,高次消去損失の上限を最小化することを目的としていることが明らかとなった。 さらに,キャッシュ消去時に異なる注意点にまたがる予算を均一に割り当てるという一般的な手法は,その予算利用を阻害し,生成品質に悪影響を及ぼすことが示唆された。 これらの結果を踏まえて, 単純かつ効果的な適応型予算割当アルゴリズムを提案する。 このアルゴリズムは、理論上界の損失を最適化するだけでなく、本質的な自己認識機構のパターンと整合させることにより、現実の逸脱を減らす。 このアルゴリズムを2つの高度な手法に統合し、Ada-SnapKVとAda-Pyramidを開発した。 16のデータセットとNeedle-in-a-Haystackテストに対する大規模な評価は、どちらもさまざまなタスクのパフォーマンスを大幅に向上させることを確認した。

Large Language Models have excelled in various fields but encounter efficiency limitations due to the substantial Key-Value (KV) cache required for long-sequence inference. Recent efforts try to evict non-critical cache elements during runtime, thereby reducing cache size within given memory budgets while preserving generation quality. Our reexamination of foundational principles reveals that prevailing methods aim to minimize an upper bound of eviction loss, quantified as the L1 distance between the pre- and post-eviction outputs of multi-head self-attention mechanisms. Moreover, our analysis indicates that the common practices of uniformly assigning budgets across different attention heads during cache eviction hinder their budget utilization, negatively impacting generation quality. In light of these findings, we propose a simple yet effective adaptive budget allocation algorithm. This algorithm not only optimizes the loss upper bound in theory but also reduces the eviction loss in practice by aligning with the intrinsic patterns of self-attention mechanisms. Integrating this algorithm into two advanced methods, we develop Ada-SnapKV and Ada-Pyramid. Extensive evaluations on 16 datasets and the Needle-in-a-Haystack test confirm that they both significantly boost performance across various tasks.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# 分子トポロジープロファイル(MOLTOP) -- 分子グラフ分類のための単純で強力なベースライン

Molecular Topological Profile (MOLTOP) -- Simple and Strong Baseline for Molecular Graph Classification ( http://arxiv.org/abs/2407.12136v2 )

ライセンス: Link先を確認
Jakub Adamczyk, Wojciech Czech, (参考訳) 分子グラフ分類におけるトポロジカル記述子の有効性を再検討し、単純で強力なベースラインを設計する。 本稿では,エッジディスクリプタのヒストグラムアグリゲーションと原子番号と結合型のワンホットエンコーディングを併用した機能工学への簡単なアプローチが,ランダムフォレスト分類器と組み合わせることで,グラフニューラルネットワーク(GNN)の強力なベースラインを確立することを実証する。 新たなアルゴリズムである分子トポロジカルプロファイル(MOLTOP)は、エッジ間の中央性、調整されたランダムインデックス、SCAN構造類似度スコアを統合している。 このアプローチは、現代的なGNNと比較して、非常に競争力がある一方で、単純で、高速で、低分散で、ハイパーパラメータフリーであることを示す。 提案手法は, Open Graph Benchmark による公正な評価プロトコルを用いて, MoleculeNet データセット上で厳密に検証されている。 また、Long Range Graph Benchmarkのペプチド分類タスクにおいて、ドメインのアウトオブドメイン生成機能を示す。 11のベンチマークデータセットに対する評価では、MOLTOPの強力な識別能力が、グラフのクラスで1ドル=WLテスト、さらに3ドル=WLテストを超えていることが明らかになった。 我々の結論は、GNNドメインの進歩を正確に評価するためには、記述子ベースのベースライン(例えば、提案するもの)が依然として不可欠であるということだ。

We revisit the effectiveness of topological descriptors for molecular graph classification and design a simple, yet strong baseline. We demonstrate that a simple approach to feature engineering - employing histogram aggregation of edge descriptors and one-hot encoding for atomic numbers and bond types - when combined with a Random Forest classifier, can establish a strong baseline for Graph Neural Networks (GNNs). The novel algorithm, Molecular Topological Profile (MOLTOP), integrates Edge Betweenness Centrality, Adjusted Rand Index and SCAN Structural Similarity score. This approach proves to be remarkably competitive when compared to modern GNNs, while also being simple, fast, low-variance and hyperparameter-free. Our approach is rigorously tested on MoleculeNet datasets using fair evaluation protocol provided by Open Graph Benchmark. We additionally show out-of-domain generation capabilities on peptide classification task from Long Range Graph Benchmark. The evaluations across eleven benchmark datasets reveal MOLTOP's strong discriminative capabilities, surpassing the $1$-WL test and even $3$-WL test for some classes of graphs. Our conclusion is that descriptor-based baselines, such as the one we propose, are still crucial for accurately assessing advancements in the GNN domain.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# エネルギーを超える: 電報、充電など

Beyond Energy: Teleporting Current, Charge, and More ( http://arxiv.org/abs/2407.12359v2 )

ライセンス: Link先を確認
Kazuki Ikeda, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation)のホメージとして、このアイデアをエネルギーに限らず任意の物理観測値に一般化し、活性化(teleported)量の厳密な上限を証明する。 このプロトコルの本質は、量子多体系の絡み合った基底状態に対する量子フィードバック制御である。 この概念を実証するために、(1+1)次元カイラルディラック系を探索し、電流と電荷のプロトコルを実行する。 最も重要な結果の1つは、制御操作を1つのローカルサイトにのみ適用した後、システム全体にわたる長距離相関の生成である。 その結果、誘導電荷感受性は、当初電荷を持たないモデルにもかかわらず、位相図を完全に再構成する。 さらに, 吸着イオンと中性原子を用いて実験的に確認できる, フィードバック制御操作によって誘導される新規キラルダイナミクスの活性化も見いだす。

As an homage to Quantum Energy Teleportation, we generalize the idea to arbitrary physical observables, not limited to energy, and prove a rigorous upper bound on the activated ("teleported") quantity. The essence of this protocol is a quantum feedback control with respect to the entangled ground state of a quantum many-body system. To demonstrate the concept, we explore a (1+1)-dimensional chiral Dirac system and execute the protocol for the electric current and charge. One of the most significant results is the creation of long-range correlations across the system after applying control operations only to one local site. Consequently but surprisingly, the induced charge susceptibility fully reconstructs the phase diagram, despite the model initially having no charge. Moreover, we find an activation of novel chiral dynamics induced by feedback control operations, which can be experimentally confirmed using trapped ions and neutral atoms.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# StuGPTViz:学生とチャットGPTのインタラクションを理解するためのビジュアル分析手法

StuGPTViz: A Visual Analytics Approach to Understand Student-ChatGPT Interactions ( http://arxiv.org/abs/2407.12423v2 )

ライセンス: Link先を確認
Zixin Chen, Jiachen Wang, Meng Xia, Kento Shigyo, Dingdong Liu, Rong Zhang, Huamin Qu, (参考訳) 大規模言語モデル(LLM)、特にChatGPTの教育への統合は、革新的な会話学習手法を導入することによって、学生の学習経験に革命をもたらす可能性がある。 生徒がChatGPTの能力を完全に活用するためには、教師にとってChatGPTとの相互作用パターンの理解が不可欠である。 しかし、この取り組みは、学生とチャットGPTの会話に焦点を絞ったデータセットが存在しないことと、会話内の進化的相互作用パターンを特定し分析する複雑さのため、困難である。 これらの課題に対処するため、1学期以上の修士レベルのデータ可視化コースにおいて、ChatGPTと対話する48人の学生の会話データを収集した。 次に,学習者の相互作用パターンをChatGPTに分類するために,認知レベルとテーマ分析の文献に基づくコーディング手法を開発した。 さらに、学生のプロンプトの時間的パターンとChatGPTの応答の質を複数の尺度で追跡・比較する視覚分析システムStuGPTVizを提案する。 我々は,6人のデータ可視化インストラクターと3人のケーススタディとのエキスパートインタビューを通じて,システムの有効性を検証した。 その結果、StuGPTVizがChatGPTの教育的価値に対する教育者の洞察を高める能力があることが確認された。 また、視覚分析を教育に適用し、AIによるパーソナライズされた学習ソリューションを開発する研究機会の可能性についても論じる。

The integration of Large Language Models (LLMs), especially ChatGPT, into education is poised to revolutionize students' learning experiences by introducing innovative conversational learning methodologies. To empower students to fully leverage the capabilities of ChatGPT in educational scenarios, understanding students' interaction patterns with ChatGPT is crucial for instructors. However, this endeavor is challenging due to the absence of datasets focused on student-ChatGPT conversations and the complexities in identifying and analyzing the evolutional interaction patterns within conversations. To address these challenges, we collected conversational data from 48 students interacting with ChatGPT in a master's level data visualization course over one semester. We then developed a coding scheme, grounded in the literature on cognitive levels and thematic analysis, to categorize students' interaction patterns with ChatGPT. Furthermore, we present a visual analytics system, StuGPTViz, that tracks and compares temporal patterns in student prompts and the quality of ChatGPT's responses at multiple scales, revealing significant pedagogical insights for instructors. We validated the system's effectiveness through expert interviews with six data visualization instructors and three case studies. The results confirmed StuGPTViz's capacity to enhance educators' insights into the pedagogical value of ChatGPT. We also discussed the potential research opportunities of applying visual analytics in education and developing AI-driven personalized learning solutions.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# EvSign: ストリームイベントによる手話認識と翻訳

EvSign: Sign Language Recognition and Translation with Streaming Events ( http://arxiv.org/abs/2407.12593v2 )

ライセンス: Link先を確認
Pengyu Zhang, Hao Yin, Zeren Wang, Wenyue Chen, Shengming Li, Dong Wang, Huchuan Lu, Xu Jia, (参考訳) 手話は難聴者にとって最も効果的なコミュニケーションツールの1つである。 既存の作業の多くはRGBビデオにおける手話タスクのパフォーマンス向上に重点を置いており、動きのぼやけた手の動きやテクスチャ付き手話の出現など、劣化した記録条件に悩まされる可能性がある。 バイオインスパイアされたイベントカメラは、高速で明るさの変化を非同期に捉え、動的手の動きを自然に知覚し、手話のタスクに豊富な手作業の手がかりを与える。 本研究では,連続手話認識(CSLR)と手話翻訳(SLT)におけるイベントカメラの可能性を探究する。 この研究を促進するために、まず、グロスと音声言語アノテーションの両方を用いて、これらのタスクのためのイベントベースのベンチマークEvSignを収集する。 EvSignデータセットは、かなりの量の高品質なイベントストリームと、グロスと単語の広範な語彙を提供し、手話タスクの開発を容易にする。 さらに,イベントベースのSLRとSLTタスクのための効率的なトランスフォーマーベースのフレームワークを提案し,ストリーミングイベントの利点をフル活用する。 スパースバックボーンはスパースイベントから視覚的特徴を抽出するために使用される。 次に, 時間的コヒーレンスを局所トークン融合と光沢を考慮した時間的アグリゲーションモジュールを用いて効果的に活用する。 シミュレーション(PHOENIX14T)とEvSignデータセットの両方で大規模な実験結果が報告されている。 提案手法は,ビデオあたり0.34%の計算コスト (0.84G FLOPS) と44.2%のネットワークパラメータを持つ既存の最先端手法に対して良好に機能する。 このプロジェクトはhttps://zhang-pengyu.github.io/EVSign.comで入手できる。

Sign language is one of the most effective communication tools for people with hearing difficulties. Most existing works focus on improving the performance of sign language tasks on RGB videos, which may suffer from degraded recording conditions, such as fast movement of hands with motion blur and textured signer's appearance. The bio-inspired event camera, which asynchronously captures brightness change with high speed, could naturally perceive dynamic hand movements, providing rich manual clues for sign language tasks. In this work, we aim at exploring the potential of event camera in continuous sign language recognition (CSLR) and sign language translation (SLT). To promote the research, we first collect an event-based benchmark EvSign for those tasks with both gloss and spoken language annotations. EvSign dataset offers a substantial amount of high-quality event streams and an extensive vocabulary of glosses and words, thereby facilitating the development of sign language tasks. In addition, we propose an efficient transformer-based framework for event-based SLR and SLT tasks, which fully leverages the advantages of streaming events. The sparse backbone is employed to extract visual features from sparse events. Then, the temporal coherence is effectively utilized through the proposed local token fusion and gloss-aware temporal aggregation modules. Extensive experimental results are reported on both simulated (PHOENIX14T) and EvSign datasets. Our method performs favorably against existing state-of-the-art approaches with only 0.34% computational cost (0.84G FLOPS per video) and 44.2% network parameters. The project is available at https://zhang-pengyu.github.io/EVSign.
翻訳日:2024-07-24 00:02:42 公開日:2024-07-21
# エリート大学へのLCMのバイアス評価--ペルソナによる探究

Evaluation of LLMs Biases Towards Elite Universities: A Persona-Based Exploration ( http://arxiv.org/abs/2407.12801v2 )

ライセンス: Link先を確認
Shailja Gupta, Rajesh Ranjan, (参考訳) エリート大学は、学生だけでなく、素晴らしい才能を身につけているトップ雇用主にとっても、夢の目的地だ。 トップクラスの大学について聞くと、まず最初に思い浮かぶのは、その学術的厳格さ、名声、そして非常に成功した卒業生だ。 しかし、社会全体は一部のエリート大学に代表されるだけでなく、いくつかの大学に代表される。 正式な教育を受けなくても、大企業を設立する例はいくつかあります。 有能な人でも、資源の制約がいくつかあるため、上位のエリート大学には行けない例は様々である。 候補者を募集するためには、トップテック企業でよく代表されるいくつかのエリート大学の候補者を見る。 しかし、我々の研究で、LSMはそれを表現するためにオーバーボードしていることがわかった。 本研究は,技術系専門職にペルソナを産み出す際に,一般のLLMがエリート大学に偏見を呈するかどうかを考察する。 我々は、GPT-3.5、Gemini、Claude 3 Sonnetの教育的背景予測とLinkedInの実際のデータを比較するために、新しいペルソナベースのアプローチを採用した。 この調査では、Microsoft、Meta、Googleのさまざまな役割に焦点が当てられ、製品担当副社長、エンジニアリングディレクタ、ソフトウェアエンジニアなどが含まれていた。 我々は3つのLSMで432のペルソナを生成し、LinkedInのデータと比較し、これらのペルソナの中でエリート大学(スタンフォード、MIT、UCバークレー、ハーバード大学)の頻度を分析した。 その結果、LLMはエリート大学を著しく超越しており、これらの機関を特徴とする人格は72.45%であり、実際のLinkedInのデータでは8.56%に過ぎなかった。 ChatGPT 3.5は最も高いバイアスを示し、続いてClaude Sonnet 3が続いた。 この研究は、LLMにおける教育バイアスに対処する必要性を強調し、AIによる採用プロセスにおけるそのようなバイアスを軽減するための戦略を提案する。

Elite universities are a dream destination for not just students but also top employers who get a supply of amazing talents. When we hear about top universities, the first thing that comes to mind is their academic rigor, prestigious reputation, and highly successful alumni. However, society at large is not just represented by a few elite universities, but several others. We have seen several examples where many, even without formal education, built big businesses. There are various instances in which several people, however talented, couldn't make it to top elite universities because of several resource constraints. For recruitment of candidates, we do see candidates from a few elite universities well represented in top technology companies. However, we found during our study that LLMs go overboard in representing that. This study investigates whether popular LLMs exhibit bias towards elite universities when generating personas for technology industry professionals. We employed a novel persona-based approach to compare the educational background predictions of GPT-3.5, Gemini, and Claude 3 Sonnet with actual data from LinkedIn. The study focused on various roles at Microsoft, Meta, and Google, including VP Product, Director of Engineering, and Software Engineer. We generated 432 personas across the three LLMs and analyzed the frequency of elite universities (Stanford, MIT, UC Berkeley, and Harvard) in these personas compared to LinkedIn data. Results showed that LLMs significantly overrepresented elite universities, with 72.45% of generated personas featuring these institutions, compared to only 8.56% in the actual LinkedIn data. ChatGPT 3.5 exhibited the highest bias, followed by Claude Sonnet 3, while Gemini performed best. This research highlights the need to address educational bias in LLMs and suggests strategies for mitigating such biases in AI-driven recruitment processes.
翻訳日:2024-07-23 22:03:21 公開日:2024-07-21
# INTELLECT:サイバー脅威検出を異種コンピューティング環境に適用する

INTELLECT: Adapting Cyber Threat Detection to Heterogeneous Computing Environments ( http://arxiv.org/abs/2407.13043v2 )

ライセンス: Link先を確認
Simone Magnani, Liubov Nedoshivina, Roberto Doriguzzi-Corin, Stefano Braghin, Domenico Siracusa, (参考訳) クラウドコンピューティング、エッジ、IoTの普及により、サイバー脅威に対する攻撃面が拡大した。 これは、ハードウェアとソフトウェア構成の異なる、しばしば安全でない異種デバイスが大規模にデプロイされているためである。 これらのデバイスの多様性は、様々な潜在的な攻撃方法を引き付け、個々の組織があらゆる脅威に関する包括的な知識を持つことを困難にしている。 この文脈では、フェデレートラーニングを用いて、異なるパーティのデータを組み合わせることで、強力な異常検出モデルを開発することができる。 FLはMLベースのIDSの協調開発を可能にするため、ネットワークトラフィックやセンサ読み取りといった機密性の高いトレーニングデータを公開する必要がなくなる。 しかし、結果のモデルのデプロイは、限られた容量のターゲットデバイスで利用可能なものや、すでに他の操作に割り当てられているものよりも多くの計算リソースを必要とする可能性があるため、難しい場合がある。 トレーニングデータの大部分は、FLプロセスの他の参加者にプライベートであるため、トレーニングデバイス固有のモデルは、組織にとって実現不可能である。 これらの課題に対処するため,本論文では,特徴選択,モデルプルーニング,微調整技術を統合した新しいソリューションであるINTELLECTを導入し,事前学習したMLモデルとIDSの構成を動的に適応する結合型パイプラインを提案する。 実験的な評価を通じて,MLモデルを組織デバイスの特定のリソース制約に合わせることによるINTELLECTのアプローチの利点を分析し,特徴選択,プルーニング,微調整操作による交通分類精度の変動を測定する。 さらに, 知識蒸留技術を微調整中に組み込むことの利点を実証し, 歴史的知識を保存しつつ, ローカルネットワークパターンに一貫した適応を可能にする。

The widespread adoption of cloud computing, edge, and IoT has increased the attack surface for cyber threats. This is due to the large-scale deployment of often unsecured, heterogeneous devices with varying hardware and software configurations. The diversity of these devices attracts a wide array of potential attack methods, making it challenging for individual organizations to have comprehensive knowledge of all possible threats. In this context, powerful anomaly detection models can be developed by combining data from different parties using Federated Learning. FL enables the collaborative development of ML-based IDSs without requiring the parties to disclose sensitive training data, such as network traffic or sensor readings. However, deploying the resulting models can be challenging, as they may require more computational resources than those available on target devices with limited capacity or already allocated for other operations. Training device-specific models is not feasible for an organization because a significant portion of the training data is private to other participants in the FL process. To address these challenges, this paper introduces INTELLECT, a novel solution that integrates feature selection, model pruning, and fine-tuning techniques into a cohesive pipeline for the dynamic adaptation of pre-trained ML models and configurations for IDSs. Through empirical evaluation, we analyze the benefits of INTELLECT's approach in tailoring ML models to the specific resource constraints of an organization's devices and measure variations in traffic classification accuracy resulting from feature selection, pruning, and fine-tuning operations. Additionally, we demonstrate the advantages of incorporating knowledge distillation techniques while fine-tuning, enabling the ML model to consistently adapt to local network patterns while preserving historical knowledge.
翻訳日:2024-07-23 22:03:21 公開日:2024-07-21
# HPPP:Halpern-type Preconditioned Proximal Point Algorithmsと画像復元への応用

HPPP: Halpern-type Preconditioned Proximal Point Algorithms and Applications to Image Restoration ( http://arxiv.org/abs/2407.13120v2 )

ライセンス: Link先を確認
Shuchang Zhang, Hui Zhang, Hongxia Wang, (参考訳) Preconditioned Proximal Point (PPP)アルゴリズムは、画像復元におけるメソッド分割のための統一的なフレームワークを提供する。 RED(Regularization by Denoising)とPnP(Plug-and-Play)による最近の進歩は、この領域で最先端のパフォーマンスを実現し、意味のある特定のソリューションの必要性を強調している。 しかし、退化 PPP アルゴリズムは典型的には無限次元ヒルベルト空間において弱収束を示し、不確実な解をもたらす。 この問題に対処するため,Halpernイテレーションの強い収束特性を利用して特定の解を実現するHalpern-type Preconditioned Proximal Point (HPPP)アルゴリズムを提案する。 勾配REDで定義された暗黙の正則化に基づいて,HPPPを経由したDenoisingによるグラディエント正規化(Gradient Regularization)をGraRED-HP3アルゴリズムによりさらに導入する。 HPPPアルゴリズムは、おもちゃの例によって特定の解に規則性が収束していることが示されている。 また,GraRED-HP3の有効性を検証し,Chambolle-Pock (CP), PPP, RED, RED-PROなどの古典的手法を克服した。

Preconditioned Proximal Point (PPP) algorithms provide a unified framework for splitting methods in image restoration. Recent advancements with RED (Regularization by Denoising) and PnP (Plug-and-Play) priors have achieved state-of-the-art performance in this domain, emphasizing the need for a meaningful particular solution. However, degenerate PPP algorithms typically exhibit weak convergence in infinite-dimensional Hilbert space, leading to uncertain solutions. To address this issue, we propose the Halpern-type Preconditioned Proximal Point (HPPP) algorithm, which leverages the strong convergence properties of Halpern iteration to achieve a particular solution. Based on the implicit regularization defined by gradient RED, we further introduce the Gradient REgularization by Denoising via HPPP called GraRED-HP3 algorithm. The HPPP algorithm is shown to have the regularity converging to a particular solution by a toy example. Additionally, experiments in image deblurring and inpainting validate the effectiveness of GraRED-HP3, showing it surpasses classical methods such as Chambolle-Pock (CP), PPP, RED, and RED-PRO.
翻訳日:2024-07-23 22:03:21 公開日:2024-07-21
# トレーディング・デビル・ファイナル:株式市場によるバックドア攻撃とベイズ最適化

Trading Devil Final: Backdoor attack via Stock market and Bayesian Optimization ( http://arxiv.org/abs/2407.14573v1 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 生成人工知能の出現以来、あらゆる企業や研究者が、商業的であろうとなかろうと、独自の生成モデルの開発を急いできた。 これらの強力な新ツールのユーザ数を考えると、LLM(大規模言語モデル)が学習した時に何が起こるかを説明するための、本質的に検証可能な方法は今のところありません。 例えば,Webから収集した膨大な量のデータに頼って高速かつ効率的な結果を得る自動音声認識システムでは,音響データ中毒に基づくMarketBackFinal 2.0と呼ばれるバックドアアタックが開発され,MarketBackFinal 2.0は主に現代の株式市場モデルに基づいている。 LLMに依存する可能性のある音声ベースのトランスフォーマーの脆弱性を示す。

Since the advent of generative artificial intelligence, every company and researcher has been rushing to develop their own generative models, whether commercial or not. Given the large number of users of these powerful new tools, there is currently no intrinsically verifiable way to explain from the ground up what happens when LLMs (large language models) learn. For example, those based on automatic speech recognition systems, which have to rely on huge and astronomical amounts of data collected from all over the web to produce fast and efficient results, In this article, we develop a backdoor attack called MarketBackFinal 2.0, based on acoustic data poisoning, MarketBackFinal 2.0 is mainly based on modern stock market models. In order to show the possible vulnerabilities of speech-based transformers that may rely on LLMs.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-21
# Answer, Assemble, Ace: トランスフォーマーが複数の質問に答える方法を理解する

Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions ( http://arxiv.org/abs/2407.15018v1 )

ライセンス: Link先を確認
Sarah Wiegreffe, Oyvind Tafjord, Yonatan Belinkov, Hannaneh Hajishirzi, Ashish Sabharwal, (参考訳) MCQA(Multiple-choice Question answering)は、主要なベンチマークによってテストされる高性能トランスフォーマー言語モデルのキーコンピテンスである。 しかし、最近のエビデンスでは、特にタスク形式がわずかに多様化している場合(例えば、答え選択順序をシャッフルするなど)に、モデルは非常に幅広い性能を持つ可能性があることが示されている。 成功したモデルは、どのようにフォーマットされたMCQAを実行するのか? 我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。 特定の解答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが判明した。 後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。 さらに、異なるモデルが代替シンボルにどのように適応するかの相違も明らかにした。 最後に,モデルがMCQAを学習した時点で,モデルエラーのソースをピンポイントに切り離すことができることを示すとともに,語彙空間における応答シンボルトークンの分離が不可能であることを示す。

Multiple-choice question answering (MCQA) is a key competence of performant transformer language models that is tested by mainstream benchmarks. However, recent evidence shows that models can have quite a range of performance, particularly when the task format is diversified slightly (such as by shuffling answer choice order). In this work we ask: how do successful models perform formatted MCQA? We employ vocabulary projection and activation patching methods to localize key hidden states that encode relevant information for predicting the correct answer. We find that prediction of a specific answer symbol is causally attributed to a single middle layer, and specifically its multi-head self-attention mechanism. We show that subsequent layers increase the probability of the predicted answer symbol in vocabulary space, and that this probability increase is associated with a sparse set of attention heads with unique roles. We additionally uncover differences in how different models adjust to alternative symbols. Finally, we demonstrate that a synthetic task can disentangle sources of model error to pinpoint when a model has learned formatted MCQA, and show that an inability to separate answer symbol tokens in vocabulary space is a property of models unable to perform formatted MCQA tasks.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# 構造表現によるインクリメンタル要約の強化

Enhancing Incremental Summarization with Structured Representations ( http://arxiv.org/abs/2407.15021v1 )

ライセンス: Link先を確認
EunJeong Hwang, Yichao Zhou, James Bradley Wendt, Beliz Gunel, Nguyen Vo, Jing Xie, Sandeep Tata, (参考訳) 大規模言語モデル(LLM)は、広範囲な入力コンテキストの処理に苦しむことが多く、冗長、不正確、不整合的な要約につながることがある。 最近の手法では、非構造化メモリを用いてこれらのコンテキストを漸進的に処理しているが、処理された非構造化データの量のために情報過負荷に悩まされている。 本研究では,2つの公開データセット間での要約性能を40%から14%向上させる構造化知識表現(GU_{json}$)を導入する。 最も注目すべきは、新しいソースごとに構造化メモリを再生するのではなく、動的にこれらの表現を新しい情報で更新または拡張するChain-of-Key戦略(CoK_{json}$)を提案することである。 この方法は、データセットの7%と4%のパフォーマンスをさらに向上させる。

Large language models (LLMs) often struggle with processing extensive input contexts, which can lead to redundant, inaccurate, or incoherent summaries. Recent methods have used unstructured memory to incrementally process these contexts, but they still suffer from information overload due to the volume of unstructured data handled. In our study, we introduce structured knowledge representations ($GU_{json}$), which significantly improve summarization performance by 40% and 14% across two public datasets. Most notably, we propose the Chain-of-Key strategy ($CoK_{json}$) that dynamically updates or augments these representations with new information, rather than recreating the structured memory for each new source. This method further enhances performance by 7% and 4% on the datasets.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# AsyCo:部分ラベル学習のための非対称デュアルタスク協調学習モデル

AsyCo: An Asymmetric Dual-task Co-training Model for Partial-label Learning ( http://arxiv.org/abs/2407.15036v1 )

ライセンス: Link先を確認
Beibei Li, Yiyuan Zheng, Beihong Jin, Tao Xiang, Haobo Wang, Lei Feng, (参考訳) 部分ラベル学習(Partial-Label Learning, PLL)は、弱い教師付き学習の典型的な問題であり、各トレーニングインスタンスに候補ラベルのセットをアノテートする。 自己学習型PLLモデルは、最先端のパフォーマンスを実現するが、誤って曖昧なインスタンスによって生じるエラー蓄積問題に悩まされる。 コトレーニングは2つのネットワークを同時にトレーニングして相互に相互作用させることによってこの問題を軽減することができるが、既存のコトレーニング手法のほとんどは、同じタスクで2つの構造的に同一のネットワークを訓練する。 そこで本稿では,2つのネットワーク,すなわちあいまいなネットワークと補助的なネットワークを強制する非対称なデュアルタスク協調学習型PLLモデルAsyCoを提案する。 具体的には、ラベル信頼を学習するために自己学習のPLLタスクで学習し、補助ネットワークは教師付き学習パラダイムで訓練し、学習されたラベル信頼に基づいて構築されたノイズの多いペアワイド類似ラベルから学習する。 最後に, 誤り蓄積問題を情報蒸留と信頼性改善により緩和する。 AsyCoの有効性を実証するため、一様および一様および一様にラベル付けされた部分ラベル付きデータセットの広範な実験を行った。 コードはhttps://github.com/libeibeics/AsyCo.comで入手できる。

Partial-Label Learning (PLL) is a typical problem of weakly supervised learning, where each training instance is annotated with a set of candidate labels. Self-training PLL models achieve state-of-the-art performance but suffer from error accumulation problem caused by mistakenly disambiguated instances. Although co-training can alleviate this issue by training two networks simultaneously and allowing them to interact with each other, most existing co-training methods train two structurally identical networks with the same task, i.e., are symmetric, rendering it insufficient for them to correct each other due to their similar limitations. Therefore, in this paper, we propose an asymmetric dual-task co-training PLL model called AsyCo, which forces its two networks, i.e., a disambiguation network and an auxiliary network, to learn from different views explicitly by optimizing distinct tasks. Specifically, the disambiguation network is trained with self-training PLL task to learn label confidence, while the auxiliary network is trained in a supervised learning paradigm to learn from the noisy pairwise similarity labels that are constructed according to the learned label confidence. Finally, the error accumulation problem is mitigated via information distillation and confidence refinement. Extensive experiments on both uniform and instance-dependent partially labeled datasets demonstrate the effectiveness of AsyCo. The code is available at https://github.com/libeibeics/AsyCo.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# 幾何学的光キャストによる自己学習室レイアウト推定

Self-training Room Layout Estimation via Geometry-aware Ray-casting ( http://arxiv.org/abs/2407.15041v1 )

ライセンス: Link先を確認
Bolivar Solarte, Chin-Hsuan Wu, Jin-Cheng Jhang, Jonathan Lee, Yi-Hsuan Tsai, Min Sun, (参考訳) 本稿では,未表示のシーンにおける室内レイアウト推定モデルのための幾何学的自己学習フレームワークを提案する。 提案手法では,複数位置からの複数の推定値の集計にレイキャストの定式化を用いて,自己学習のための信頼度の高い擬似ラベルの計算を可能にする。 特に,光線キャスティング手法では,すべての光線方向に沿って多視点の整合性を実現し,幾何学的推論のためにカメラビューとの空間的近接性を優先する。 その結果,マンハッタン・ワールドや平面室壁といった仮定に頼らずに,複雑な部屋のジオメトリーや閉鎖壁を効果的に扱うことができた。 合成および実世界のシナリオを含む公開データセットの評価は、人間のアノテーションを使わずに現在の最先端のレイアウトモデルに大幅な改善が示されている。

In this paper, we introduce a novel geometry-aware self-training framework for room layout estimation models on unseen scenes with unlabeled data. Our approach utilizes a ray-casting formulation to aggregate multiple estimates from different viewing positions, enabling the computation of reliable pseudo-labels for self-training. In particular, our ray-casting approach enforces multi-view consistency along all ray directions and prioritizes spatial proximity to the camera view for geometry reasoning. As a result, our geometry-aware pseudo-labels effectively handle complex room geometries and occluded walls without relying on assumptions such as Manhattan World or planar room walls. Evaluation on publicly available datasets, including synthetic and real-world scenarios, demonstrates significant improvements in current state-of-the-art layout models without using any human annotation.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# MedSAGa:SAMにおけるグラディエント低ランク投影を用いた医用画像分割

MedSAGa: Few-shot Memory Efficient Medical Image Segmentation using Gradient Low-Rank Projection in SAM ( http://arxiv.org/abs/2407.15042v1 )

ライセンス: Link先を確認
Navyansh Mahla, Annie D'souza, Shubh Gupta, Bhavik Kanekar, Kshitij Sharad Jadhav, (参考訳) 医用画像セグメンテーションにおける大規模モデルの応用には、専門家によってキュレーションされた大量の細かな注釈付きデータと高い計算資源が要求される。 本研究では,Galore MedSAGaを用いた医用セグメンテーションモデルを提案し,SAMの画像エンコーダのパラメータにグラディエントローランド投影ガロアを適用することにより,メモリ効率のよい数ショットの医用画像セグメンテーションを実現する。 一方、プロンプトエンコーダとマスクデコーダの重み付けは、標準オプティマイザを使用して全パラメータの微調整を行う。 我々はさらに、MedSAGaの数発の学習能力を評価し、そのメモリ効率と複数の標準的な医用画像セグメンテーションデータセットにおけるセグメンテーション性能について報告する。 LoRAファインチューニングSAM(SAMed)やDAE-Formerなど,いくつかのベースラインモデルと比較した。 MedSAGaのGPUメモリ消費がベースラインモデルよりも著しく小さく、医療画像セグメンテーションの最先端(SOTA)モデルよりも平均メモリ効率が66%向上していることを示した。 メモリ要件が大幅に低く、SOTAに匹敵する組み合わせにより、MedSAGaはリソース制約された設定に配置するための最適なソリューションとして、医療画像のセグメンテーション位置を数ショットで学習する。

The application of large-scale models in medical image segmentation demands substantial quantities of meticulously annotated data curated by experts along with high computational resources, both of which are challenges in resource-poor settings. In this study, we present the Medical Segment Anything Model with Galore MedSAGa where we adopt the Segment Anything Model (SAM) to achieve memory-efficient, few-shot medical image segmentation by applying Gradient Low-Rank Projection GaLore to the parameters of the image encoder of SAM. Meanwhile, the weights of the prompt encoder and mask decoder undergo full parameter fine-tuning using standard optimizers. We further assess MedSAGa's few-shot learning capabilities, reporting on its memory efficiency and segmentation performance across multiple standard medical image segmentation datasets. We compare it with several baseline models, including LoRA fine-tuned SAM (SAMed) and DAE-Former. Experiments across multiple datasets and these baseline models with different number of images for fine tuning demonstrated that the GPU memory consumption of MedSAGa is significantly less than that of the baseline models, achieving an average memory efficiency of 66% more than current state-of-the-art (SOTA) models for medical image segmentation. The combination of substantially lower memory requirements and comparable to SOTA results in few-shot learning for medical image segmentation positions MedSAGa as an optimal solution for deployment in resource-constrained settings.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# 前向きモード自動微分によるデータ駆動周波数安定制約の効率的なサンプリング

Efficient Sampling for Data-Driven Frequency Stability Constraint via Forward-Mode Automatic Differentiation ( http://arxiv.org/abs/2407.15045v1 )

ライセンス: Link先を確認
Wangkun Xu, Qian Chen, Pudong Ge, Zhongda Chu, Fei Teng, (参考訳) 演算問題における周波数安定性の制約を符号化することは、その複雑なダイナミクスのために困難である。 近年、オンライン最適化の制約としてトレーニングされたモデルを組み込んで、安定性基準をオフラインで学習するためのデータ駆動アプローチが提案されている。 しかし、定常動作点のランダムサンプリングは、バランスの取れた安定なサンプルと不安定なサンプルを生成する上で、より効率的ではない。 一方、そのようなモデルの性能はトレーニングデータセットの品質に強く依存している。 本研究では,この研究ギャップを観測し,前方モード自動微分による勾配データ生成手法を提案する。 この方法では、元の動的システムは、元の状態の感度のダイナミックさを表す新しい状態で拡張され、任意のODEソルバを一度に呼び出すことで解決できる。 各種周波数安定性基準の勾配の矛盾を補うために, 他方の通常の平面に勾配を投影することにより勾配手術を提案する。 最後に,提案したサンプリングアルゴリズムの性能を,展開しない差分と有限差分との比較で示す。 すべてのコードはhttps://github.com/xuwkk/ frequency_sample_adで公開されている。

Encoding frequency stability constraints in the operation problem is challenging due to its complex dynamics. Recently, data-driven approaches have been proposed to learn the stability criteria offline with the trained model embedded as a constraint of online optimization. However, random sampling of stationary operation points is less efficient in generating balanced stable and unstable samples. Meanwhile, the performance of such a model is strongly dependent on the quality of the training dataset. Observing this research gap, we propose a gradient-based data generation method via forward-mode automatic differentiation. In this method, the original dynamic system is augmented with new states that represent the dynamic of sensitivities of the original states, which can be solved by invoking any ODE solver for a single time. To compensate for the contradiction between the gradient of various frequency stability criteria, gradient surgery is proposed by projecting the gradient on the normal plane of the other. In the end, we demonstrate the superior performance of the proposed sampling algorithm, compared with the unrolling differentiation and finite difference. All codes are available at https://github.com/xuwkk/frequency_sample_ad.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# ビデオテキストLLMにおけるグラウンドニング改善のためのオーディオ視覚訓練

Audio-visual training for improved grounding in video-text LLMs ( http://arxiv.org/abs/2407.15046v1 )

ライセンス: Link先を確認
Shivprasad Sagare, Hemachandran S, Kinshuk Sarabhai, Prashant Ullegaddi, Rajeshkumar SA, (参考訳) マルチモーダルLLMの最近の進歩により、重要なビデオ関連タスクに対して、いくつかのビデオテキストモデルが提案されている。 しかし、以前の作品のほとんどは視覚入力のみをサポートしており、基本的にはビデオ内の音声信号をミュートしている。 音声入力と視覚入力の両方をサポートするモデルはほとんどなく、音声データに対して明示的に訓練されていない。 したがって、音声が映像理解に与える影響は明らかにされていない。 そこで本研究では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。 我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。 視覚のみのベースラインや、他のオーディオ・ビジュアルモデルと比較すると、オーディオデータのトレーニングは、応答のグラウンド化の改善につながることが示される。 音声-視覚モデルのより良い評価のために、人間の注釈付きベンチマークデータセットと、音声-認識された質問応答ペアもリリースする。

Recent advances in multimodal LLMs, have led to several video-text models being proposed for critical video-related tasks. However, most of the previous works support visual input only, essentially muting the audio signal in the video. Few models that support both audio and visual input, are not explicitly trained on audio data. Hence, the effect of audio towards video understanding is largely unexplored. To this end, we propose a model architecture that handles audio-visual inputs explicitly. We train our model with both audio and visual data from a video instruction-tuning dataset. Comparison with vision-only baselines, and other audio-visual models showcase that training on audio data indeed leads to improved grounding of responses. For better evaluation of audio-visual models, we also release a human-annotated benchmark dataset, with audio-aware question-answer pairs.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# フレームスコーリング機構と適応サンプリングによるエンドツーエンドビデオ質問応答

End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling ( http://arxiv.org/abs/2407.15047v1 )

ライセンス: Link先を確認
Jianxin Liang, Xiaojun Meng, Yueqian Wang, Chang Liu, Qun Liu, Dongyan Zhao, (参考訳) Video Question Answering (VideoQA)は、マルチメディア処理分野における挑戦的なフロンティアとして現れ、視覚とテキストのモダリティの複雑な相互作用を必要としている。 フレームを一様にサンプリングしたり、フレームレベルの視覚的特徴を無差別に集約したりすることは、ビデオQAを適切に実行するために、ビデオのニュアンスと関連するコンテキストをキャプチャするのに不足することが多い。 これらの問題を緩和するために,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。 本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。 さらに,フレームセレクタと応答生成器のエンドツーエンドトレーニングを容易にする適応型フレームサンプリング機構を設計する。 NExT-QA(+0.3%)、STAR(+0.9%)、TVQA(+1.0%)にまたがる新しいSOTAを確立することで、我々のモデルは既存のビデオQA法より一貫して優れていることを示した。 さらに,定量的および定性的な分析により,各設計選択の有効性を検証した。

Video Question Answering (VideoQA) has emerged as a challenging frontier in the field of multimedia processing, requiring intricate interactions between visual and textual modalities. Simply uniformly sampling frames or indiscriminately aggregating frame-level visual features often falls short in capturing the nuanced and relevant contexts of videos to well perform VideoQA. To mitigate these issues, we propose VidF4, a novel VideoQA framework equipped with tailored frame selection strategy for effective and efficient VideoQA. We propose three frame-scoring mechanisms that consider both question relevance and inter-frame similarity to evaluate the importance of each frame for a given question on the video. Furthermore, we design a differentiable adaptive frame sampling mechanism to facilitate end-to-end training for the frame selector and answer generator. The experimental results across three widely adopted benchmarks demonstrate that our model consistently outperforms existing VideoQA methods, establishing a new SOTA across NExT-QA (+0.3%), STAR (+0.9%), and TVQA (+1.0%). Furthermore, through both quantitative and qualitative analyses, we validate the effectiveness of each design choice.
翻訳日:2024-07-23 19:38:36 公開日:2024-07-21
# Arondight: 自動生成されたマルチモーダルジェイルブレイクプロンプトで大規模ビジョン言語モデルと組む

Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts ( http://arxiv.org/abs/2407.15050v1 )

ライセンス: Link先を確認
Yi Liu, Chengjun Cai, Xiaoli Zhang, Xingliang Yuan, Cong Wang, (参考訳) Large Vision Language Models (VLM) は、Large Language Models (LLM) の知覚能力を拡張し、拡張する。 LLMアプリケーションに新たな可能性を提供するが、これらの進歩は、特に有害なコンテンツの生成に関して、重大なセキュリティと倫理上の懸念を引き起こす。 LLMは、レッドチーム化フレームワークの助けを借りて広範なセキュリティ評価を受けているが、VLMは現在、十分に開発されていない。 このギャップを埋めるために、VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。 Arondight は、既存のレッドチーム方式を LLM から VLM に移行する際に発生する、視覚的モダリティの欠如と多様性の欠如に関連する問題の解決に重点を置いている。 我々のフレームワークは自動マルチモーダル・ジェイルブレイク攻撃を特徴とし、視覚的ジェイルブレイクプロンプトはレッドチームVLMが生成し、テキスト的プロンプトは強化学習エージェントが誘導するレッドチームLLMが生成する。 VLMのセキュリティ評価の包括性を高めるため,エントロピーボーナスと新規報酬指標を統合した。 これらの要素はRLエージェントにインセンティブを与え、レッドチームのLLMをガイドし、多様な、以前は目に見えなかったテストケースのより広範な配列を作成する。 10個の最先端のVLMを評価した結果,特に有毒な画像の生成やマルチモーダルなプロンプトの調整において,重大なセキュリティ上の脆弱性が明らかとなった。 特に,我々のArondightは,有毒テキストの生成に関してOpenAIが定義した14の禁止シナリオすべてにおいて,GPT-4に対する平均攻撃成功率84.5\%を達成する。 より明確な比較のために,既存のVLMを安全性レベルに基づいて分類し,それに対応するレコメンデーションを提案する。 私たちのマルチモーダルプロンプトデータセットとレッドチームのコードは、倫理委員会承認の後にリリースされます。 コンテンツ警告:ハームフルモデル応答を含む紙。

Large Vision Language Models (VLMs) extend and enhance the perceptual abilities of Large Language Models (LLMs). Despite offering new possibilities for LLM applications, these advancements raise significant security and ethical concerns, particularly regarding the generation of harmful content. While LLMs have undergone extensive security evaluations with the aid of red teaming frameworks, VLMs currently lack a well-developed one. To fill this gap, we introduce Arondight, a standardized red team framework tailored specifically for VLMs. Arondight is dedicated to resolving issues related to the absence of visual modality and inadequate diversity encountered when transitioning existing red teaming methodologies from LLMs to VLMs. Our framework features an automated multi-modal jailbreak attack, wherein visual jailbreak prompts are produced by a red team VLM, and textual prompts are generated by a red team LLM guided by a reinforcement learning agent. To enhance the comprehensiveness of VLM security evaluation, we integrate entropy bonuses and novelty reward metrics. These elements incentivize the RL agent to guide the red team LLM in creating a wider array of diverse and previously unseen test cases. Our evaluation of ten cutting-edge VLMs exposes significant security vulnerabilities, particularly in generating toxic images and aligning multi-modal prompts. In particular, our Arondight achieves an average attack success rate of 84.5\% on GPT-4 in all fourteen prohibited scenarios defined by OpenAI in terms of generating toxic text. For a clearer comparison, we also categorize existing VLMs based on their safety levels and provide corresponding reinforcement recommendations. Our multimodal prompt dataset and red team code will be released after ethics committee approval. CONTENT WARNING: THIS PAPER CONTAINS HARMFUL MODEL RESPONSES.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# ビデオモーメント検索のためのLLMエンコーディングと擬似イベントレギュレーションによる事前知識統合

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval ( http://arxiv.org/abs/2407.15051v1 )

ライセンス: Link先を確認
Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li, (参考訳) 本稿では,ビデオモーメント検索(VMR)モデルにおいて,大規模言語モデル(LLM)を一般知識の統合や擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。 この研究の背後にあるモチベーションは、離散テキスト記述を生成するデコーダとしてLLMを使うことの限界からきており、サリエンススコアやフレーム間の関係をキャプチャするフレーム間埋め込みといった連続的な出力への直接的適用を妨げる。 これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。 実現可能性研究を通じて,LLMエンコーダは,テキスト埋め込みの訓練を受けなくても,マルチモーダル埋め込みにおける概念間関係を効果的に洗練することを示した。 また,これらの埋め込みがCLIP埋め込みと類似した概念間類似パターンを示す限り,LLMエンコーダの精細化能力をBLIPやT5などの他の埋め込みに転送可能であることを示す。 LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。 実験により,VMRにおける最先端性能を実現することにより,提案手法の有効性を実証する。 ソースコードはhttps://github.com/fletcherjiang/LLMEPETでアクセスできる。

In this paper, we investigate the feasibility of leveraging large language models (LLMs) for integrating general knowledge and incorporating pseudo-events as priors for temporal content distribution in video moment retrieval (VMR) models. The motivation behind this study arises from the limitations of using LLMs as decoders for generating discrete textual descriptions, which hinders their direct application to continuous outputs like salience scores and inter-frame embeddings that capture inter-frame relations. To overcome these limitations, we propose utilizing LLM encoders instead of decoders. Through a feasibility study, we demonstrate that LLM encoders effectively refine inter-concept relations in multimodal embeddings, even without being trained on textual embeddings. We also show that the refinement capability of LLM encoders can be transferred to other embeddings, such as BLIP and T5, as long as these embeddings exhibit similar inter-concept similarity patterns to CLIP embeddings. We present a general framework for integrating LLM encoders into existing VMR architectures, specifically within the fusion module. Through experimental validation, we demonstrate the effectiveness of our proposed methods by achieving state-of-the-art performance in VMR. The source code can be accessed at https://github.com/fletcherjiang/LLMEPET.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# 自然言語タスク指向ダイアログシステム2.0

Natural Language Task-Oriented Dialog System 2.0 ( http://arxiv.org/abs/2407.15055v1 )

ライセンス: Link先を確認
Adib Mosharrof, A. B. Siddique, (参考訳) タスク指向対話(TOD)システムは,自然言語通信による特定の目標達成に集中することにより,ユーザとマシン間の効率的な対話を促進する上で重要な役割を担っている。 これらのシステムは伝統的に、ダイアログ状態やポリシーアノテーションのような手動で注釈付けされたメタデータに依存しており、これは労働集約的で、高価で、一貫性がなく、エラーを起こしやすいため、利用可能な膨大な会話データを活用する可能性を制限する。 TODシステムの重要な側面は、外部ソースから情報にアクセスして統合し、ユーザを効果的に関与させることである。 外部リソースをいつ、どのようにクエリするかを決定するプロセスは、システム設計における根本的な課題である。 本稿では,対話履歴とドメインスキーマを利用して手動で注釈付きターンワイドデータへの依存性を除去し,ゼロショット汎用TODシステムを構築する,自然言語タスク指向対話システム(NL-ToD)を提案する。 また、クエリ生成をシステムのコアタスクとして組み込んで、システムの出力をユーザやAPIクエリに対する応答として外部リソースと通信する。 システム出力のよりきめ細かい分析を実現するため、出力をスロットフィリング、検索、クエリ生成という複数のカテゴリに分類する。 我々の分析によると、スロットフィリングは全てのモデルにとって最も難しいTODタスクであることがわかった。 3つのTODデータセット(SGD, KETOD, BiToD)の実験結果から,NL-ToDが最先端のアプローチ,特にSGDおよびKETODデータセット上でのBLEU-4のスコア改善に優れることを示す。

Task-oriented dialog (TOD) systems play a crucial role in facilitating efficient interactions between users and machines by focusing on achieving specific goals through natural language communication. These systems traditionally rely on manually annotated metadata, such as dialog states and policy annotations, which is labor-intensive, expensive, inconsistent, and prone to errors, thereby limiting the potential to leverage the vast amounts of available conversational data. A critical aspect of TOD systems involves accessing and integrating information from external sources to effectively engage users. The process of determining when and how to query external resources represents a fundamental challenge in system design, however existing approaches expect this information to provided in the context. In this paper, we introduce Natural Language Task Oriented Dialog System (NL-ToD), a novel model that removes the dependency on manually annotated turn-wise data by utilizing dialog history and domain schemas to create a Zero Shot Generalizable TOD system. We also incorporate query generation as a core task of the system, where the output of the system could be a response to the user or an API query to communicate with an external resource. To achieve a more granular analysis of the system output, we classify the output into multiple categories: slot filling, retrieval, and query generation. Our analysis reveals that slot filling is the most challenging TOD task for all models. Experimental results on three popular TOD datasets (SGD, KETOD and BiToD) shows the effectiveness of our approach as NL-ToD outperforms state-of-the-art approaches, particularly with a \textbf{31.4\%} and \textbf{82.1\%} improvement in the BLEU-4 score on the SGD and KETOD dataset.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# 語彙選択パラメータ分析:診断基準による個体数とテストケース冗長性の変化

Lexicase Selection Parameter Analysis: Varying Population Size and Test Case Redundancy with Diagnostic Metrics ( http://arxiv.org/abs/2407.15056v1 )

ライセンス: Link先を確認
Jose Guadalupe Hernandez, Anil Kumar Saini, Jason H. Moore, (参考訳) 語彙選択は遺伝的プログラミングにおいて成功した親選択法であり、複数のベンチマークスイートで他の方法よりも優れていた。 トーナメントセレクションのトーナメントサイズなど、明示的なパラメータを必要とする他の選択方法とは異なり、レキシケースセレクションは機能しない。 しかし、個体数や世代数などの進化的パラメータが選択法の有効性に影響を与える場合、これらの「隠れた」パラメータによってレキシケースのパフォーマンスにも影響する可能性がある。 ここでは、これらの隠れパラメータが、勾配を利用して専門医を診断指標で維持するレキシケースの能力にどのように影響するかを検討する。 一定の評価予算で人口規模を変えることで、より小さな人口はより大きな搾取能力を持つ傾向にある一方で、より大きな人口はより多くの専門家を維持する傾向にあることを示す。 また、冗長なテストケースがスペシャリストの維持に与える影響も考慮し、高い冗長性はスペシャリストを最適化し維持する能力を阻害する可能性があることを発見した。 最終的に、解決される問題の特質について、人口規模、評価予算、テストケースを慎重に検討する必要があることを強調する。

Lexicase selection is a successful parent selection method in genetic programming that has outperformed other methods across multiple benchmark suites. Unlike other selection methods that require explicit parameters to function, such as tournament size in tournament selection, lexicase selection does not. However, if evolutionary parameters like population size and number of generations affect the effectiveness of a selection method, then lexicase's performance may also be impacted by these `hidden' parameters. Here, we study how these hidden parameters affect lexicase's ability to exploit gradients and maintain specialists using diagnostic metrics. By varying the population size with a fixed evaluation budget, we show that smaller populations tend to have greater exploitation capabilities, whereas larger populations tend to maintain more specialists. We also consider the effect redundant test cases have on specialist maintenance, and find that high redundancy may hinder the ability to optimize and maintain specialists, even for larger populations. Ultimately, we highlight that population size, evaluation budget, and test cases must be carefully considered for the characteristics of the problem being solved.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# MusiConGen: トランスフォーマーに基づくテキスト-音楽生成のためのリズムとコード制御

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation ( http://arxiv.org/abs/2407.15060v1 )

ライセンス: Link先を確認
Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang, (参考訳) 既存のテキストから音楽へのモデルは、非常に多様性のある高品質なオーディオを作り出すことができる。 しかし、テキストプロンプトだけでは、コードやリズムなどの時間的音楽的特徴を正確に制御することはできない。 この課題に対処するために,事前にトレーニングされたMusicGenフレームワーク上に構築された時相条件のTransformerベースのテキスト-音楽モデルであるMusiConGenを紹介した。 当社のイノベーションは、自動抽出されたリズムとコードとを条件信号として統合する、コンシューマグレードのGPU用に設計された、効率的な微調整メカニズムにあります。 推論中、条件は、参照オーディオ信号から抽出された音楽的特徴か、ユーザ定義のシンボリックコードシーケンス、BPM、テキストプロンプトのいずれかである。 抽出した特徴とユーザ生成した入力から抽出した特徴の2つのデータセットのパフォーマンス評価は,MusiConGenが特定の条件に整合したリアルなバックトラック音楽を生成することを実証している。 コードとモデルチェックポイントをオープンソースとして公開し、オンラインのオーディオサンプルをhttps://musicongen.github.io/musicongen_demo/.comで提供します。

Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# AGORA:バイナリ検証サービスのオープン化と信頼性の低下

AGORA: Open More and Trust Less in Binary Verification Service ( http://arxiv.org/abs/2407.15062v1 )

ライセンス: Link先を確認
Hongbo Chen, Quan Zhou, Sen Yang, Xing Han, Fan Zhang, Danfeng Zhang, Xiaofeng Wang, (参考訳) バイナリ検証はソフトウェアセキュリティにおいて重要な役割を担いますが、オープンで信頼性の高い検証サービスを構築することは、非常に難しい課題になります。 本稿では,この課題を克服するために,新しいバイナリ検証サービスであるAGORAを紹介する。 特定のタスクは信頼できないエンティティに委譲でき、対応するバリデーターは信頼されたコンピューティングベース(TCB)に確実に格納される。 AGORAは、多目的ポリシーのために生成された信頼できないアサーションを検証することができる。 ブロックチェーンベースの新たな報奨金タスクマネージャを通じて、クラウドソーシングを使用して、定理証明者の信頼を取り除く。 これらの相乗的手法は、二分法解析と定理証明という2つの手順に関連したTCBサイズの負担を改善することに成功した。 AGORAの設計は、信頼できない当事者がこれらの複雑なプロセスに参加することを可能にする。 さらに、信頼された実行環境で最適化されたTCBを実行し、ブロックチェーン上で検証プロセスを記録することにより、検証結果の正しさを監査することができる。 ソフトウェアベースの障害分離ポリシーとサイドチャネル緩和のための検証ワークフローを実装することにより、AGORAの有効性を実証する。

Binary verification plays a pivotal role in software security, yet building a verification service that is both open and trustworthy poses a formidable challenge. In this paper, we introduce a novel binary verification service, AGORA, scrupulously designed to overcome the challenge. At the heart of this approach lies a strategic insight: certain tasks can be delegated to untrusted entities, while the corresponding validators are securely housed within the trusted computing base (TCB). AGORA can validate untrusted assertions generated for versatile policies. Through a novel blockchain-based bounty task manager, it also utilizes crowdsourcing to remove trust in theorem provers. These synergistic techniques successfully ameliorate the TCB size burden associated with two procedures: binary analysis and theorem proving. The design of AGORA allows untrusted parties to participate in these complex processes. Moreover, based on running the optimized TCB within trusted execution environments and recording the verification process on a blockchain, the public can audit the correctness of verification results. By implementing verification workflows for software-based fault isolation policy and side-channel mitigation, our evaluation demonstrates the efficacy of AGORA.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# LSReGen: 後方誘導フレームワークによる大規模地域発電機

LSReGen: Large-Scale Regional Generator via Backward Guidance Framework ( http://arxiv.org/abs/2407.15066v1 )

ライセンス: Link先を確認
Bowen Zhang, Cheng Yang, Xuanhui Liu, (参考訳) 近年,AIGC(Artificial Intelligence Generated Content)技術の進歩により,大規模テキスト画像モデルの能力が大幅に向上している。 これらの改善にもかかわらず、制御可能な画像生成は依然として課題である。 トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。 最初の2つのアプローチは、かなりの計算資源を必要とするか、サブパー結果を生成するかのいずれかである。 第3のアプローチは,特定のモデルアーキテクチャに特有の現象に依存し,大規模画像生成への応用を複雑にしている。 このフレームワークを応用したLSReGenは、高品質でレイアウトに適合した画像を生成するために設計された大規模なレイアウト・ツー・イメージ方式である。 実験の結果,LSReGenは大規模レイアウト・イメージタスクにおいて既存の手法よりも優れており,提案フレームワークの有効性を裏付けている。 私たちのコードとモデルはオープンソースになります。

In recent years, advancements in AIGC (Artificial Intelligence Generated Content) technology have significantly enhanced the capabilities of large text-to-image models. Despite these improvements, controllable image generation remains a challenge. Current methods, such as training, forward guidance, and backward guidance, have notable limitations. The first two approaches either demand substantial computational resources or produce subpar results. The third approach depends on phenomena specific to certain model architectures, complicating its application to large-scale image generation.To address these issues, we propose a novel controllable generation framework that offers a generalized interpretation of backward guidance without relying on specific assumptions. Leveraging this framework, we introduce LSReGen, a large-scale layout-to-image method designed to generate high-quality, layout-compliant images. Experimental results show that LSReGen outperforms existing methods in the large-scale layout-to-image task, underscoring the effectiveness of our proposed framework. Our code and models will be open-sourced.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# VoxDepth:エッジデバイス上での深度画像の再現

VoxDepth: Rectification of Depth Images on Edge Devices ( http://arxiv.org/abs/2407.15067v1 )

ライセンス: Link先を確認
Yashashwee Chakrabarty, Smruti Ranjan Sarangi, (参考訳) 自律飛行ドローンや産業用ロボットのような自律移動ロボットは、3D再構成や視覚SLAMといったタスクを実行するために深度画像に大きく依存している。 しかし、これらの深度画像に不正確さが存在することは、これらの応用の有効性を著しく損なう可能性があり、その結果、準最適結果となる。 市販のカメラが生み出す深度画像は、しばしばノイズを呈し、ピクセルや間違ったパッチを点滅させる。 これらの画像を修正するためのMLベースの手法は、非常に限られた計算資源を持つエッジデバイスには適さない。 非ML法はより高速だが精度は限られており、特に閉塞やカメラの動きによる誤差を補正する。 本稿では,VoxDepthと呼ばれる高速で高精度で,エッジデバイス上での動作が極めて良好である手法を提案する。 3Dポイントクラウドの構築と融合という,新しいテクニックのホストに依存しています。 VoxDepthは、合成データセットと実世界のデータセットの両方で優れた結果を示している。 実世界の深度データセットの最先端手法と比較して,27FPS(フレーム毎秒)の競合フレームレートを維持しながら,品質の31%向上を示す。

Autonomous mobile robots like self-flying drones and industrial robots heavily depend on depth images to perform tasks such as 3D reconstruction and visual SLAM. However, the presence of inaccuracies in these depth images can greatly hinder the effectiveness of these applications, resulting in sub-optimal results. Depth images produced by commercially available cameras frequently exhibit noise, which manifests as flickering pixels and erroneous patches. ML-based methods to rectify these images are unsuitable for edge devices that have very limited computational resources. Non-ML methods are much faster but have limited accuracy, especially for correcting errors that are a result of occlusion and camera movement. We propose a scheme called VoxDepth that is fast, accurate, and runs very well on edge devices. It relies on a host of novel techniques: 3D point cloud construction and fusion, and using it to create a template that can fix erroneous depth images. VoxDepth shows superior results on both synthetic and real-world datasets. We demonstrate a 31% improvement in quality as compared to state-of-the-art methods on real-world depth datasets, while maintaining a competitive framerate of 27 FPS (frames per second).
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# 3次元ガウスパラメトリックヘッドモデル

3D Gaussian Parametric Head Model ( http://arxiv.org/abs/2407.15070v1 )

ライセンス: Link先を確認
Yuelang Xu, Lizhen Wang, Zerong Zheng, Zhaoqi Su, Yebin Liu, (参考訳) VR/AR、テレプレゼンス、デジタルヒューマンインタフェース、映画制作において、高忠実な3Dヘッドアバターの作成は不可欠である。 近年の進歩は、変形可能な顔モデルを利用して、容易にアクセス可能なデータからアニメーションヘッドアバターを生成し、低次元パラメトリック空間内の様々なアイデンティティと表現を表現している。 しかし、既存の手法では、例えばヘアスタイルやアクセサリーといった複雑な外観の詳細をモデル化するのに苦労し、レンダリング品質と効率の低下に悩まされることが多い。 本稿では,人間の頭部の複雑さを正確に表現するために,3次元ガウス的パラメトリック頭部モデル(3D Gaussian Parametric Head Model)を提案する。 さらに、シームレスな顔像補間と、単一の画像から詳細な頭部アバターの再構築を可能にする。 従来の手法とは異なり、ガウスモデルは複雑な詳細を扱うことができ、様々な外観や複雑な表現の現実的な表現を可能にする。 さらに,スムーズなコンバージェンスを確保するための優れたトレーニングフレームワークを提案し,リッチコンテンツを学ぶための保証を提供する。 提案手法は,高画質でリアルタイムな実写レンダリングを実現し,パラメトリックヘッドモデルの分野に有意義な貢献をする。

Creating high-fidelity 3D human head avatars is crucial for applications in VR/AR, telepresence, digital human interfaces, and film production. Recent advances have leveraged morphable face models to generate animated head avatars from easily accessible data, representing varying identities and expressions within a low-dimensional parametric space. However, existing methods often struggle with modeling complex appearance details, e.g., hairstyles and accessories, and suffer from low rendering quality and efficiency. This paper introduces a novel approach, 3D Gaussian Parametric Head Model, which employs 3D Gaussians to accurately represent the complexities of the human head, allowing precise control over both identity and expression. Additionally, it enables seamless face portrait interpolation and the reconstruction of detailed head avatars from a single image. Unlike previous methods, the Gaussian model can handle intricate details, enabling realistic representations of varying appearances and complex expressions. Furthermore, this paper presents a well-designed training framework to ensure smooth convergence, providing a guarantee for learning the rich content. Our method achieves high-quality, photo-realistic rendering with real-time efficiency, making it a valuable contribution to the field of parametric head models.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# リレーショナルデータベース拡張大言語モデル

Relational Database Augmented Large Language Model ( http://arxiv.org/abs/2407.15071v1 )

ライセンス: Link先を確認
Zongyue Qin, Chen Luo, Zhengyang Wang, Haoming Jiang, Yizhou Sun, (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。 しかし、LLMはトレーニングや微調整のプロセスを通じてのみ新しい知識を取り入れることができるため、トレーニングコーパスで利用できない正確で最新の、プライベートな情報を要求するアプリケーションには適さない。 この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。 したがって、有望な解決策は、リレーショナルデータベースを外部メモリとして含めることでLCMを拡張することである。 これにより、データのタイムライン、正確性、一貫性が保証され、LLMが固有の能力を超えて複雑な算術演算を行うのを助けることができる。 しかし、LLMとリレーショナルデータベースのギャップを埋めることは難しい。 正しいデータベースを選択し、正しいSQLクエリを発行するために、データベースに格納されているデータベースとデータ値を認識する必要がある。 さらに、現実世界のアプリケーションのニーズを満たすためには、外部メモリをLCMから独立させる必要がある。 本稿では,データベース選択メモリ,データ値メモリ,リレーショナルデータベースを含む新しいLCM非依存メモリアーキテクチャを提案する。 そして、そこから情報を取得するためのエレガントなパイプラインを設計します。 さらに,フレームワークの可能性の最大化を LLM に指示するプロンプトを慎重に設計する。 提案手法を評価するため,様々な種類の質問を新たに作成する。 実験結果から, LLM がデータベース関連質問に対して, 直接の処理能力を超え, 効果的に回答できることが示唆された。

Large language models (LLMs) excel in many natural language processing (NLP) tasks. However, since LLMs can only incorporate new knowledge through training or supervised fine-tuning processes, they are unsuitable for applications that demand precise, up-to-date, and private information not available in the training corpora. This precise, up-to-date, and private information is typically stored in relational databases. Thus, a promising solution is to augment LLMs with the inclusion of relational databases as external memory. This can ensure the timeliness, correctness, and consistency of data, and assist LLMs in performing complex arithmetic operations beyond their inherent capabilities. However, bridging the gap between LLMs and relational databases is challenging. It requires the awareness of databases and data values stored in databases to select correct databases and issue correct SQL queries. Besides, it is necessary for the external memory to be independent of the LLM to meet the needs of real-world applications. We introduce a novel LLM-agnostic memory architecture comprising a database selection memory, a data value memory, and relational databases. And we design an elegant pipeline to retrieve information from it. Besides, we carefully design the prompts to instruct the LLM to maximize the framework's potential. To evaluate our method, we compose a new dataset with various types of questions. Experimental results show that our framework enables LLMs to effectively answer database-related questions, which is beyond their direct ability.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# 大規模言語モデルを用いたマルチエージェント因果探索

Multi-Agent Causal Discovery Using Large Language Models ( http://arxiv.org/abs/2407.15073v1 )

ライセンス: Link先を確認
Hao Duong Le, Xin Xia, Zhang Chen, (参考訳) 大規模言語モデル(LLM)は、広範囲なテキストコーパスからの膨大な知識を活用することにより、因果発見タスクにおいて有意義な可能性を証明している。 しかし、因果発見におけるLLMのマルチエージェント能力はいまだ未解明のままである。 本稿では,この可能性を検討するための一般的な枠組みを紹介する。 第一にメタエージェントモデル(Meta Agents Model)は、因果発見を行うためのLSMエージェント間の推論と議論にのみ依存している。 2つ目は、エージェントの計画、書き込み、実行能力を活用し、高度な統計ライブラリを使用して因果発見を行うコーディングエージェントモデルである。 3つ目はHybrid Modelで、Meta Agents ModelとCodingAgents Modelのアプローチを統合し、複数のエージェントの統計分析と推論スキルを組み合わせる。 提案フレームワークは,LSMの専門知識,推論能力,マルチエージェント協調,統計的因果的手法を効果的に活用することで,有望な結果を示す。 LLMのマルチエージェントの可能性を探ることにより、因果関係の問題を解決するためにLLMのマルチエージェントを活用するためのさらなる研究の基盤を確立することを目指している。

Large Language Models (LLMs) have demonstrated significant potential in causal discovery tasks by utilizing their vast expert knowledge from extensive text corpora. However, the multi-agent capabilities of LLMs in causal discovery remain underexplored. This paper introduces a general framework to investigate this potential. The first is the Meta Agents Model, which relies exclusively on reasoning and discussions among LLM agents to conduct causal discovery. The second is the Coding Agents Model, which leverages the agents' ability to plan, write, and execute code, utilizing advanced statistical libraries for causal discovery. The third is the Hybrid Model, which integrates both the Meta Agents Model and CodingAgents Model approaches, combining the statistical analysis and reasoning skills of multiple agents. Our proposed framework shows promising results by effectively utilizing LLMs expert knowledge, reasoning capabilities, multi-agent cooperation, and statistical causal methods. By exploring the multi-agent potential of LLMs, we aim to establish a foundation for further research in utilizing LLMs multi-agent for solving causal-related problems.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# プログラムをニューラルネットワークにコンパイルする学習

Learning to Compile Programs to Neural Networks ( http://arxiv.org/abs/2407.15078v1 )

ライセンス: Link先を確認
Logan Weber, Jesse Michel, Alex Renda, Michael Carbin, (参考訳) $\textit{neural surrogate of a program}$は、プログラムの振る舞いを模倣するニューラルネットワークである。 研究者はこれらのニューラルサロゲートを使用して、プログラム入力を自動的にチューニングし、プログラムを新しい設定に適応させ、計算を加速した。 研究者は伝統的に、1つのプログラムから入力出力のサンプルをトレーニングすることで神経サロゲートを開発する。 あるいは、多数のプログラムを含む大規模なデータセットでトレーニングされた言語モデルは、プログラムテキストを消費し、ニューラルサロゲートとして振る舞うことができる。 しかし、言語モデルを使用してサロゲートを生成し、サロゲートとして振る舞うことで、リソース消費と精度のトレードオフにつながる。 本稿では,ニューラルサロゲート生成と実行を結合することなく,プログラムテキストから直接ニューラルサロゲートを生成する技術である$\textit{neural surrogate compilation}を提示する。 我々は、Cプログラムのデータセットでトレーニングされたハイパーネットを使用してニューラルサロゲートコンパイラを実装し、データ効率として1.9$-$9.5\times$を生成し、ビジュアル結果として$1.0$-$1.3\times$を、地上真実に類似して4.3$-$7.3\times$を、スクラッチからトレーニングされたニューラルサロゲートよりも少ないエポックを出力する。

A $\textit{neural surrogate of a program}$ is a neural network that mimics the behavior of a program. Researchers have used these neural surrogates to automatically tune program inputs, adapt programs to new settings, and accelerate computations. Researchers traditionally develop neural surrogates by training on input-output examples from a single program. Alternatively, language models trained on a large dataset including many programs can consume program text, to act as a neural surrogate. Using a language model to both generate a surrogate and act as a surrogate, however, leading to a trade-off between resource consumption and accuracy. We present $\textit{neural surrogate compilation}$, a technique for producing neural surrogates directly from program text without coupling neural surrogate generation and execution. We implement neural surrogate compilers using hypernetworks trained on a dataset of C programs and find that they produce neural surrogates that are $1.9$-$9.5\times$ as data-efficient, produce visual results that are $1.0$-$1.3\times$ more similar to ground truth, and train in $4.3$-$7.3\times$ fewer epochs than neural surrogates trained from scratch.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# SNIP:コンパイラ変換のための投機的実行と非干渉保存

SNIP: Speculative Execution and Non-Interference Preservation for Compiler Transformations ( http://arxiv.org/abs/2407.15080v1 )

ライセンス: Link先を確認
Sören van der Wall, Roland Meyer, (参考訳) 投機的意味論に基づくコンパイラ変換における非干渉保存の問題に対処する。 我々は,すべてのソースプログラムに対して一様に保存を保証できる検証方法を開発した。 提案手法の基礎は,シミュレーション関係の新たな形式である。 マイクロアーキテクチャ状態に対する攻撃者の制御をモデル化するディレクティブ上で動作し、コンパイラ変換がマイクロアーキテクチャ状態が実行に与える影響(したがってディレクティブ)を変える可能性があるという事実を考慮します。 本手法を用いて, デッドコード除去の正当性を示す。 レジスタ割り当ての正しさを証明しようとすると、非干渉に違反をもたらす、これまで未知の弱点を特定しました。 我々はlibsodium暗号ライブラリのコード上でのメインストリームコンパイラの弱点を確認した。 セキュリティを再び回復させるために,我々は,ソースプログラムとレジスタ配置プログラムの製品で動作する新しい静的解析を開発した。 そこで本研究では,既存のレジスタ割り当て実装に対する自動修正を提案する。 固定レジスタ割り当ての正しさを証明法により証明する。

We address the problem of preserving non-interference across compiler transformations under speculative semantics. We develop a proof method that ensures the preservation uniformly across all source programs. The basis of our proof method is a new form of simulation relation. It operates over directives that model the attacker's control over the micro-architectural state, and it accounts for the fact that the compiler transformation may change the influence of the micro-architectural state on the execution (and hence the directives). Using our proof method, we show the correctness of dead code elimination. When we tried to prove register allocation correct, we identified a previously unknown weakness that introduces violations to non-interference. We have confirmed the weakness for a mainstream compiler on code from the libsodium cryptographic library. To reclaim security once more, we develop a novel static analysis that operates on a product of source program and register-allocated program. Using the analysis, we present an automated fix to existing register allocation implementations. We prove the correctness of the fixed register allocations with our proof method.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# ランダムアニーリングジャンプ強化学習によるロケット着陸制御

Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning ( http://arxiv.org/abs/2407.15083v1 )

ライセンス: Link先を確認
Yuxuan Jiang, Yujie Yang, Zhiqian Lan, Guojian Zhan, Shengbo Eben Li, Qi Sun, Jian Ma, Tianwen Yu, Changwu Zhang, (参考訳) ロケットのリサイクルは、宇宙探査におけるコストと環境への影響を減らすことを目的とした、航空宇宙技術における重要な追求である。 主な焦点はロケットの着陸制御であり、リアルタイムで燃料を限定した非線形不活性化ロケットの誘導を含む。 この課題は強化学習(RL)の適用を促すが、その目的指向性は中間報酬信号の欠如により標準RLアルゴリズムに困難をもたらす。 本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御によるロケット着陸制御の成功率を8%から97%に向上させた。 我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。 それぞれのエピソードにおいて、ガイドポリシーは、ガイド地平線のための環境をナビゲートし、残りのステップを完了するために対処する探索ポリシーが続く。 このジャンプスタート戦略は探索空間を突破し、RLアルゴリズムよりも難解な問題を引き起こす。 導出地平線は一様分布からサンプリングされ、その上限は性能指標に基づいてゼロに熱し、分布シフトを緩和し、既存手法のミスマッチ問題を緩和する。 カスケードジャンプスタート、洗練された報酬とターミナル条件、アクションスムーズネスの規制を含む追加の強化により、政策性能と実用性はさらに向上した。 提案手法はハードウェア・イン・ザ・ループ・テストによって評価され,提案方式の有効性,実時間実現性,スムーズ性が確認された。

Rocket recycling is a crucial pursuit in aerospace technology, aimed at reducing costs and environmental impact in space exploration. The primary focus centers on rocket landing control, involving the guidance of a nonlinear underactuated rocket with limited fuel in real-time. This challenging task prompts the application of reinforcement learning (RL), yet goal-oriented nature of the problem poses difficulties for standard RL algorithms due to the absence of intermediate reward signals. This paper, for the first time, significantly elevates the success rate of rocket landing control from 8% with a baseline controller to 97% on a high-fidelity rocket model using RL. Our approach, called Random Annealing Jump Start (RAJS), is tailored for real-world goal-oriented problems by leveraging prior feedback controllers as guide policy to facilitate environmental exploration and policy learning in RL. In each episode, the guide policy navigates the environment for the guide horizon, followed by the exploration policy taking charge to complete remaining steps. This jump-start strategy prunes exploration space, rendering the problem more tractable to RL algorithms. The guide horizon is sampled from a uniform distribution, with its upper bound annealing to zero based on performance metrics, mitigating distribution shift and mismatch issues in existing methods. Additional enhancements, including cascading jump start, refined reward and terminal condition, and action smoothness regulation, further improve policy performance and practical applicability. The proposed method is validated through extensive evaluation and Hardware-in-the-Loop testing, affirming the effectiveness, real-time feasibility, and smoothness of the proposed controller.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# 保存と多様化を学ぶ: 整域一般化のための直交正規化をもつパラメータ効率の良い群

Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization ( http://arxiv.org/abs/2407.15085v1 )

ライセンス: Link先を確認
Jiajun Hu, Jian Zhang, Lei Qi, Yinghuan Shi, Yang Gao, (参考訳) ドメイン一般化(DG)は、限られたトレーニングデータと見えないテストデータの間の分散シフトが発生した場合、モデルの性能劣化を回避することを目的としている。 近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練され、強力な一般化能力を示し、DG問題を解決するための有望な方向を示している。 しかし、基礎モデルの完全微調整(FT)は、事前訓練された一般化された特徴の破壊により、不満足な分配精度をもたらす。 近年,パラメータ効率の良いファインチューニング (PEFT) では,モデルパラメータのごく一部を冷凍状態に保ちながら微調整することで上記の問題を緩和し,FTと比較して一般化性能が向上している。 それでもPEFTは、訓練領域への過度な適合の問題に悩まされている。 上記の課題に対処するために,従来のPEFTと比較して,事前学習ネットワークの一般化能力を効果的に維持し,より多様な知識を学習する視覚変換器のためのパラメータ有効群(PEGO)を提案する。 具体的には、トレーニング可能なローランド適応(LoRA)モジュール群を事前学習モデルに注入し、モデルの一般化能力を高めるために直交正規化損失を提案する。 我々のフレームワークは5つのDGベンチマークでSOTA性能を達成し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。

Domain generalization (DG) aims to avoid the performance degradation of the model when the distribution shift between the limited training data and unseen test data occurs. Recently, foundation models with enormous parameters have been pre-trained with huge datasets, demonstrating strong generalization ability and showing promising direction for solving the DG problem. However, fully Fine-Tuning (FT) the foundation models results in unsatisfactory out-of-distribution accuracy due to the destroyed pre-trained generalized features. Recently, Parameter-Efficient Fine-Tuning (PEFT) alleviates the above problem by fine-tuning a small portion of the model parameters while keeping the rest frozen, which achieves better generalization performance compared to FT. Nevertheless, PEFT still suffers from the issue of overfitting to the training domains. To address the above issue, we propose Parameter-Efficient Group with Orthogonal regularization (PEGO) for vision transformers, which effectively preserves the generalization ability of the pre-trained network and learns more diverse knowledge compared with conventional PEFT. Specifically, we inject a group of trainable Low-Rank Adaptation (LoRA) modules into the pre-trained model and propose an orthogonal regularization loss to enhance the generalization ability of the model. Our framework achieves SOTA performance on five DG benchmarks, while only requiring training a small number of parameters without adding additional testing cost.
翻訳日:2024-07-23 19:28:49 公開日:2024-07-21
# MaxMI: 操作概念発見のための最大相互情報基準

MaxMI: A Maximal Mutual Information Criterion for Manipulation Concept Discovery ( http://arxiv.org/abs/2407.15086v1 )

ライセンス: Link先を確認
Pei Zhou, Yanchao Yang, (参考訳) 本研究の目的は,キーとなる物理状態として認識される無意味な実演に埋め込まれた操作概念の発見である。 発見された概念は、訓練操作ポリシーの促進と一般化の促進を可能にする。 鍵状態の導出のためのマルチモーダル基礎モデルに基づく現在の手法では、限られたマルチモーダルロボットデータによる精度とセマンティック一貫性が欠如している。 対照的に、物理状態の集合を表す正規性を特徴付ける情報理論的基準を導入する。 また、この基準を用いて概念発見ネットワークを訓練するフレームワークを開発し、人間の意味論への依存を回避し、コストのかかる人間のラベリングを緩和する。 提案された基準は、キー状態は概念化に値するが、非キー状態よりも物理的に制限されることが多いという観察に基づいている。 この現象は、入力キー状態とその前の状態、すなわち最大相互情報(MaxMI)間の相互情報の最大化として定式化することができる。 MaxMIを利用することで、トレーニングされたキー状態ローカライゼーションネットワークは、十分な物理的重要性の状態を正確に識別し、人間の知覚と合理的なセマンティックな互換性を示す。 さらに,提案手法は,提案基準の有効性を検証し,より高い成功率と各種ロボットタスクの汎用性を有する概念誘導型操作ポリシーの鍵となる状態を生成する。

We aim to discover manipulation concepts embedded in the unannotated demonstrations, which are recognized as key physical states. The discovered concepts can facilitate training manipulation policies and promote generalization. Current methods relying on multimodal foundation models for deriving key states usually lack accuracy and semantic consistency due to limited multimodal robot data. In contrast, we introduce an information-theoretic criterion to characterize the regularities that signify a set of physical states. We also develop a framework that trains a concept discovery network using this criterion, thus bypassing the dependence on human semantics and alleviating costly human labeling. The proposed criterion is based on the observation that key states, which deserve to be conceptualized, often admit more physical constraints than non-key states. This phenomenon can be formalized as maximizing the mutual information between the putative key state and its preceding state, i.e., Maximal Mutual Information (MaxMI). By employing MaxMI, the trained key state localization network can accurately identify states of sufficient physical significance, exhibiting reasonable semantic compatibility with human perception. Furthermore, the proposed framework produces key states that lead to concept-guided manipulation policies with higher success rates and better generalization in various robotic tasks compared to the baselines, verifying the effectiveness of the proposed criterion.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# BEV知覚と大規模言語モデルを用いたナビゲーション命令生成

Navigation Instruction Generation with BEV Perception and Large Language Models ( http://arxiv.org/abs/2407.15087v1 )

ライセンス: Link先を確認
Sheng Fan, Rui Liu, Wenguan Wang, Yi Yang, (参考訳) ナビゲーションの経路を記述するために具体的エージェントを必要とするナビゲーション命令生成は、ロボット工学と人間とコンピュータの相互作用に大きな関心を寄せている。 既存の研究では、2次元視線観測のシーケンスを直接ルート記述にマッピングしている。 単純ではあるが、彼らは幾何学的な情報や3D環境のオブジェクトのセマンティクスを見落としている。 これらの課題に対処するために,バードアイビュー(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。 具体的には、BEVインストラクタは、3D環境の理解のために、BEVとパースペクティブ特徴を融合して、パースペクティブBEVVisualエンコーダを構築する。 MLLMの強力な言語機能を活用するために、融合表現をMLLMの視覚的プロンプトとして使用し、パラメータ効率の更新のためにパースペクティブ-BEVプロンプトチューニングを提案する。 パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。 BEVInstructorは、さまざまなデータセット(R2R、REVERIE、UrbanWalkなど)にわたって素晴らしいパフォーマンスを達成する。

Navigation instruction generation, which requires embodied agents to describe the navigation routes, has been of great interest in robotics and human-computer interaction. Existing studies directly map the sequence of 2D perspective observations to route descriptions. Though straightforward, they overlook the geometric information and object semantics of the 3D environment. To address these challenges, we propose BEVInstructor, which incorporates Bird's Eye View (BEV) features into Multi-Modal Large Language Models (MLLMs) for instruction generation. Specifically, BEVInstructor constructs a PerspectiveBEVVisual Encoder for the comprehension of 3D environments through fusing BEV and perspective features. To leverage the powerful language capabilities of MLLMs, the fused representations are used as visual prompts for MLLMs, and perspective-BEV prompt tuning is proposed for parameter-efficient updating. Based on the perspective-BEV prompts, BEVInstructor further adopts an instance-guided iterative refinement pipeline, which improves the instructions in a progressive manner. BEVInstructor achieves impressive performance across diverse datasets (i.e., R2R, REVERIE, and UrbanWalk).
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 条件付き生成モデルによる隠れた地震動の学習物理

Learning Physics for Unveiling Hidden Earthquake Ground Motions via Conditional Generative Modeling ( http://arxiv.org/abs/2407.15089v1 )

ライセンス: Link先を確認
Pu Ren, Rie Nakata, Maxime Lacour, Ilan Naiman, Nori Nakata, Jialin Song, Zhengfa Bi, Osman Asif Malik, Dmitriy Morozov, Omri Azencot, N. Benjamin Erichson, Michael W. Mahoney, (参考訳) 将来の地震に対する高忠実な地盤運動の予測は、地震の危険度評価とインフラのレジリエンスに不可欠である。 従来の経験的シミュレーションでは、センサーの分散や地理的に局所的な地震の場所が不足しており、物理に基づく手法は計算集約的であり、地球構造や地震源の正確な表現を必要とする。 本研究では,高頻度かつ空間的に連続する地震動波形を合成する新しい人工知能シミュレータである条件生成モデル(CGM-GM)を提案する。 CGM-GMは、地震のマグニチュードと地理的座標を入力として利用し、複雑な波動物理学と地球不均一性を学ぶ。 これは確率的オートエンコーダによって実現され、時間周波数領域における潜時分布と、前と後の分布に対する変動逐次モデルをキャプチャする。 地震リスクの高いサンフランシスコ・ベイエリアの小規模地震記録を用いたCGM-GMの性能評価を行った。 CGM-GMは、最先端の非エルゴディックな経験的地上運動モデルを上回る可能性を示し、地震学などにおいて大きな可能性を秘めている。

Predicting high-fidelity ground motions for future earthquakes is crucial for seismic hazard assessment and infrastructure resilience. Conventional empirical simulations suffer from sparse sensor distribution and geographically localized earthquake locations, while physics-based methods are computationally intensive and require accurate representations of Earth structures and earthquake sources. We propose a novel artificial intelligence (AI) simulator, Conditional Generative Modeling for Ground Motion (CGM-GM), to synthesize high-frequency and spatially continuous earthquake ground motion waveforms. CGM-GM leverages earthquake magnitudes and geographic coordinates of earthquakes and sensors as inputs, learning complex wave physics and Earth heterogeneities, without explicit physics constraints. This is achieved through a probabilistic autoencoder that captures latent distributions in the time-frequency domain and variational sequential models for prior and posterior distributions. We evaluate the performance of CGM-GM using small-magnitude earthquake records from the San Francisco Bay Area, a region with high seismic risks. CGM-GM demonstrates a strong potential for outperforming a state-of-the-art non-ergodic empirical ground motion model and shows great promise in seismology and beyond.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# SeqMIA:Sequential-Metric based Membership Inference Attack

SeqMIA: Sequential-Metric Based Membership Inference Attack ( http://arxiv.org/abs/2407.15098v1 )

ライセンス: Link先を確認
Hao Li, Zheng Li, Siyuan Wu, Chengrui Hu, Yutong Ye, Min Zhang, Dengguo Feng, Yang Zhang, (参考訳) 既存のメンバーシップ推論攻撃(MIA)のほとんどは、モデルの最終状態に基づいて計算されたメトリクス(例えば損失)を使用し、最近の高度な攻撃は、モデルトレーニングを通して、中間段階と最終段階の両方を含む様々な段階で計算されたメトリクスを利用する。 しかしながら、これらの攻撃はしばしば、時間に依存したパターンを無視して、メトリックの複数の中間状態を独立に処理する。 その結果、同じ基準値を示すメンバーと非メンバーを効果的に区別するのに苦労し、特に偽陽性率が高い。 本研究では,ブラックボックスシナリオにおける新しいメンバーシップ信号について詳しく検討する。 我々は、モデルトレーニングの様々な段階から派生した、より統合された新しいメンバーシップ信号である、メトリックシーケンスのパターンを同定する。 新しい信号はモデルの複数の中間状態と最終状態の両方を包含し、それらの間の時間的パターンに重点を置いている。 この信号に基づいて,SeqMIA(Sequential-metric based Membership Inference Attack)と呼ばれる新たな攻撃手法を導入する。 具体的には、知識蒸留を用いて、対象モデルのトレーニングの様々な段階を表す蒸留モデルのセットを得る。 次に、これらの蒸留モデルに関する複数のメトリクスを時系列で評価し、蒸留されたメトリクス列を作成する。 最終的に蒸留したマルチメトリックシーケンスをシーケンシャルなマルチフォーマットとして統合し、アテンションベースのRNNアタックモデルを用いて推論を行う。 実証実験の結果、SeqMIAは全てのベースラインを上回り、特にTPR @ 0.1% FPRの点で桁違いに改善できることがわかった。 さらに,この信号がSeqMIAの高攻撃性能に寄与する理由を解明し,SeqMIAに対する防御機構の評価を行った。

Most existing membership inference attacks (MIAs) utilize metrics (e.g., loss) calculated on the model's final state, while recent advanced attacks leverage metrics computed at various stages, including both intermediate and final stages, throughout the model training. Nevertheless, these attacks often process multiple intermediate states of the metric independently, ignoring their time-dependent patterns. Consequently, they struggle to effectively distinguish between members and non-members who exhibit similar metric values, particularly resulting in a high false-positive rate. In this study, we delve deeper into the new membership signals in the black-box scenario. We identify a new, more integrated membership signal: the Pattern of Metric Sequence, derived from the various stages of model training. We contend that current signals provide only partial perspectives of this new signal: the new one encompasses both the model's multiple intermediate and final states, with a greater emphasis on temporal patterns among them. Building upon this signal, we introduce a novel attack method called Sequential-metric based Membership Inference Attack (SeqMIA). Specifically, we utilize knowledge distillation to obtain a set of distilled models representing various stages of the target model's training. We then assess multiple metrics on these distilled models in chronological order, creating distilled metric sequence. We finally integrate distilled multi-metric sequences as a sequential multiformat and employ an attention-based RNN attack model for inference. Empirical results show SeqMIA outperforms all baselines, especially can achieve an order of magnitude improvement in terms of TPR @ 0.1% FPR. Furthermore, we delve into the reasons why this signal contributes to SeqMIA's high attack performance, and assess various defense mechanisms against SeqMIA.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# ナノメカニカルミラーで結合した複合量子電磁誘導型透明ヒートエンジンの提案

Proposal for Composite Quantum Electromagnetically Induced Transparency Heat Engine Coupled by a Nanomechanical Mirror ( http://arxiv.org/abs/2407.15099v1 )

ライセンス: Link先を確認
Rejjak Laskar, (参考訳) 本稿では,超低温原子ガスとナノメカニカルミラーを結合した量子熱エンジンモデルを提案する。 ミラーの振動は制御フィールドのオプトメカニカルサイドバンドを誘導し、冷気の挙動に影響を与え、その後エンジンの出力放射に影響を与える。 このモデルでは、キャビティ閉じ込めを省略しながらミラー振動を取り入れ、コヒーレンスと熱機関として機能するナノメカニカルミラーの機械的振動とを兼ね備えた多層原子レーザー相互作用系を橋渡しする。 3つの異なる熱エンジン構成が提案されている: 1つは振動のない3レベル$\Lambda$-typeシステム、2つ目はナノメカニカル振動を3レベル$\Lambda$-typeシステムに導入し、3つ目は以前のセットアップとナノメカニカル振動を組み合わせた複合エンジンを構成する。 3レベル熱エンジンのスペクトル輝度は、ミラー振動によって減少するが、複合熱エンジンでは、輝度ピークがわずかに高められる。 しかし、振動がない場合には最大輝度が得られる。 熱力学第二法則の制約に則って, エントロピーバランスに関するモデルと理想的なシステムの比較を行った。 モデルは、ミラー振動を受けると、提案された熱エンジンは理想的な熱エンジンで期待される特性から分岐することを示した。

This paper introduces a quantum heat engine model that utilizes an ultracold atomic gas coupled with a nanomechanical mirror. The mirror's vibration induces an opto-mechanical sideband in the control field, affecting the behavior of the cold gas and subsequently influencing the output radiation of the engine. The model incorporates mirror vibration while omitting cavity confinement, establishing a bridge between a multi-level atom-laser interacting system that plays with coherences and the mechanical vibration of the nanomechanical mirror, which jointly function as heat engines. Three distinct heat engine configurations are proposed: the first involves a vibration-free three-level $\Lambda$-type system, the second introduces nanomechanical vibration to the three-level $\Lambda$-type system, and the third constitutes a composite engine that combines the previous setups along with nanomechanical vibration. The spectral brightness of a three-level heat engine is diminished with mirror vibration, whereas for a composite heat engine, there is a slight enhancement in the brightness peak. However, the maximum brightness is attained when there is no vibration. Comparisons between the proposed model and an ideal system are made regarding entropy balance, adhering to the constraints of the second law of thermodynamics. The model observed that when subjected to mirror vibration, the proposed heat engines diverged from the characteristics expected in an ideal heat engine.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# MLモデルのデータ利用監査のための一般的なフレームワーク

A General Framework for Data-Use Auditing of ML Models ( http://arxiv.org/abs/2407.15100v1 )

ライセンス: Link先を確認
Zonghao Huang, Neil Zhenqiang Gong, Michael K. Reiter, (参考訳) 機械学習(ML)モデルのトレーニングにおけるデータの使用を監査することは、無数のML実践者が日常的に、許可なくモデルのトレーニングにコンテンツクリエーターの努力を活用しているため、ますます厳しい課題となっている。 本稿では、データを使用するMLタスクの事前知識を必要とせずに、データ所有者のデータを使用するためのMLモデルを評価するための一般的な手法を提案する。 提案手法は,既存のブラックボックスメンバーシップ推定手法と,我々の設計の逐次的仮説テストを利用して,定量化・調整可能な偽検出速度でデータの使用を検出する。 本稿では,2種類のMLモデル,すなわち画像分類器と基礎モデルにおけるデータ利用を監査するために,提案手法の有効性を示す。

Auditing the use of data in training machine-learning (ML) models is an increasingly pressing challenge, as myriad ML practitioners routinely leverage the effort of content creators to train models without their permission. In this paper, we propose a general method to audit an ML model for the use of a data-owner's data in training, without prior knowledge of the ML task for which the data might be used. Our method leverages any existing black-box membership inference method, together with a sequential hypothesis test of our own design, to detect data use with a quantifiable, tunable false-detection rate. We show the effectiveness of our proposed framework by applying it to audit data use in two types of ML models, namely image classifiers and foundation models.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 生成モデルによる量子状態の再構成実験

Experimental demonstration of reconstructing quantum states with generative models ( http://arxiv.org/abs/2407.15102v1 )

ライセンス: Link先を確認
Xuegang Li, Wenjie Jiang, Ziyue Hua, Weiting Wang, Xiaoxuan Pan, Weizhou Cai, Zhide Lu, Jiaxiu Han, Rebing Wu, Chang-Ling Zou, Dong-Ling Deng, Luyan Sun, (参考訳) 量子状態トモグラフィー(Quantum state tomography)は、同じ準備されたコピーのアンサンブルの測定から量子状態を再構成するプロセスであり、量子デバイスのベンチマークにおいて重要な役割を果たす。 しかし、必要なリソースがシステムサイズと指数関数的にスケールするにつれて、量子状態トモグラフィーに対するブルートフォースアプローチは大規模システムにとって実用的ではない。 本稿では, ニューラルネットワーク生成モデルに基づく量子状態の再構成を, プログラム可能な超伝導トランスモン量子ビットの配列で実証する。 特に,Greenberger-Horne-Zeilinger状態と5キュービットまでのランダム状態を作成し,これらの状態をシステムサイズに線形にスケーリングするために必要な実験サンプルの数で効率的に再構築できることを実証した。 本研究は,複雑な量子デバイスを検証・特徴化するための機械学習技術を活用するための興味深い可能性を実験的に示し,量子技術の今後の発展のための貴重なガイドを提供する。

Quantum state tomography, a process that reconstructs a quantum state from measurements on an ensemble of identically prepared copies, plays a crucial role in benchmarking quantum devices. However, brute-force approaches to quantum state tomography would become impractical for large systems, as the required resources scale exponentially with the system size. Here, we explore a machine learning approach and report an experimental demonstration of reconstructing quantum states based on neural network generative models with an array of programmable superconducting transmon qubits. In particular, we experimentally prepare the Greenberger-Horne-Zeilinger states and random states up to five qubits and demonstrate that the machine learning approach can efficiently reconstruct these states with the number of required experimental samples scaling linearly with system size. Our results experimentally showcase the intriguing potential for exploiting machine learning techniques in validating and characterizing complex quantum devices, offering a valuable guide for the future development of quantum technologies.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 境界状態アハロノフ・ボーム効果のためのモーメント空間ファインマン積分

Momentum Space Feynman Integral for the Bound State Aharonov-Bohm Effect ( http://arxiv.org/abs/2407.15107v1 )

ライセンス: Link先を確認
Alviu Rey Nasir, Jingle Magallanes, Herry Pribawanto Suryawan, José Luís Da Silva, (参考訳) 極共役運動量空間におけるシュリンガープロパゲータに対するファインマン積分を構築し、境界状態 Aharonov-Bohm 効果をよく定義された白色雑音関数として記述する。

We construct the Feynman integral for the Schr\"odinger propagator in the polar conjugate momentum space, which describes the bound state Aharonov-Bohm effect, as a well-defined white noise functional.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 実用的多要素機械学習:決定論的モデルとベイズモデルの融合

Practical multi-fidelity machine learning: fusion of deterministic and Bayesian models ( http://arxiv.org/abs/2407.15110v1 )

ライセンス: Link先を確認
Jiaxiang Yi, Ji Cheng, Miguel A. Bessa, (参考訳) 多要素機械学習法は, 少ない資源集約型高密度データと少ない精度の低忠実度データを統合することにより, 精度・効率のトレードオフに対処する。 低次元領域と高次元領域にまたがる問題に対する実用的多次元戦略を提案し、低次元領域に対する非確率回帰モデルと高次元領域に対するベイズモデルを統合する。 低忠実度モデルが高忠実度データに転送学習され、ベイズモデルが残余のために訓練される、停滞したスキームで訓練される。 この3モデル戦略 -- 決定論的低忠実性、転送学習、ベイズ残差 -- は、ノイズとノイズのない多重忠実データの両方に対して不確実な定量化を含む予測をもたらす。 この戦略は一般的であり、このトピックを統一し、移行学習モデルとベイズモデルの表現性トレードオフを強調する(複雑な移行学習モデルはベイズモデルをより単純なものにし、その逆も)。 2つのシナリオのモデリング選択を提案し、融合する線形移動学習モデルを使うことを論じる。 1)高忠実性のためのガウス過程を有する低忠実性のためのカーネルリッジ回帰 2)高忠実性のためのベイズニューラルネットワークを用いた低忠実性のためのディープニューラルネットワーク。 本稿では,提案手法の有効性と有効性を実証し,様々な数値例に基づく最先端技術と対比する。 これらの定式化の単純さにより、将来の工学的応用の幅広い範囲で実用的である。

Multi-fidelity machine learning methods address the accuracy-efficiency trade-off by integrating scarce, resource-intensive high-fidelity data with abundant but less accurate low-fidelity data. We propose a practical multi-fidelity strategy for problems spanning low- and high-dimensional domains, integrating a non-probabilistic regression model for the low-fidelity with a Bayesian model for the high-fidelity. The models are trained in a staggered scheme, where the low-fidelity model is transfer-learned to the high-fidelity data and a Bayesian model is trained for the residual. This three-model strategy -- deterministic low-fidelity, transfer learning, and Bayesian residual -- leads to a prediction that includes uncertainty quantification both for noisy and noiseless multi-fidelity data. The strategy is general and unifies the topic, highlighting the expressivity trade-off between the transfer-learning and Bayesian models (a complex transfer-learning model leads to a simpler Bayesian model, and vice versa). We propose modeling choices for two scenarios, and argue in favor of using a linear transfer-learning model that fuses 1) kernel ridge regression for low-fidelity with Gaussian processes for high-fidelity; or 2) deep neural network for low-fidelity with a Bayesian neural network for high-fidelity. We demonstrate the effectiveness and efficiency of the proposed strategies and contrast them with the state-of-the-art based on various numerical examples. The simplicity of these formulations makes them practical for a broad scope of future engineering applications.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# D$^4$-VTON:微分拡散に基づく仮想試行のための動的意味分離

D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On ( http://arxiv.org/abs/2407.15111v1 )

ライセンス: Link先を確認
Zhaotong Yang, Zicheng Jiang, Xinzhe Li, Huiyu Zhou, Junyu Dong, Huaidong Zhang, Yong Du, (参考訳) 本稿では,D$^4$-VTONを提案する。 我々は,服飾の前後における意味的不整合や,静的なアノテーションによる衣服解析への依存など,過去の研究の課題に対処する。 さらに, インペイントやデノイングといった同時処理を行う場合, 拡散型VTONモデルの複雑さに対処する。 まず、動的セマンティック・ディアンタングリング・モジュール(DSDM)は、衣服から抽象的な意味情報を抽出し、異なる局所フローを生成する。 次に、差分情報追跡経路(DITP)を統合することにより、新しい拡散に基づくVTONパラダイムを確立する。 このパスは、不完全な試行入力と完全なバージョン間の差分情報をキャプチャし、ネットワークが複数の劣化を個別に処理できるようにし、学習のあいまいさを最小化し、オーバーヘッドを最小限にして現実的な結果を達成する。 大規模な実験により、D$^4$-VTONは、定量測定と定性評価の両方において既存の手法を著しく上回り、現実的な画像を生成する能力を示し、セマンティック一貫性を確保する。

In this paper, we introduce D$^4$-VTON, an innovative solution for image-based virtual try-on. We address challenges from previous studies, such as semantic inconsistencies before and after garment warping, and reliance on static, annotation-driven clothing parsers. Additionally, we tackle the complexities in diffusion-based VTON models when handling simultaneous tasks like inpainting and denoising. Our approach utilizes two key technologies: Firstly, Dynamic Semantics Disentangling Modules (DSDMs) extract abstract semantic information from garments to create distinct local flows, improving precise garment warping in a self-discovered manner. Secondly, by integrating a Differential Information Tracking Path (DITP), we establish a novel diffusion-based VTON paradigm. This path captures differential information between incomplete try-on inputs and their complete versions, enabling the network to handle multiple degradations independently, thereby minimizing learning ambiguities and achieving realistic results with minimal overhead. Extensive experiments demonstrate that D$^4$-VTON significantly outperforms existing methods in both quantitative metrics and qualitative evaluations, demonstrating its capability in generating realistic images and ensuring semantic consistency.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# Aharonov-Bohm Hamiltonian:自己共役性、スペクトルおよび散乱特性

The Aharonov-Bohm Hamiltonian: self-adjointness, spectral and scattering properties ( http://arxiv.org/abs/2407.15115v1 )

ライセンス: Link先を確認
Davide Fermi, (参考訳) この研究は、単流 Aharonov-Bohm Schr\"odinger 作用素の基本的な数学的側面の紹介と概要を提供する。 許容可能な自己随伴実現の族全体は、フォン・ノイマン理論、境界三重項、二次形式、Kre{\u\i}nの可解形式主義の4つの異なる方法によって特徴づけられる。 そこで得られた異なるパラメトリゼーションの関係について検討し、フラックス特異点に近い対応する作用素領域における関数の漸近挙動を比較した。 基本微分作用素のダイレーションの下で同じ回転対称性と均一性を保持する自己随伴実現に特に注意が払われる。 すべてのハミルトニアン作用素のスペクトル特性と散乱特性が最終的に記述される。

This work provides an introduction and overview on some basic mathematical aspects of the single-flux Aharonov-Bohm Schr\"odinger operator. The whole family of admissible self-adjoint realizations is characterized by means of four different methods: von Neumann theory, boundary triplets, quadratic forms and Kre{\u\i}n's resolvent formalism. The relation between the different parametrizations thus obtained is explored, comparing the asymptotic behavior of functions in the corresponding operator domains close to the flux singularity. Special attention is devoted to those self-adjoint realizations which preserve the same rotational symmetry and homogeneity under dilations of the basic differential operator. The spectral and scattering properties of all the Hamiltonian operators are finally described.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 化学知識基盤のための化学反応抽出

Chemical Reaction Extraction for Chemical Knowledge Base ( http://arxiv.org/abs/2407.15124v1 )

ライセンス: Link先を確認
Aishwarya Jadhav, Ritam Dutt, (参考訳) 特許文書を検索する作業は、化学特許の推薦と検索に不可欠である。 これは、先行技術検索を支援するために特許知識ベース(ChemPatKB)を作成し、ドメインの専門家が化合物合成とユースケースの新しいイノベーションを探求するためのプラットフォームを提供することによって強化することができる。 このKBの基本的な構成要素は、長い特許文書から重要な反応スニペットを抽出し、反応共参照分解や化学体の役割同定などの下流の複数のタスクを容易にすることである。 本研究では,反応資源データベースを作成するために化学特許から反応を抽出する問題について検討する。 我々は,このタスクを段落レベルのシーケンスタギング問題として定式化し,反応の記述を含む段落のシーケンスをシステムに返却する。 基礎モデルのいくつかのアプローチと修正を提案し、異なる手法が化学特許の異なる領域にまたがってどのように一般化するかを研究する。

The task of searching through patent documents is crucial for chemical patent recommendation and retrieval. This can be enhanced by creating a patent knowledge base (ChemPatKB) to aid in prior art searches and to provide a platform for domain experts to explore new innovations in chemical compound synthesis and use-cases. An essential foundational component of this KB is the extraction of important reaction snippets from long patents documents which facilitates multiple downstream tasks such as reaction co-reference resolution and chemical entity role identification. In this work, we explore the problem of extracting reactions spans from chemical patents in order to create a reactions resource database. We formulate this task as a paragraph-level sequence tagging problem, where the system is required to return a sequence of paragraphs that contain a description of a reaction. We propose several approaches and modifications of the baseline models and study how different methods generalize across different domains of chemical patents.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# メタバースのダークサイド:イベント仮想化におけるゲーミフィケーションの役割

The dark side of the metaverse: The role of gamification in event virtualization ( http://arxiv.org/abs/2407.15125v1 )

ライセンス: Link先を確認
Carlos Flavian, Sergio Ibanez-Sanchez, Carlos Orus, Sergio Barta, (参考訳) メタバースにおける文化的イベントの仮想化は、個人内のイベントを複製し拡張する価値ある革新的な体験を生み出す機会を生み出すが、プロセスは関連する課題に直面している。 本研究の目的は,メタバースで開催される文化イベントにおけるユーザ体験の肯定的・否定的な側面を分析することである。 混合メソドス法を用いて提案された仮説を検証する。 3つの焦点群から得られた結果は,メタバースの主要素に注意を向けることの難しさと,この仮想球体が文化イベントの真正性を伝えることができないことを実証した。 これらの知見に基づいて,メタバースに着目した定量的研究を行い,ゲーム化の認知が,メタバース体験に注意を払わないユーザの負の効果を緩和するか否かを検討した。 ユーザが注意レベルを上昇させると、実際の体験と文化イベントの真正性に対する認識が増加し、肯定的な行動意図が生み出された。 これは、メタバースにおける観光経験を実証的に分析した最初の研究の1つであり、管理者や政策立案者は、価値ある仮想文化イベントを行うために結果から恩恵を受けることができる。

The virtualization of cultural events in the metaverse creates opportunities to generate valuable and innovative experiences that replicate and extend in-person events; but the process faces associated challenges. In the absence of relevant empirical studies, the aim of this article is to analyze the positive and negative aspects of the user experience in a cultural event held in the metaverse. A mixed-methods approach is employed to test the proposed hypotheses. The results from three focus groups demonstrated the difficulty that users face in focusing their attention on the main elements of the metaverse, and the inability of this virtual sphere to convey the authenticity of a cultural event. Based on these findings, a metaverse-focused quantitative study was conducted to examine whether perceived gamification mitigate the negative effects of users failing to pay attention in their metaverse experiences. When users increased their attention levels, their ability to imagine the real experience and their perceptions of the authenticity of the cultural event increased, which produced positive behavioral intentions. This is one of the first studies to empirically analyze the tourist experience in the metaverse; managers and policymakers can benefit from the results to hold valuable virtual cultural events.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# 量子Trncated Differential and Boomerang Attack

Quantum Truncated Differential and Boomerang Attack ( http://arxiv.org/abs/2407.15126v1 )

ライセンス: Link先を確認
Huiqin Xie, Li Yang, (参考訳) 世界中の量子コンピュータ構築の着実に進歩しているため、暗号コミュニティは量子セーフな暗号プリミティブを設計することが不可欠である。 これを実現するためには、量子コンピュータの敵が使用する暗号解析ツールの能力を検討する必要がある。 本稿では,truncated differential と boomerang cryptanalysis に焦点をあてる。 まず、対称暗号の切り詰められた微分を求めるために設計された量子アルゴリズムを提案する。 我々は、圧倒的な確率で、我々のアルゴリズムによって出力される切り離された微分は、キー空間のキーの大部分に対して高い差分確率を持つ必要があることを証明した。 その後,このアルゴリズムに基づいて,ブーメラン判別器の探索に使用できる量子アルゴリズムを設計する。 両方の量子アルゴリズムの量子回路は、多項式量子ゲートのみを含む。 量子コンピューティングの強みを十分に活用し、Sボックスや鍵スケジューリングの影響を十分に考慮しながら多項式の複雑さを維持できる。

Facing the worldwide steady progress in building quantum computers, it is crucial for cryptographic community to design quantum-safe cryptographic primitives. To achieve this, we need to investigate the capability of cryptographic analysis tools when used by the adversaries with quantum computers. In this article, we concentrate on truncated differential and boomerang cryptanalysis. We first present a quantum algorithm which is designed for finding truncated differentials of symmetric ciphers. We prove that, with a overwhelming probability, the truncated differentials output by our algorithm must have high differential probability for the vast majority of keys in key space. Afterwards, based on this algorithm, we design a quantum algorithm which can be used to find boomerang distinguishers. The quantum circuits of both quantum algorithms contain only polynomial quantum gates. Compared to classical tools for searching truncated differentials or boomerang distinguishers, our algorithms fully utilize the strengths of quantum computing, and can maintain the polynomial complexity while fully considering the impact of S-boxes and key scheduling.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# DOPRA: 特定の重み付け層における過剰蓄積のペナル化と再配置をデコードする

DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer ( http://arxiv.org/abs/2407.15130v1 )

ライセンス: Link先を確認
Jinfeng Wei, Xiaofeng Zhang, (参考訳) 本研究では,マルチモーダル大言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。 通常、高価な補足的なトレーニングデータや外部知識ソースの統合を含む既存のソリューションとは異なり、DOPRAは特定の重み付けされたレイヤーの罰則と再分配を復号することで幻覚に対処し、追加資源なしで経済的かつ効果的なソリューションを提供する。 DOPRAは、MLLM内の幻覚を制御する固有のメカニズム、特にモデルが自己注意行列内の要約トークンのサブセットに過度に頼り、重要な画像関連情報を無視する傾向について独自の洞察を基礎としている。 この現象は特に特定の層で顕著である。 この過度な信頼性に対抗するため、DOPRAはデコードプロセス中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。 さらに、DOPRAは、生成されたトークンのシーケンスを再検査し、トークン選択を再配置して実際の画像内容との整合性を向上し、自動生成されたキャプションにおける幻覚的記述の発生を減少させるレトロスペクティブ割り当てプロセスを含む。 全体として、DOPRAは、復号過程における目標調整による幻覚を体系的に低減し、MLLMの出力品質を改善するための重要な一歩である。

In this work, we introduce DOPRA, a novel approach designed to mitigate hallucinations in multi-modal large language models (MLLMs). Unlike existing solutions that typically involve costly supplementary training data or the integration of external knowledge sources, DOPRA innovatively addresses hallucinations by decoding specific weighted layer penalties and redistribution, offering an economical and effective solution without additional resources. DOPRA is grounded in unique insights into the intrinsic mechanisms controlling hallucinations within MLLMs, especially the models' tendency to over-rely on a subset of summary tokens in the self-attention matrix, neglecting critical image-related information. This phenomenon is particularly pronounced in certain strata. To counteract this over-reliance, DOPRA employs a strategy of weighted overlay penalties and redistribution in specific layers, such as the 12th layer, during the decoding process. Furthermore, DOPRA includes a retrospective allocation process that re-examines the sequence of generated tokens, allowing the algorithm to reallocate token selection to better align with the actual image content, thereby reducing the incidence of hallucinatory descriptions in auto-generated captions. Overall, DOPRA represents a significant step forward in improving the output quality of MLLMs by systematically reducing hallucinations through targeted adjustments during the decoding process.
翻訳日:2024-07-23 19:18:45 公開日:2024-07-21
# Token-Picker:確率推定による最小メモリ転送によるテキスト生成における注意の促進

Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation ( http://arxiv.org/abs/2407.15131v1 )

ライセンス: Link先を確認
Junyoung Park, Myeonggu Kang, Yunki Han, Yanggon Kim, Jaekang Shin, Lee-Sup Kim, (参考訳) テキスト生成におけるアテンション機構は、そのシーケンシャルな特性のためにメモリバウンドされる。 したがって、オフチップメモリアクセスはより高速な実行のために最小化されるべきである。 従来の手法では重要でないトークンをプルーニングすることでこの問題に対処していたが、各インスタンスにほぼゼロの注意確率を持つトークンを選択的に除去するには不足していた。 提案手法はソフトマックス関数の前の確率を推定し,低確率トークンを効果的に除去し,微調整をせずに12.1倍のプルーニング比を達成する。 さらに、オンデマンドのオフチップアクセスをシームレスにサポートするハードウェア設計を提案する。 我々の手法はメモリアクセスを2.6倍削減し、平均2.3倍のスピードアップと2.4倍のエネルギー効率をもたらす。

The attention mechanism in text generation is memory-bounded due to its sequential characteristics. Therefore, off-chip memory accesses should be minimized for faster execution. Although previous methods addressed this by pruning unimportant tokens, they fall short in selectively removing tokens with near-zero attention probabilities in each instance. Our method estimates the probability before the softmax function, effectively removing low probability tokens and achieving an 12.1x pruning ratio without fine-tuning. Additionally, we present a hardware design supporting seamless on-demand off-chip access. Our approach shows 2.6x reduced memory accesses, leading to an average 2.3x speedup and a 2.4x energy efficiency.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 小脳経路の深部多様性解析 : 説明可能なマルチタスク学習による微細構造と個々の機能のリンク

Deep multimodal saliency parcellation of cerebellar pathways: linking microstructure and individual function through explainable multitask learning ( http://arxiv.org/abs/2407.15132v1 )

ライセンス: Link先を確認
Ari Tchetchenian, Leo Zekelman, Yuqian Chen, Jarrett Rushmore, Fan Zhang, Edward H. Yeterian, Nikos Makris, Yogesh Rathi, Erik Meijering, Yang Song, Lauren J. O'Donnell, (参考訳) ヒト小脳経路のパーセレーションは、人間の脳の理解を促進するために不可欠である。 既存の拡散MRI画像解析法は, 線維構造のみに依存しつつ, 主要な小脳線維構造を定義することに成功している。 しかし、各線維路は、小脳の複数の認知機能や運動機能に関連する情報を中継することができる。 したがって、パーセレーションは、個々の運動と認知機能的パフォーマンス測定において、ファイバートラクトが潜在的に重要であることを考慮することが有益である。 本研究では,マイクロ構造と接続性の両方の尺度と,個々の機能性能の尺度を組み込んだ,小脳経路解析のためのマルチモーダルデータ駆動方式を提案する。 提案手法では,まずマルチタスク深層ネットワークをトレーニングし,繊維の構造的特徴から様々な認知的・運動的指標を予測する。 次に、各関数測度を予測するための各構造特徴の重要性を計算し、その結果、小脳経路を解析するためにクラスタ化された一連の構造関数のサリエンシ値が生成される。 本手法をDeep Multimodal Saliency Parcellation(ディープ・マルチモーダル・サリエンシ・パーセラレーション,DeepMSP)と呼ぶ。 DeepMSPを応用したところ、トレーニングフォールド間で安定なユニークな構造機能を持つ複数の小脳経路パリセルの同定が可能であることが判明した。

Parcellation of human cerebellar pathways is essential for advancing our understanding of the human brain. Existing diffusion MRI tractography parcellation methods have been successful in defining major cerebellar fibre tracts, while relying solely on fibre tract structure. However, each fibre tract may relay information related to multiple cognitive and motor functions of the cerebellum. Hence, it may be beneficial for parcellation to consider the potential importance of the fibre tracts for individual motor and cognitive functional performance measures. In this work, we propose a multimodal data-driven method for cerebellar pathway parcellation, which incorporates both measures of microstructure and connectivity, and measures of individual functional performance. Our method involves first training a multitask deep network to predict various cognitive and motor measures from a set of fibre tract structural features. The importance of each structural feature for predicting each functional measure is then computed, resulting in a set of structure-function saliency values that are clustered to parcellate cerebellar pathways. We refer to our method as Deep Multimodal Saliency Parcellation (DeepMSP), as it computes the saliency of structural measures for predicting cognitive and motor functional performance, with these saliencies being applied to the task of parcellation. Applying DeepMSP we found that it was feasible to identify multiple cerebellar pathway parcels with unique structure-function saliency patterns that were stable across training folds.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 近縁政策蒸留

Proximal Policy Distillation ( http://arxiv.org/abs/2407.15134v1 )

ライセンス: Link先を確認
Giacomo Spigler, (参考訳) 本稿では,学生主導型蒸留とPPOを統合した新しい政策蒸留法であるPyximal Policy Distillation(PPD)を導入し,サンプル効率の向上と,学生政策が蒸留中に収集する追加報酬を活用する。 提案手法の有効性を評価するため,PPDを,個別の行動と連続的な制御を含む広範囲な強化学習環境(ATARI,Mujoco,Procgen)に対して,学生用と教師用という2つの一般的な代替手段と比較した。 各環境と方法について,教師ネットワークよりも小さい,同一である(自己蒸留),あるいは大きい,対象とする学生ニューラルネットワークに対して蒸留を行う。 以上の結果から,PSDはサンプリング効率を向上し,典型的な政策蒸留法と比較して生徒の政策を改善することが示唆された。 さらに、PDは不完全な実証からポリシーを蒸留する際の他の方法よりも強い堅牢性を示す。 この論文のコードは、stable-baselines3上に構築された新しいPythonライブラリの一部としてリリースされ、ポリシーの蒸留を容易にする。

We introduce Proximal Policy Distillation (PPD), a novel policy distillation method that integrates student-driven distillation and Proximal Policy Optimization (PPO) to increase sample efficiency and to leverage the additional rewards that the student policy collects during distillation. To assess the efficacy of our method, we compare PPD with two common alternatives, student-distill and teacher-distill, over a wide range of reinforcement learning environments that include discrete actions and continuous control (ATARI, Mujoco, and Procgen). For each environment and method, we perform distillation to a set of target student neural networks that are smaller, identical (self-distillation), or larger than the teacher network. Our findings indicate that PPD improves sample efficiency and produces better student policies compared to typical policy distillation approaches. Moreover, PPD demonstrates greater robustness than alternative methods when distilling policies from imperfect demonstrations. The code for the paper is released as part of a new Python library built on top of stable-baselines3 to facilitate policy distillation: `sb3-distill'.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 19世紀オスマン帝国とロシア文学・批判テキストの多段階多言語テキスト分類データセット

A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts ( http://arxiv.org/abs/2407.15136v1 )

ライセンス: Link先を確認
Gokcen Gokceoglu, Devrim Cavusoglu, Emre Akbas, Özen Nergis Dolcerocca, (参考訳) 本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。 このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。 このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。 テキストは慎重に整理され、ラベル付けされている。 これは、構造的属性と意味的属性の両方を考慮に入れた分類学的枠組みに従って行われた。 記事は、人間の専門家によって、聖書のメタデータで分類され、タグ付けされる。 本稿では,古典的なbaba-of-words(BoW)ナイーブベイズモデルと,多言語BERT,Falcon,Llama-v2の3つのLLMを用いたベースライン分類結果を提案する。 いくつかのケースでは、Bag of Words (BoW) はLarge Language Models (LLMs) よりも優れており、特に低リソースの言語設定において、さらなる研究の必要性を強調している。 このデータセットは、自然言語処理や機械学習、特に歴史的および低リソース言語において、研究者にとって貴重なリソースであると期待されている。 データセットは公開されています^1。

This paper introduces a multi-level, multi-label text classification dataset comprising over 3000 documents. The dataset features literary and critical texts from 19th-century Ottoman Turkish and Russian. It is the first study to apply large language models (LLMs) to this dataset, sourced from prominent literary periodicals of the era. The texts have been meticulously organized and labeled. This was done according to a taxonomic framework that takes into account both their structural and semantic attributes. Articles are categorized and tagged with bibliometric metadata by human experts. We present baseline classification results using a classical bag-of-words (BoW) naive Bayes model and three modern LLMs: multilingual BERT, Falcon, and Llama-v2. We found that in certain cases, Bag of Words (BoW) outperforms Large Language Models (LLMs), emphasizing the need for additional research, especially in low-resource language settings. This dataset is expected to be a valuable resource for researchers in natural language processing and machine learning, especially for historical and low-resource languages. The dataset is publicly available^1.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# D$4$M:遠方拡散モデルによるデータセット蒸留

D$^4$M: Dataset Distillation via Disentangled Diffusion Model ( http://arxiv.org/abs/2407.15138v1 )

ライセンス: Link先を確認
Duo Su, Junjie Hou, Weizhi Gao, Yingjie Tian, Bowen Tang, (参考訳) データセットの蒸留は、高速ネットワークトレーニングのための軽量な合成データセットと、有望なテスト精度を提供する。 元のデータセットの性能を模倣するため、ほとんどの手法は二段階最適化を採用しており、蒸留空間は一致するアーキテクチャに依存している。 それにもかかわらず、これらのアプローチは大規模データセットに多大な計算コストを被るか、クロスアーキテクチャのパフォーマンス低下を経験するかのいずれかである。 我々は、マッチングアーキテクチャに依存しない経済的なデータセット蒸留フレームワークの設計を提唱する。 経験的観察により、実画像空間と合成画像空間の整合性の制約は、クロスアーキテクチャの一般化を促進すると論じる。 そこで本研究では, データセット蒸留の効率的なフレームワークである拡散拡散モデル(D$^4$M)によるデータセット蒸留を導入する。 アーキテクチャに依存した手法と比較して、D$^4$Mは一貫性を保証するために遅延拡散モデルを採用し、ラベル情報をカテゴリのプロトタイプに組み込む。 蒸留されたデータセットは汎用性があり、様々なアーキテクチャのために異なるデータセットを繰り返し生成する必要がなくなる。 総合的な実験を通じて、D$4$Mは優れた性能とロバストな一般化を示し、多くの面においてSOTA法を超越している。

Dataset distillation offers a lightweight synthetic dataset for fast network training with promising test accuracy. To imitate the performance of the original dataset, most approaches employ bi-level optimization and the distillation space relies on the matching architecture. Nevertheless, these approaches either suffer significant computational costs on large-scale datasets or experience performance decline on cross-architectures. We advocate for designing an economical dataset distillation framework that is independent of the matching architectures. With empirical observations, we argue that constraining the consistency of the real and synthetic image spaces will enhance the cross-architecture generalization. Motivated by this, we introduce Dataset Distillation via Disentangled Diffusion Model (D$^4$M), an efficient framework for dataset distillation. Compared to architecture-dependent methods, D$^4$M employs latent diffusion model to guarantee consistency and incorporates label information into category prototypes. The distilled datasets are versatile, eliminating the need for repeated generation of distinct datasets for various architectures. Through comprehensive experiments, D$^4$M demonstrates superior performance and robust generalization, surpassing the SOTA methods across most aspects.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 化学反応条件勧告のためのテキスト強化多モードLCM

Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation ( http://arxiv.org/abs/2407.15141v1 )

ライセンス: Link先を確認
Yu Zhang, Ruijie Yu, Kaipeng Zeng, Ding Li, Feng Zhu, Xiaokang Yang, Yaohui Jin, Yanyan Xu, (参考訳) 高スループット反応条件 (RC) スクリーニングは化学合成の基礎となる。 しかし、現在のRCスクリーニングは、面倒でコストのかかる試行錯誤のワークフローに悩まされている。 従来のコンピュータ支援合成計画(CASP)ツールは、データ空間と不適切な反応表現のため、適切なRCを見つけることができない。 現在、大規模言語モデル(LLM)は分子設計や化学論理Q\&Aタスクといった化学関連問題に取り組むことができる。 しかし、LSMは化学反応条件の正確な予測をまだ達成していない。 本稿では,SMILES,反応グラフ,化学反応レコメンデーションのためのテキストコーパスから統一的な反応表現を学習するマルチモーダルLLMであるMM-RCRについて述べる。 MM-RCRを訓練するために、120万のペアワイドQ\&A命令データセットを構築した。 実験の結果、MM-RCRは2つのオープンなベンチマークデータセット上で最先端のパフォーマンスを達成し、ドメイン外(OOD)とハイスループ実験(HTE)データセット上で強力な一般化能力を示すことが示された。 MM-RCRは化学合成における高スループット条件スクリーニングを加速する可能性がある。

High-throughput reaction condition (RC) screening is fundamental to chemical synthesis. However, current RC screening suffers from laborious and costly trial-and-error workflows. Traditional computer-aided synthesis planning (CASP) tools fail to find suitable RCs due to data sparsity and inadequate reaction representations. Nowadays, large language models (LLMs) are capable of tackling chemistry-related problems, such as molecule design, and chemical logic Q\&A tasks. However, LLMs have not yet achieved accurate predictions of chemical reaction conditions. Here, we present MM-RCR, a text-augmented multimodal LLM that learns a unified reaction representation from SMILES, reaction graphs, and textual corpus for chemical reaction recommendation (RCR). To train MM-RCR, we construct 1.2 million pair-wised Q\&A instruction datasets. Our experimental results demonstrate that MM-RCR achieves state-of-the-art performance on two open benchmark datasets and exhibits strong generalization capabilities on out-of-domain (OOD) and High-Throughput Experimentation (HTE) datasets. MM-RCR has the potential to accelerate high-throughput condition screening in chemical synthesis.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# リモートセンシングオブジェクト検出のための機能バックボーン微調整の再考

Rethinking Feature Backbone Fine-tuning for Remote Sensing Object Detection ( http://arxiv.org/abs/2407.15143v1 )

ライセンス: Link先を確認
Yechan Kim, JongHyun Park, SooYeon Kim, Moongu Jeon, (参考訳) 近年、多くの手法が、畳み込みやトランスフォーマーアーキテクチャに依存するリモートセンシングオブジェクト検出において、目覚ましい性能を達成している。 このような検出器は、通常、生の入力画像から有用な特徴を抽出する特徴バックボーンを持つ。 リモートセンシングドメインでは、現在の検出器間では、自然なシーンからなるImageNetで事前トレーニングを行い、バックボーンを初期化するのが一般的である。 バックボーンの微調整は通常、リモートセンシング画像に適した機能を生成するために必要である。 しかし、これは長期訓練における基本的な視覚的特徴の抽出を妨げる可能性があり、それによって性能改善が制限される。 そこで本研究では,DBF(Dynamic Backbone Freezing)と呼ばれる新しい手法を提案する。 本手法は,トレーニング中のバックボーン機能更新を動的に管理するモジュール「フリーズ・スケジューラ」を導入することで,バックボーンが低レベルなジェネリックな特徴を抽出すべきか,あるいはリモートセンシング領域の特定の知識を持つべきか,というジレンマを処理することを目的とする。 DOTAとDIOR-Rの大規模な実験により,計算コストを大幅に削減しつつ,より正確なモデル学習が可能となった。 我々の手法は、その素直な設計のため、追加の労力なしでシームレスに採用することができる。

Recently, numerous methods have achieved impressive performance in remote sensing object detection, relying on convolution or transformer architectures. Such detectors typically have a feature backbone to extract useful features from raw input images. For the remote sensing domain, a common practice among current detectors is to initialize the backbone with pre-training on ImageNet consisting of natural scenes. Fine-tuning the backbone is typically required to generate features suitable for remote-sensing images. However, this could hinder the extraction of basic visual features in long-term training, thus restricting performance improvement. To mitigate this issue, we propose a novel method named DBF (Dynamic Backbone Freezing) for feature backbone fine-tuning on remote sensing object detection. Our method aims to handle the dilemma of whether the backbone should extract low-level generic features or possess specific knowledge of the remote sensing domain, by introducing a module called 'Freezing Scheduler' to dynamically manage the update of backbone features during training. Extensive experiments on DOTA and DIOR-R show that our approach enables more accurate model learning while substantially reducing computational costs. Our method can be seamlessly adopted without additional effort due to its straightforward design.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# スケーラブルミリケルビンCMOS制御を用いたスピン量子ビット

Spin Qubits with Scalable milli-kelvin CMOS Control ( http://arxiv.org/abs/2407.15151v1 )

ライセンス: Link先を確認
Samuel K. Bartee, Will Gilbert, Kun Zuo, Kushal Das, Tuomo Tanttu, Chih Hwan Yang, Nard Dumoulin Stuyck, Sebastian J. Pauka, Rocky Y. Su, Wee Han Lim, Santiago Serrano, Christopher C. Escott, Fay E. Hudson, Kohei M. Itoh, Arne Laucht, Andrew S. Dzurak, David J. Reilly, (参考訳) スピン量子ビットの重要な利点は、サブミクロンフットプリントであり、単一のシリコンチップが、エラー訂正で有用な量子アルゴリズムを実行するのに必要な数百万の量子ビットをホストすることができる。 しかし、各物理量子ビットが複数の制御線を必要とするため、スケールするための基本的な障壁は、量子デバイスを外部制御および読み出しハードウェアにブリッジする接続の極端な密度である。 有望な解決策は、ミリケルビン温度でキュービットプラットフォームに近縁な制御系を共同配置することである。 それでも、密に統合された制御による熱とクロストークは、特に電気ノイズに敏感な交換結合に基づく2量子エンタングゲートにおいて、量子ビット性能を低下させる可能性がある。 そこで我々は, シリコンMOS型電子スピン量子ビットを, スケールアップを実現するのに十分な電力密度で, 均一に集積したCryo-CMOS回路によって制御するベンチマークを行った。 低温CMOSはスピン量子ビットの論理演算を効率的に行うことができることを示す上で,ミルケルビン制御が単一および2量子ゲートの性能にはほとんど影響を与えないことを示す。 ミリケルビンCMOSプラットフォームの複雑さを考えると、この結果はチップレットスタイルの制御アーキテクチャによるスピン量子ビットの密なパッケージングに基づくスケーラブルな制御の可能性を秘めている。

A key virtue of spin qubits is their sub-micron footprint, enabling a single silicon chip to host the millions of qubits required to execute useful quantum algorithms with error correction. With each physical qubit needing multiple control lines however, a fundamental barrier to scale is the extreme density of connections that bridge quantum devices to their external control and readout hardware. A promising solution is to co-locate the control system proximal to the qubit platform at milli-kelvin temperatures, wired-up via miniaturized interconnects. Even so, heat and crosstalk from closely integrated control have potential to degrade qubit performance, particularly for two-qubit entangling gates based on exchange coupling that are sensitive to electrical noise. Here, we benchmark silicon MOS-style electron spin qubits controlled via heterogeneously-integrated cryo-CMOS circuits with a low enough power density to enable scale-up. Demonstrating that cryo-CMOS can efficiently enable universal logic operations for spin qubits, we go on to show that mill-kelvin control has little impact on the performance of single- and two-qubit gates. Given the complexity of our milli-kelvin CMOS platform, with some 100-thousand transistors, these results open the prospect of scalable control based on the tight packaging of spin qubits with a chiplet style control architecture.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# SNNGX:RRAMベースのニューロモルフィック加速器上での遺伝的XOR暗号化によるスパイクニューラルネットワークのセキュア化

SNNGX: Securing Spiking Neural Networks with Genetic XOR Encryption on RRAM-based Neuromorphic Accelerator ( http://arxiv.org/abs/2407.15152v1 )

ライセンス: Link先を確認
Kwunhang Wong, Songqi Wang, Wei Huang, Xinyuan Zhang, Yangu He, Karl M. H. Lai, Yuzhong Jiao, Ning Lin, Xiaojuan Qi, Xiaoming Chen, Zhongrui Wang, (参考訳) スパイクスパシティを特徴とする生物学的にもっともらしいスパイキングニューラルネットワーク(SNN)は、人工知能ニューラルネットワーク(ANN)と比較して、知的エッジデバイスや重要なバイオメディカル応用に対して大きな注目を集めている。 しかしながら、攻撃者はよく訓練されたSNNを利益とホワイトボックスの敵の懸念のために活用できるため、悪意あるSNNからホワイトボックス情報(すなわち重み)を抽出しようとする試みからかなりのリスクがある。 知的財産権(IP)の保護措置は困難である。 本稿では,SNNのIPを保護するために,セキュアなソフトウェアハードウェアを共設計したRRAMベースのニューロモルフィックアクセラレータを提案する。 ソフトウェア面では、暗号化を必要とする最小限の重みをターゲットとして、古典的なXOR暗号化を備えた調整された遺伝的アルゴリズムを設計する。 ハードウェアの観点からは,復号遅延をゼロにする低エネルギー復号モジュールを開発した。 NMNIST, DVSGesture, EEGMMIDB, Braille Letter, SHD などの各種データセットによる広範な結果から, 提案手法は, 極小のステルスウェイトビットを0.00005%から0.016%で暗号化することにより, SNN を効果的に保護することを示した。 さらに、x59からx6780までのエネルギー消費を大幅に削減し、x175からx4250までの復号遅延を大幅に低減する。 さらに,本手法では,クラスタ毎に1つのサンプルを暗号化し,ヘシアン/漸進的な探索不感な問題に対処する。 この戦略は、多様なアプリケーションでSNNをセキュアにするための、非常に効率的で柔軟なソリューションを提供する。

Biologically plausible Spiking Neural Networks (SNNs), characterized by spike sparsity, are growing tremendous attention over intellectual edge devices and critical bio-medical applications as compared to artificial neural networks (ANNs). However, there is a considerable risk from malicious attempts to extract white-box information (i.e., weights) from SNNs, as attackers could exploit well-trained SNNs for profit and white-box adversarial concerns. There is a dire need for intellectual property (IP) protective measures. In this paper, we present a novel secure software-hardware co-designed RRAM-based neuromorphic accelerator for protecting the IP of SNNs. Software-wise, we design a tailored genetic algorithm with classic XOR encryption to target the least number of weights that need encryption. From a hardware perspective, we develop a low-energy decryption module, meticulously designed to provide zero decryption latency. Extensive results from various datasets, including NMNIST, DVSGesture, EEGMMIDB, Braille Letter, and SHD, demonstrate that our proposed method effectively secures SNNs by encrypting a minimal fraction of stealthy weights, only 0.00005% to 0.016% weight bits. Additionally, it achieves a substantial reduction in energy consumption, ranging from x59 to x6780, and significantly lowers decryption latency, ranging from x175 to x4250. Moreover, our method requires as little as one sample per class in dataset for encryption and addresses hessian/gradient-based search insensitive problems. This strategy offers a highly efficient and flexible solution for securing SNNs in diverse applications.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# ビデオ顔再生のためのアンコールド拡散法

Anchored Diffusion for Video Face Reenactment ( http://arxiv.org/abs/2407.15153v1 )

ライセンス: Link先を確認
Idan Kligvasser, Regev Cohen, George Leifman, Ehud Rivlin, Michael Elad, (参考訳) 近年、映像生成が注目され、コヒーレントな動きでリアルな映像を制作できる大規模モデルの開発が進められている。 メモリの制約のため、これらのモデルは通常、短いビデオセグメントを生成し、それを長いビデオに結合する。 マージプロセスは、スムーズなトランジションと全体的な一貫性を保証する必要があるため、大きな課題となる。 本稿では,比較的長くシームレスな映像を合成する新しい手法であるAnchored Diffusionを紹介する。 本研究では、Diffusion Transformer(DiT)を拡張して、時間的情報を統合することにより、短いビデオセグメントを生成するシーケンスDiT(sDiT)モデルを作成する。 従来とは違って、ランダムな非一様時間間隔の動画シーケンスでモデルをトレーニングし、外部ガイダンスによる時間情報の取り込み、柔軟性の向上、短期的・長期的関係の獲得を可能にする。 さらに,提案手法では,共用フレームに固定された一様でない配列のバッチを生成し,時間的距離によらず整合性を確保する。 本手法を実証するために,運転映像の表情や動きを再現する映像から映像を作成する作業である顔再現に焦点を当てた。 総合的な実験を通じて、我々は、編集機能を提供しながら、より一貫した高品質な動画を制作する上で、現在の技術よりも優れていることを示す。

Video generation has drawn significant interest recently, pushing the development of large-scale models capable of producing realistic videos with coherent motion. Due to memory constraints, these models typically generate short video segments that are then combined into long videos. The merging process poses a significant challenge, as it requires ensuring smooth transitions and overall consistency. In this paper, we introduce Anchored Diffusion, a novel method for synthesizing relatively long and seamless videos. We extend Diffusion Transformers (DiTs) to incorporate temporal information, creating our sequence-DiT (sDiT) model for generating short video segments. Unlike previous works, we train our model on video sequences with random non-uniform temporal spacing and incorporate temporal information via external guidance, increasing flexibility and allowing it to capture both short and long-term relationships. Furthermore, during inference, we leverage the transformer architecture to modify the diffusion process, generating a batch of non-uniform sequences anchored to a common frame, ensuring consistency regardless of temporal distance. To demonstrate our method, we focus on face reenactment, the task of creating a video from a source image that replicates the facial expressions and movements from a driving video. Through comprehensive experiments, we show our approach outperforms current techniques in producing longer consistent high-quality videos while offering editing capabilities.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 大規模言語モデルを用いた機械翻訳におけるきめ細かいジェンダー制御

Fine-grained Gender Control in Machine Translation with Large Language Models ( http://arxiv.org/abs/2407.15154v1 )

ライセンス: Link先を確認
Minwoo Lee, Hyukhun Koh, Minsung Kim, Kyomin Jung, (参考訳) 機械翻訳では、あるエンティティの性別が元文で利用できないという、あいまいな性別入力の問題が指摘されている。 このあいまいさ問題に対処するために、あいまいな実体の性別を付加的な入力として取る制御翻訳の課題が提案されている。 しかし、既存の作品の多くは、入力のための1つのターゲットジェンダーの簡易的な設定しか考えていない。 本稿では、複数のエンティティを持つ入力のより現実的な設定で制御された翻訳に取り組み、LLMのジェンダー・オブ・エンティティ(GoE)プロンプト法を提案する。 提案手法は,詳細な実体レベルのジェンダー情報を用いてモデルを指示し,正しいジェンダーインフレクションで翻訳する。 4つの評価ベンチマークを用いて, LLMの複数次元における制御翻訳能力について検討し, LLMが制御翻訳における最先端性能に達することを確認した。 さらに、複数の実体の性別を制御する際に、ジェンダー干渉現象が出現することを発見した。 最後に、既存の性別精度評価指標の限界に対処し、機械翻訳におけるジェンダーインフレクションの評価手段としてLLMを活用することを提案する。

In machine translation, the problem of ambiguously gendered input has been pointed out, where the gender of an entity is not available in the source sentence. To address this ambiguity issue, the task of controlled translation that takes the gender of the ambiguous entity as additional input have been proposed. However, most existing works have only considered a simplified setup of one target gender for input. In this paper, we tackle controlled translation in a more realistic setting of inputs with multiple entities and propose Gender-of-Entity (GoE) prompting method for LLMs. Our proposed method instructs the model with fine-grained entity-level gender information to translate with correct gender inflections. By utilizing four evaluation benchmarks, we investigate the controlled translation capability of LLMs in multiple dimensions and find that LLMs reach state-of-the-art performance in controlled translation. Furthermore, we discover an emergence of gender interference phenomenon when controlling the gender of multiple entities. Finally, we address the limitations of existing gender accuracy evaluation metrics and propose leveraging LLMs as an evaluator for gender inflection in machine translation.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 蒸留ビジョンランゲージ基礎モデル:急激な多様化によるデータフリーアプローチ

Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification ( http://arxiv.org/abs/2407.15155v1 )

ライセンス: Link先を確認
Yunyi Xuan, Weijie Chen, Shicai Yang, Di Xie, Luojun Lin, Yueting Zhuang, (参考訳) データフリー知識蒸留(DFKD)は、代理データを合成することで、実際のトレーニングデータへの依存を緩和しつつ、コンパクトな学生モデルを作成する大きな可能性を示している。 しかし、先行技術は流通シフトの下で議論されることはめったになく、現実の応用に弱い可能性がある。 最近のVision-Language Foundation Models(例えばCLIP)は、ゼロショットのアウト・オブ・ディストリビューションの一般化において顕著な性能を示したが、重い計算資源を消費している。 本稿では,10億レベルの画像テキストデータセットにアクセスすることなく,DFKDからVision-Language Foundation Modelsへの拡張について論じる。 本研究の目的は,事前学習した基礎モデルから配布外一般化能力を継承し,特定のカテゴリ概念を用いて,配布に依存しない下流タスクのための学生モデルをカスタマイズすることである。 一般化の劣化を避けるために、このタスクの主な課題は、テキストプロンプトによって駆動される多様な代理画像の合成である。 カテゴリ概念だけでなく、スタイル情報もテキストプロンプトにエンコードされるので、Mix-Prompt、Random-Prompt、Contrastive-Promptといった多様なスタイルで画像合成を促進する3つの新しいPrompt Diversification法を提案する。 分布外一般化データセットの実験は、提案手法の有効性を示し、Contrastive-Promptが最適である。

Data-Free Knowledge Distillation (DFKD) has shown great potential in creating a compact student model while alleviating the dependency on real training data by synthesizing surrogate data. However, prior arts are seldom discussed under distribution shifts, which may be vulnerable in real-world applications. Recent Vision-Language Foundation Models, e.g., CLIP, have demonstrated remarkable performance in zero-shot out-of-distribution generalization, yet consuming heavy computation resources. In this paper, we discuss the extension of DFKD to Vision-Language Foundation Models without access to the billion-level image-text datasets. The objective is to customize a student model for distribution-agnostic downstream tasks with given category concepts, inheriting the out-of-distribution generalization capability from the pre-trained foundation models. In order to avoid generalization degradation, the primary challenge of this task lies in synthesizing diverse surrogate images driven by text prompts. Since not only category concepts but also style information are encoded in text prompts, we propose three novel Prompt Diversification methods to encourage image synthesis with diverse styles, namely Mix-Prompt, Random-Prompt, and Contrastive-Prompt. Experiments on out-of-distribution generalization datasets demonstrate the effectiveness of the proposed methods, with Contrastive-Prompt performing the best.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# HERGen: 縦断データを用いた放射線学レポート作成

HERGen: Elevating Radiology Report Generation with Longitudinal Data ( http://arxiv.org/abs/2407.15158v1 )

ライセンス: Link先を確認
Fuying Wang, Shenghui Du, Lequan Yu, (参考訳) 放射線医学報告では、患者の医療履歴と統合された医療画像の詳細な記述が提供されているが、レポート作成は伝統的に労働集約的であり、放射線技師の作業量の増加と診断ミスのリスクが増大している。 このプロセスの自動化に向けた最近の取り組みは、精度と臨床効率を向上させることでこれらの問題を緩和しようとしている。 このプロセスの自動化に関する新たな研究は、エラーの削減と臨床ワークフローの合理化によってこれらの課題を軽減することを約束している。 しかし、既存の自動化アプローチは、単一のタイムスタンプに基づいており、正確な経時的分析に欠かせない、患者の画像の撮影履歴の重要な時間的側面を無視することが多い。 このギャップに対処するために,患者訪問中における経時的データを効率よく統合するグループ因果変換器を用いたHERGen(History Enhanced Radiology Report Generation)フレームワークを提案する。 提案手法は, 各種履歴データの包括的解析を可能にするだけでなく, 画像シーケンスを対応するレポートと整合させる補助的コントラスト目的により, 生成したレポートの品質を向上させる。 さらに,縦断放射線学データの本質的な複雑さを十分に処理し,フレームワークの最適化を安定させるためのカリキュラムベースの戦略を導入する。 3つのデータセットにまたがる広範囲な評価結果から,我々のフレームワークは,正確な放射線診断レポートを作成し,医用画像から疾患の進行を効果的に予測する上で,既存の手法を超越していることが明らかとなった。

Radiology reports provide detailed descriptions of medical imaging integrated with patients' medical histories, while report writing is traditionally labor-intensive, increasing radiologists' workload and the risk of diagnostic errors. Recent efforts in automating this process seek to mitigate these issues by enhancing accuracy and clinical efficiency. Emerging research in automating this process promises to alleviate these challenges by reducing errors and streamlining clinical workflows. However, existing automated approaches are based on a single timestamp and often neglect the critical temporal aspect of patients' imaging histories, which is essential for accurate longitudinal analysis. To address this gap, we propose a novel History Enhanced Radiology Report Generation (HERGen) framework that employs a employs a group causal transformer to efficiently integrate longitudinal data across patient visits. Our approach not only allows for comprehensive analysis of varied historical data but also improves the quality of generated reports through an auxiliary contrastive objective that aligns image sequences with their corresponding reports. More importantly, we introduce a curriculum learning-based strategy to adeptly handle the inherent complexity of longitudinal radiology data and thus stabilize the optimization of our framework. The extensive evaluations across three datasets demonstrate that our framework surpasses existing methods in generating accurate radiology reports and effectively predicting disease progression from medical images.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 変換器はいつnにカウントできるのか?

When Can Transformers Count to n? ( http://arxiv.org/abs/2407.15160v1 )

ライセンス: Link先を確認
Gilad Yehudai, Haim Kaplan, Asma Ghandeharioun, Mor Geva, Amir Globerson, (参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルは、非常に複雑なタスクを解くことができる。 しかし、そのようなモデルでは解決できない単純なタスクがありますか? ここでは、文字列に何回トークンが出現したかをカウントする非常に単純なカウントタスクに注目します。 本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。 しかし,提案する解は,この限界を超えてスケールしないため,サイズ限定の変圧器では実現不可能な理由を理論的に論じる。 実験結果は,理論的な議論によって予想されるように,性能の相転移を示すものである。 本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。

Large language models based on the transformer architectures can solve highly complex tasks. But are there simple tasks that such models cannot solve? Here we focus on very simple counting tasks, that involve counting how many times a token in the vocabulary have appeared in a string. We show that if the dimension of the transformer state is linear in the context length, this task can be solved. However, the solution we propose does not scale beyond this limit, and we provide theoretical arguments for why it is likely impossible for a size limited transformer to implement this task. Our empirical results demonstrate the same phase-transition in performance, as anticipated by the theoretical argument. Our results demonstrate the importance of understanding how transformers can solve simple tasks.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# FFHFlow:マルチフィンガーグラスのリアルタイム合成のためのフローベース変分手法

FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time ( http://arxiv.org/abs/2407.15161v1 )

ライセンス: Link先を確認
Qian Feng, Jianxiang Feng, Zhaopeng Chen, Rudolph Triebel, Alois Knoll, (参考訳) 多指ハンドによる多様な正確な把握を合成することは、ロボティクスにおいて重要な課題である。 生成モデルに焦点をあてたこれまでの努力は、多次元・高次元のグリップ分布を正確に把握するに足りなかった。 そこで本研究では,複雑な確率分布を学習するための表現モデルである正規化フロー(NF)に基づく,DGM(Deep Generative Model)の利用を提案する。 具体的には, FFHFlow-cnfと呼ばれる単一条件NF(cNFs)を直接適用して, 不完全点雲上に条件付きグリップ分布を学習することにより, 多様性の向上を図った。 しかし, 潜在空間における表現力の制限により, 限られた性能向上が認められた。 そこで我々は,新しいフローベースD Deep Latent Variable Model (DLVM, FFHFlow-lvm) を開発する動機となった。 変分オートエンコーダ(VAE)とは異なり、提案するDLVMは、通常等方ガウスに制限される2つのcNFを事前分布と可能性分布に利用することにより、モード崩壊や不特定前処理といった典型的な落とし穴を対処する。 シミュレーションおよび実ロボットシナリオにおける包括的実験により,本手法はVAEベースラインよりも正確で多様な把握を実現できることが示された。 さらに、リアルタイムアプリケーションに対する高い可能性を明らかにするために、実行時比較を行う。

Synthesizing diverse and accurate grasps with multi-fingered hands is an important yet challenging task in robotics. Previous efforts focusing on generative modeling have fallen short of precisely capturing the multi-modal, high-dimensional grasp distribution. To address this, we propose exploiting a special kind of Deep Generative Model (DGM) based on Normalizing Flows (NFs), an expressive model for learning complex probability distributions. Specifically, we first observed an encouraging improvement in diversity by directly applying a single conditional NFs (cNFs), dubbed FFHFlow-cnf, to learn a grasp distribution conditioned on the incomplete point cloud. However, we also recognized limited performance gains due to restricted expressivity in the latent space. This motivated us to develop a novel flow-based d Deep Latent Variable Model (DLVM), namely FFHFlow-lvm, which facilitates more reasonable latent features, leading to both diverse and accurate grasp synthesis for unseen objects. Unlike Variational Autoencoders (VAEs), the proposed DLVM counteracts typical pitfalls such as mode collapse and mis-specified priors by leveraging two cNFs for the prior and likelihood distributions, which are usually restricted to being isotropic Gaussian. Comprehensive experiments in simulation and real-robot scenarios demonstrate that our method generates more accurate and diverse grasps than the VAE baselines. Additionally, a run-time comparison is conducted to reveal its high potential for real-time applications.
翻訳日:2024-07-23 19:08:59 公開日:2024-07-21
# 逆回路評価

Adversarial Circuit Evaluation ( http://arxiv.org/abs/2407.15166v1 )

ライセンス: Link先を確認
Niels uit de Bos, Adrià Garriga-Alonso, (参考訳) ニューラルネットワークが特定のタスクをどのように実行するか、回路は正確に記述することが求められています。 文献(IOI, Great-than, and docstring)中の3つの回路を,回路の動作が全モデルから最大に分岐する入力を考慮した逆方向で評価する。 具体的には、全モデルの出力と回路の出力とのKLのばらつきを測定し、再サンプリングアブレーションによって計算し、最悪性能の入力を解析する。 本結果から,IOIタスクとドクストリングタスクの回路は,本来のタスクからの完全良性入力においても,完全モデルと同様の動作をせず,より堅牢な回路が安全クリティカルなアプリケーションに必要であることが示唆された。

Circuits are supposed to accurately describe how a neural network performs a specific task, but do they really? We evaluate three circuits found in the literature (IOI, greater-than, and docstring) in an adversarial manner, considering inputs where the circuit's behavior maximally diverges from the full model. Concretely, we measure the KL divergence between the full model's output and the circuit's output, calculated through resample ablation, and we analyze the worst-performing inputs. Our results show that the circuits for the IOI and docstring tasks fail to behave similarly to the full model even on completely benign inputs from the original task, indicating that more robust circuits are needed for safety-critical applications.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# VEP Booster:ビジュアル脳波バイオマーカー自動生成のためのクローズドループAIシステム

The VEP Booster: A Closed-Loop AI System for Visual EEG Biomarker Auto-generation ( http://arxiv.org/abs/2407.15167v1 )

ライセンス: Link先を確認
Junwen Luo, Chengyong Jiang, Qingyuan Chen, Dongqi Han, Yansen Wang, Biao Yan, Dongsheng Li, Jiayi Zhang, (参考訳) 効果的な視覚脳-機械インタフェース(BMI)は、信頼性が高く安定した脳波バイオマーカーに基づいている。 しかし、従来の適応フィルタベースのアプローチは脳波信号の個人差に悩まされるが、ディープニューラルネットワークベースのアプローチはバイオマーカー減衰と背景振動による脳波信号の非定常性によって妨げられる可能性がある。 これらの課題に対処するために、視覚刺激プロトコルの下で信頼性が高く安定した脳波バイオマーカーを生成する新しいクローズドループAIフレームワークであるVisual Evoked Potential Booster (VEP Booster)を提案する。 本システムでは,ヒト脳波信号からのリアルタイムフィードバックに基づいて刺激画像を精査し,一次視覚野ニューロン(V1)の嗜好に合わせて視覚刺激を発生させ,刺激に最も反応するニューロンの効果的な標的化を可能にする。 我々は,5人の被験者を対象に,システムの実装と定常視覚誘発電位(SSVEP)を用いたアプローチを検証した。 その結果,脳波バイオマーカーの信頼性と有用性は著しく向上し,SSVEP反応は105%,最小値が28%,平均値が76.5%であった。 これらの有望な結果は臨床および技術応用の両方に影響を及ぼす

Effective visual brain-machine interfaces (BMI) is based on reliable and stable EEG biomarkers. However, traditional adaptive filter-based approaches may suffer from individual variations in EEG signals, while deep neural network-based approaches may be hindered by the non-stationarity of EEG signals caused by biomarker attenuation and background oscillations. To address these challenges, we propose the Visual Evoked Potential Booster (VEP Booster), a novel closed-loop AI framework that generates reliable and stable EEG biomarkers under visual stimulation protocols. Our system leverages an image generator to refine stimulus images based on real-time feedback from human EEG signals, generating visual stimuli tailored to the preferences of primary visual cortex (V1) neurons and enabling effective targeting of neurons most responsive to stimuli. We validated our approach by implementing a system and employing steady-state visual evoked potential (SSVEP) visual protocols in five human subjects. Our results show significant enhancements in the reliability and utility of EEG biomarkers for all individuals, with the largest improvement in SSVEP response being 105%, the smallest being 28%, and the average increase being 76.5%. These promising results have implications for both clinical and technological applications
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 神経活動空間における深層強化学習のバックドア

Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space ( http://arxiv.org/abs/2407.15168v1 )

ライセンス: Link先を確認
Sanyam Vyas, Chris Hicks, Vasilios Mavroudis, (参考訳) 本稿では, 深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討し, 実行時検出のための新しい手法を提案する。 本研究は, アウトドア・トリガーの解明に焦点をあてる。 このようなトリガーは、期待するデータ分布にブレンドして検出を回避しながら、バックドアエージェントの動作に偏りを生じさせるように設計されている。 アタリ・ブレイクアウト環境で実施した実験を通じて、このようなトリガーに直面する場合の現在の衛生方法の限界を実証し、なぜ困難な防衛課題を提示するのかを考察する。 次に、DRLエージェントのポリシーネットワークの神経活性化空間において、バックドアトリガーがより容易に検出できるという仮説を評価する。 我々の統計分析によると、エージェントのポリシーネットワークの活性化パターンは、そのトリガーが環境の中でどれだけうまく隠されているかに関わらず、トリガーの存在下でははっきりしている。 そこで本研究では,クリーン環境サンプルに基づいて訓練された分類器を用いて,異常なアクティベーションを検出する新しい防衛手法を提案する。 本研究は, 軽量分類器であっても, 高い精度で悪意ある行為を効果的に防止できることを示し, 高度な敵に対しても, 研究の方向性の可能性を示唆している。

This paper investigates the threat of backdoors in Deep Reinforcement Learning (DRL) agent policies and proposes a novel method for their detection at runtime. Our study focuses on elusive in-distribution backdoor triggers. Such triggers are designed to induce a deviation in the behaviour of a backdoored agent while blending into the expected data distribution to evade detection. Through experiments conducted in the Atari Breakout environment, we demonstrate the limitations of current sanitisation methods when faced with such triggers and investigate why they present a challenging defence problem. We then evaluate the hypothesis that backdoor triggers might be easier to detect in the neural activation space of the DRL agent's policy network. Our statistical analysis shows that indeed the activation patterns in the agent's policy network are distinct in the presence of a trigger, regardless of how well the trigger is concealed in the environment. Based on this, we propose a new defence approach that uses a classifier trained on clean environment samples and detects abnormal activations. Our results show that even lightweight classifiers can effectively prevent malicious actions with considerable accuracy, indicating the potential of this research direction even against sophisticated adversaries.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# バック・イン・タイム拡散:医療用ディープフェイクの教師なし検出

Back-in-Time Diffusion: Unsupervised Detection of Medical Deepfakes ( http://arxiv.org/abs/2407.15169v1 )

ライセンス: Link先を確認
Fred Grabovski, Lior Yasur, Guy Amit, Yuval Elovici, Yisroel Mirsky, (参考訳) 近年の生成モデルの発展により、画像コンテンツの編集や作成が容易になり、特に医療におけるディープフェイクの拡散への懸念が高まっている。 従来のカメラで捉えた操作画像を検出する技術が多数存在するが、医療画像への適用性は限られている。 この制限は、医用画像の特徴的な法医学的特徴、すなわち画像処理の結果に由来する。 本研究では拡散モデルに基づく医用画像のための新しい異常検出法を提案する。 通常、拡散モデルを用いて画像を生成する。 しかし、モデルに疑似画像上の拡散を逆転させることにより、類似したプロセスを用いて合成内容を検出する方法を示す。 われわれはCTおよびMRIで偽腫瘍を検出・除去する作業について検討した。 我々の手法は、他の最先端の非監視検出器よりはるかに優れており、AUCは0.79から0.9、除去は0.91から0.96から平均して0.9である。

Recent progress in generative models has made it easier for a wide audience to edit and create image content, raising concerns about the proliferation of deepfakes, especially in healthcare. Despite the availability of numerous techniques for detecting manipulated images captured by conventional cameras, their applicability to medical images is limited. This limitation stems from the distinctive forensic characteristics of medical images, a result of their imaging process. In this work we propose a novel anomaly detector for medical imagery based on diffusion models. Normally, diffusion models are used to generate images. However, we show how a similar process can be used to detect synthetic content by making a model reverse the diffusion on a suspected image. We evaluate our method on the task of detecting fake tumors injected and removed from CT and MRI scans. Our method significantly outperforms other state of the art unsupervised detectors with an increased AUC of 0.9 from 0.79 for injection and of 0.96 from 0.91 for removal on average.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 半スーパービジョン・パイプビデオの時間的欠陥間隔の定位

Semi-Supervised Pipe Video Temporal Defect Interval Localization ( http://arxiv.org/abs/2407.15170v1 )

ライセンス: Link先を確認
Zhu Huang, Gang Pan, Chao Kang, YaoZhi Lv, (参考訳) 下水道管閉鎖回路テレビ(CCTV)検査では, 正確な時間的欠陥局所化が効果的な欠陥分類, 検出, セグメンテーション, 定量化に不可欠である。 業界標準は通常、時間間隔アノテーションを必要としないが、欠陥ローカライゼーションのためのタイムポイントアノテーションよりも情報的であり、完全な教師付きメソッドを使用すると追加のアノテーションコストが発生する。 さらに,管内検査と時間的行動局所化(TAL)のシーンタイプとカメラ動作パターンの違いは,点監督型 TAL 法の効果的な移動を妨げている。 そこで本研究では,視覚オドメトリーを応用した半教師付きマルチプロトタイプ方式(PipeSPO)を提案する。 PipeSPOは、教師なしのプリテキストタスクを通じてラベルなしのデータを完全に活用し、カメラのポーズ情報を取得するために視覚的オドメトリ機能に依存する弱教師付きマルチプロトタイプベースの手法で、タイムポイントアノテートデータを利用する。 実世界のデータセットでの実験では、PipeSPOは、IoU(Intersection over Union)閾値の0.1-0.7の平均精度を41.89%達成し、現在の最先端手法よりも8.14%向上している。

In sewer pipe Closed-Circuit Television (CCTV) inspection, accurate temporal defect localization is essential for effective defect classification, detection, segmentation and quantification. Industry standards typically do not require time-interval annotations, even though they are more informative than time-point annotations for defect localization, resulting in additional annotation costs when fully supervised methods are used. Additionally, differences in scene types and camera motion patterns between pipe inspections and Temporal Action Localization (TAL) hinder the effective transfer of point-supervised TAL methods. Therefore, this study introduces a Semi-supervised multi-Prototype-based method incorporating visual Odometry for enhanced attention guidance (PipeSPO). PipeSPO fully leverages unlabeled data through unsupervised pretext tasks and utilizes time-point annotated data with a weakly supervised multi-prototype-based method, relying on visual odometry features to capture camera pose information. Experiments on real-world datasets demonstrate that PipeSPO achieves 41.89% average precision across Intersection over Union (IoU) thresholds of 0.1-0.7, improving by 8.14% over current state-of-the-art methods.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 生成モデルの潜在空間によるサンプル品質の評価

Assessing Sample Quality via the Latent Space of Generative Models ( http://arxiv.org/abs/2407.15171v1 )

ライセンス: Link先を確認
Jingyi Xu, Hieu Le, Dimitris Samaras, (参考訳) 生成モデルの進歩は、サンプルの品質評価の必要性を高めます。 そのため、事前訓練された特徴抽出器を使用して、生成されたサンプルと実際のサンプルを比較のために共通の空間に埋め込む。 しかし、異なる特徴抽出器は矛盾した評価結果をもたらす可能性がある。 さらに,これらの手法は,医用画像や3Dアセットなど,堅牢で普遍的な特徴抽出器が存在しない領域では適用できない。 本稿では,学習した生成モデルの潜伏空間を直接検討し,生成したサンプルの品質を推定する。 これは、生成したサンプルの品質が、それに似たトレーニングデータの量に直接関連しており、潜伏空間の密度を調べることで、この情報を推測できるためである。 したがって, 潜時密度スコア関数を用いて, 試料品質の定量化を行う。 提案手法は, VAE, GAN, 潜伏拡散モデルなど, 様々な生成モデルのサンプル品質と高い相関関係を示す。 従来の品質評価手法と比較して,本手法には次のような利点がある。 1)計算コストの削減による前世代品質評価 2【各種領域・モダリティの一般化】 3)潜伏型画像編集・生成法の適用性。 広汎な実験により,提案手法は,少数ショット画像分類や潜在顔画像編集などの下流作業に有効であることが示された。 コードはhttps://github.com/cvlab-stonybrook/LS-sample-qualityで入手できる。

Advances in generative models increase the need for sample quality assessment. To do so, previous methods rely on a pre-trained feature extractor to embed the generated samples and real samples into a common space for comparison. However, different feature extractors might lead to inconsistent assessment outcomes. Moreover, these methods are not applicable for domains where a robust, universal feature extractor does not yet exist, such as medical images or 3D assets. In this paper, we propose to directly examine the latent space of the trained generative model to infer generated sample quality. This is feasible because the quality a generated sample directly relates to the amount of training data resembling it, and we can infer this information by examining the density of the latent space. Accordingly, we use a latent density score function to quantify sample quality. We show that the proposed score correlates highly with the sample quality for various generative models including VAEs, GANs and Latent Diffusion Models. Compared with previous quality assessment methods, our method has the following advantages: 1) pre-generation quality estimation with reduced computational cost, 2) generalizability to various domains and modalities, and 3) applicability to latent-based image editing and generation methods. Extensive experiments demonstrate that our proposed methods can benefit downstream tasks such as few-shot image classification and latent face image editing. Code is available at https://github.com/cvlab-stonybrook/LS-sample-quality.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# CLIP時代におけるドメイン適応と一般化の再考

Rethinking Domain Adaptation and Generalization in the Era of CLIP ( http://arxiv.org/abs/2407.15173v1 )

ライセンス: Link先を確認
Ruoyu Feng, Tao Yu, Xin Jin, Xiaoyuan Yu, Lei Xiao, Zhibo Chen, (参考訳) ドメイン適応に関する最近の研究では、ソースドメインからターゲットドメインへの共有知識の学習に重点が置かれている。 近年,大規模な視覚言語事前学習モデルであるCLIPは,ゼロショット認識に強い能力を示し,パラメータの効率的なチューニングにより,特定のタスクのパフォーマンスが向上している。 この研究は、単純なドメインが特定のドメインにおけるCLIPのゼロショット認識を促進することを実証している。 さらに、CLIPの適応は、さまざまな事前トレーニングデータセットのため、ソースドメインデータに依存しない。 さらに,CLIPを用いたゼロショット適応と擬似ラベルに基づく自己学習のためのベンチマークを作成する。 最後に、より実用的でユニークなシナリオである複数のラベルのないドメインからCLIPのタスク一般化能力を改善することを提案する。 この発見は,CLIP時代におけるドメイン適応ベンチマークの再考と関連するアルゴリズムの役割を動機としている。

In recent studies on domain adaptation, significant emphasis has been placed on the advancement of learning shared knowledge from a source domain to a target domain. Recently, the large vision-language pre-trained model, i.e., CLIP has shown strong ability on zero-shot recognition, and parameter efficient tuning can further improve its performance on specific tasks. This work demonstrates that a simple domain prior boosts CLIP's zero-shot recognition in a specific domain. Besides, CLIP's adaptation relies less on source domain data due to its diverse pre-training dataset. Furthermore, we create a benchmark for zero-shot adaptation and pseudo-labeling based self-training with CLIP. Last but not least, we propose to improve the task generalization ability of CLIP from multiple unlabeled domains, which is a more practical and unique scenario. We believe our findings motivate a rethinking of domain adaptation benchmarks and the associated role of related algorithms in the era of CLIP.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# TADA:時系列データに対する時間的逆データ拡張

TADA: Temporal Adversarial Data Augmentation for Time Series Data ( http://arxiv.org/abs/2407.15174v1 )

ライセンス: Link先を確認
Byeong Tak Lee, Joon-myoung Kwon, Yong-Yeon Jo, (参考訳) ドメインの一般化には、アウト・オブ・ディストリビューションデータセットから見えないサンプルを堅牢に実行するために、機械学習モデルをトレーニングすることが含まれる。 Adversarial Data Augmentation (ADA) は、潜在的な未知のサンプルをシミュレートするために設計された合成サンプルを組み込むことにより、モデル適応性を高める一般的なアプローチである。 ADAは振幅関連分布シフトを効果的に処理するが、時系列データに不可欠な時間シフトの管理には不十分である。 この制限に対処するため,時間変化を対象とする時間ワープ手法を組み込んだTADA(Temporal Adversarial Data Augmentation for Time Teries Data)を提案する。 従来の時間ワープにおける非微分可能性の課題を認識し、周波数領域における位相シフトを活用することにより、識別できるようにする。 様々な領域にわたる評価の結果、TADは既存のADAの亜種よりも大幅に優れており、様々な分布を持つ時系列データセットにおけるモデル性能が向上していることが示された。

Domain generalization involves training machine learning models to perform robustly on unseen samples from out-of-distribution datasets. Adversarial Data Augmentation (ADA) is a commonly used approach that enhances model adaptability by incorporating synthetic samples, designed to simulate potential unseen samples. While ADA effectively addresses amplitude-related distribution shifts, it falls short in managing temporal shifts, which are essential for time series data. To address this limitation, we propose the Temporal Adversarial Data Augmentation for time teries Data (TADA), which incorporates a time warping technique specifically targeting temporal shifts. Recognizing the challenge of non-differentiability in traditional time warping, we make it differentiable by leveraging phase shifts in the frequency domain. Our evaluations across diverse domains demonstrate that TADA significantly outperforms existing ADA variants, enhancing model performance across time series datasets with varied distributions.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# ${\it Asparagus}$: 機械学習型ポテンシャルエネルギー表面の自律的ユーザガイド構築のためのツールキット

${\it Asparagus}$: A Toolkit for Autonomous, User-Guided Construction of Machine-Learned Potential Energy Surfaces ( http://arxiv.org/abs/2407.15175v1 )

ライセンス: Link先を確認
Kai Töpfer, Luis Itza Vazquez-Salazar, Markus Meuwly, (参考訳) 科学コミュニティにおける機械学習(ML)技術の確立により、MLポテンシャルエネルギー面(ML-PES)の構築は物理学や化学の標準的プロセスとなっている。 これまでのところ、ML-PESモデルの構築は独立して行われており、新しいユーザーが結果の再現性を克服し、複雑化する最初のハードルとなっている。 ML-PESを広範囲に使用するためのバーを減らすため,我々は,ML-PESモデルの自律的かつユーザガイドによる構築を可能にする,さまざまな部分を一貫した実装に包含するソフトウェアパッケージである${\it Asparagus}$を紹介した。 ${\it Asparagus}$は、初期データサンプリングの機能をインターフェースと組み合わせて、${\it ab initio}$計算プログラム、MLモデルのトレーニング、モデルの評価と、ASEやCHARMMといった他のコードへの適用などを行います。 コードの機能については、小さな分子のダイナミクス、有機金属化合物の反応性ポテンシャルの表現、周期的な表面構造への原子拡散など、様々な例で説明されている。 The modular framework of ${\it Asparagus}$ is designed to allow simple implementation of further ML-related method and model to provide constant user- friendly access to the-of-the-the-art ML techniques。

With the establishment of machine learning (ML) techniques in the scientific community, the construction of ML potential energy surfaces (ML-PES) has become a standard process in physics and chemistry. So far, improvements in the construction of ML-PES models have been conducted independently, creating an initial hurdle for new users to overcome and complicating the reproducibility of results. Aiming to reduce the bar for the extensive use of ML-PES, we introduce ${\it Asparagus}$, a software package encompassing the different parts into one coherent implementation that allows an autonomous, user-guided construction of ML-PES models. ${\it Asparagus}$ combines capabilities of initial data sampling with interfaces to ${\it ab initio}$ calculation programs, ML model training, as well as model evaluation and its application within other codes such as ASE or CHARMM. The functionalities of the code are illustrated in different examples, including the dynamics of small molecules, the representation of reactive potentials in organometallic compounds, and atom diffusion on periodic surface structures. The modular framework of ${\it Asparagus}$ is designed to allow simple implementations of further ML-related methods and models to provide constant user-friendly access to state-of-the-art ML techniques.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 有限注意スコープによるトレーニング不要無期限文脈である長さ外挿術の問題点

Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope ( http://arxiv.org/abs/2407.15176v1 )

ライセンス: Link先を確認
Xiaoran Liu, Qipeng Guo, Yuerong Song, Zhigeng Liu, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu, (参考訳) 最大サポートされたコンテキスト長は、LLM(Large Language Model)の実用性を制限する重要なボトルネックである。 既存の長さ外挿法はLLMのコンテキストを数百万のトークンにまで拡張することができるが、これらはすべて明示的な上限を持つ。 本研究では,LongCacheを提案する。LongCacheは,LLMがコンテキストスコープが有限である無限のコンテキストを,フルコンテキストキャッシュの選択とトレーニング不要の統合を通じてサポートできるようにする,トレーニングフリーなアプローチである。 これにより、LLMを長さ外挿問題から効果的に解放する。 我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。 さらに、LongCacheをLLaMA3やMistral-v0.3など主要LLMに適用し、ニードル・イン・A・ヘイスタックテストで少なくとも400Kのコンテキスト長をサポートできるようにしました。 GPUを意識した最適化によって,LongCacheの効率性も近く向上します。

The maximum supported context length is a critical bottleneck limiting the practical application of the Large Language Model (LLM). Although existing length extrapolation methods can extend the context of LLMs to millions of tokens, these methods all have an explicit upper bound. In this work, we propose LongCache, a training-free approach that enables LLM to support an infinite context with finite context scope, through full-context cache selection and training-free integration. This effectively frees LLMs from the length extrapolation issue. We validate LongCache on the LongBench and L-Eval and demonstrate its performance is on par with traditional full-attention mechanisms. Furthermore, we have applied LongCache on mainstream LLMs, including LLaMA3 and Mistral-v0.3, enabling them to support context lengths of at least 400K in Needle-In-A-Haystack tests. We will improve the efficiency of LongCache by GPU-aware optimization soon.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 一般化三光子化:低地球軌道の初期軌道決定のための近似最大公準推定器

Generalizing Trilateration: Approximate Maximum Likelihood Estimator for Initial Orbit Determination in Low-Earth Orbit ( http://arxiv.org/abs/2407.15180v1 )

ライセンス: Link先を確認
Ricardo Ferreira, Filipa Valdeira, Marta Guimarães, Cláudia Soares, (参考訳) 軌道上でのアクティブな衛星や宇宙デブリの数の増加に伴い、初期軌道決定(IOD)の問題がますます重要になり、高い精度が要求される。 長年にわたり、フィルター法(例えば拡張カルマンフィルタ)、微分代数学、ランベルトの問題を解く様々なアプローチが提示されてきた。 本研究では,3つのモノスタティックレーダの設定について検討する。 これは、それぞれのレーダーが射程と射程の単一の測定値を得ることのできる最先端のアプローチであるトリラテレーション(英語版)と類似した設定に従う。 また,Multiple-Input Multiple-Output (MIMO) レーダーの進歩により,各位置がより広い範囲,角度,ドップラーシフトの測定値を得ることができると仮定した。 したがって, この手法は, より最近の技術を活用し, 追加データを取り入れた3次化の拡張と解釈できる。 我々は、いくつかの観測において漸近的に偏りがなく、漸近的に効率的である最大様相推定器(MLE)として問題を定式化する。 数値実験により,本手法は測定回数の3乗法と同じ精度を達成し,衛星の状態ベクトルのより正確な推定値を返すための代替および一般化を提供することを示した。

With the increase in the number of active satellites and space debris in orbit, the problem of initial orbit determination (IOD) becomes increasingly important, demanding a high accuracy. Over the years, different approaches have been presented such as filtering methods (for example, Extended Kalman Filter), differential algebra or solving Lambert's problem. In this work, we consider a setting of three monostatic radars, where all available measurements are taken approximately at the same instant. This follows a similar setting as trilateration, a state-of-the-art approach, where each radar is able to obtain a single measurement of range and range-rate. Differently, and due to advances in Multiple-Input Multiple-Output (MIMO) radars, we assume that each location is able to obtain a larger set of range, angle and Doppler shift measurements. Thus, our method can be understood as an extension of trilateration leveraging more recent technology and incorporating additional data. We formulate the problem as a Maximum Likelihood Estimator (MLE), which for some number of observations is asymptotically unbiased and asymptotically efficient. Through numerical experiments, we demonstrate that our method attains the same accuracy as the trilateration method for the same number of measurements and offers an alternative and generalization, returning a more accurate estimation of the satellite's state vector, as the number of available measurements increases.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# バイクロマチック駆動によるトラップイオンの熱測定

Thermometry of Trapped Ions Based on Bichromatic Driving ( http://arxiv.org/abs/2407.15182v1 )

ライセンス: Link先を確認
Xie-Qian Li, Yi Tao, Ting Chen, Wei Wu, Yi Xie, Chun-Wang Wu, Ping-Xing Chen, (参考訳) レーザー冷却イオンの正確な温度測定は、閉じ込められたイオン量子コンピューティングプラットフォームの性能に不可欠である。 しかし、既存のほとんどの手法は計算的な指数的ボトルネックに直面している。 近年、イヴァン・ヴィボルニ(Ivan Vybornyi)らにより、この障害を克服するために、二色駆動に基づく温度測定法が理論的に提案され、イオン数の増加とともに計算複雑性が一定に保たれるようになった。 本稿では,この手法の詳細な統計的解析を行い,Floquet理論を用いた不完全な実験条件に対するロバスト性を示す。 次に, 線形セグメント化表面電極イオントラッププラットフォームにおいて, その優れた性能を初めて実験的に検証した。 この方法は運動基底状態から数個の平均フォノン数まで有効であることが証明された。 我々の理論的解析と実験的検証により、このスキームがイオン結晶の温度を正確にかつ効率的に測定できることが示されている。

Accurate thermometry of laser-cooled ions is crucial for the performance of the trapped-ions quantum computing platform. However, most existing methods face a computational exponential bottleneck. Recently, a thermometry method based on bichromatic driving was theoretically proposed by Ivan Vybornyi et al. to overcome this obstacle, which allows the computational complexity to remain constant with the increase of ion numbers. In this paper, we provide a detailed statistical analysis of this method and prove its robustness to several imperfect experimental conditions using Floquet theory. We then experimentally verify its good performance on a linear segmented surface-electrode ion trap platform for the first time. This method is proven to be effective from near the motional ground state to a few mean phonon numbers. Our theoretical analysis and experimental verification demonstrate that the scheme can accurately and efficiently measure the temperature in ion crystals.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 多言語モーラル推論の復号化:モーラルマシン実験を通してLLMのバイアスを解き明かす

Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment ( http://arxiv.org/abs/2407.15184v1 )

ライセンス: Link先を確認
Karina Vida, Fabian Damken, Anne Lauscher, (参考訳) 大規模言語モデル(LLM)は、日々の生活の中で最も多様な分野への道を見出している。 日々の使用を通じて、人々の決定や意見に間接的に影響を及ぼす。 したがって、これらの LLM がどのように、どの道徳的判断を下すかを理解することが重要である。 しかし、道徳は普遍的ではなく、文化的背景に依存している。 このことは、これらの文化的嗜好が、異なる言語で促されたときのLLMにも反映されるのか、あるいは、道徳的な意思決定が異なる言語間で一貫性があるのかという疑問を提起する。 これまでのところ、ほとんどの研究は英語におけるLLMの本質的な価値の研究に重点を置いている。 LLMの道徳的偏見を多言語的に分析する研究はいくつかあるが、これらの分析は原子的作用を超えない。 我々の知る限りでは、ジレンマにおける道徳的偏見の多言語分析はまだ行われていない。 そこで本研究では,多言語環境下での5つのLLM(Falcon, Gemini, Llama, GPT, MPT)の道徳的嗜好を,異なる文化に属する人間から収集した嗜好と比較するために,道徳的機械実験(MME)を構築した。 これを実現するために、MMEの6500のシナリオを生成し、どのアクションをとるか10言語でモデルにプロンプトします。 我々の分析によると、全てのLLMはある程度異なる道徳的偏見を阻害し、人間の嗜好と異なるだけでなく、モデル自体の複数の言語にもまたがっている。 さらに、ほとんどのモデル、特にLlama 3は、人間の価値から大きく逸脱しており、例えば、より多くの人を救うよりも、少ない人を救うことを好みます。

Large language models (LLMs) increasingly find their way into the most diverse areas of our everyday lives. They indirectly influence people's decisions or opinions through their daily use. Therefore, understanding how and which moral judgements these LLMs make is crucial. However, morality is not universal and depends on the cultural background. This raises the question of whether these cultural preferences are also reflected in LLMs when prompted in different languages or whether moral decision-making is consistent across different languages. So far, most research has focused on investigating the inherent values of LLMs in English. While a few works conduct multilingual analyses of moral bias in LLMs in a multilingual setting, these analyses do not go beyond atomic actions. To the best of our knowledge, a multilingual analysis of moral bias in dilemmas has not yet been conducted. To address this, our paper builds on the moral machine experiment (MME) to investigate the moral preferences of five LLMs, Falcon, Gemini, Llama, GPT, and MPT, in a multilingual setting and compares them with the preferences collected from humans belonging to different cultures. To accomplish this, we generate 6500 scenarios of the MME and prompt the models in ten languages on which action to take. Our analysis reveals that all LLMs inhibit different moral biases to some degree and that they not only differ from the human preferences but also across multiple languages within the models themselves. Moreover, we find that almost all models, particularly Llama 3, divert greatly from human values and, for instance, prefer saving fewer people over saving more.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# テキスト-SQLタスクにおける大規模言語モデルの適用に関する調査

A Survey on Employing Large Language Models for Text-to-SQL Tasks ( http://arxiv.org/abs/2407.15186v1 )

ライセンス: Link先を確認
Liang Shi, Zhengju Tang, Zhi Yang, (参考訳) リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 しかし、SQLクエリを書くには特別な知識が必要です。 テキストからSQLへの構文解析は、自然言語クエリをSQLクエリに変換することでこの問題を解決する。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。 この調査では、テキストからSQLまでのタスクにおけるLLMの概要、ベンチマークデータセットの議論、迅速なエンジニアリング、微調整方法、今後の研究方向性について概説する。 このレビューは、読者がこの分野の最近の進歩をより深く理解し、その将来的な軌道についての洞察を得られることを願っている。

The increasing volume of data stored in relational databases has led to the need for efficient querying and utilization of this data in various sectors. However, writing SQL queries requires specialized knowledge, which poses a challenge for non-professional users trying to access and query databases. Text-to-SQL parsing solves this issue by converting natural language queries into SQL queries, thus making database access more accessible for non-expert users. To take advantage of the recent developments in Large Language Models (LLMs), a range of new methods have emerged, with a primary focus on prompt engineering and fine-tuning. This survey provides a comprehensive overview of LLMs in text-to-SQL tasks, discussing benchmark datasets, prompt engineering, fine-tuning methods, and future research directions. We hope this review will enable readers to gain a broader understanding of the recent advances in this field and offer some insights into its future trajectory.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# HoloDreamer: テキスト記述によるホロスティックな3Dパノラマ世界生成

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions ( http://arxiv.org/abs/2407.15187v1 )

ライセンス: Link先を確認
Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan, (参考訳) 3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。 テキスト間拡散モデルの強力な生成能力により、テキストプロンプトのみを用いた3Dシーンの作成が可能となり、テキスト駆動型3Dシーン生成の研究が大幅に進展した。 2次元拡散モデルから多視点監視を得るためには、一般的に拡散モデルを用いて初期局所像を生成し、続いて拡散モデルを用いて局所像を反復的に上回り、徐々にシーンを生成する方法が一般的である。 それにもかかわらず、これらの外見に基づくアプローチは、高度に完全性のないグローバルな一貫性のないシーン生成結果を生み出す傾向にあり、より広範な応用を制限している。 これらの問題に対処するために,HoloDreamerは,まずフル3Dシーンの全体的初期化として高精細パノラマを生成し,次に3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し,ビュー一貫性と完全囲い3Dシーンの作成を容易にする。 具体的には,複数の拡散モデルを組み合わせるパイプラインであるStylized Equirectular Panorama Generationを提案する。 その後、拡張2段パノラマ再構成を導入し、3D-GSの2段階最適化を行い、欠落した領域を塗装し、シーンの整合性を高める。 包括的実験により,本手法は全体の視覚的整合性や調和性,再現性,完全囲みシーンの生成時のロバスト性に優れることを示した。

3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.
翻訳日:2024-07-23 18:59:03 公開日:2024-07-21
# 事前知識のない階層型マルチラベル分類における誤り検出と制約回復

Error Detection and Constraint Recovery in Hierarchical Multi-Label Classification without Prior Knowledge ( http://arxiv.org/abs/2407.15192v1 )

ライセンス: Link先を確認
Joshua Shay Kricheli, Khoa Vo, Aniruddha Datta, Spencer Ozgur, Paulo Shakarian, (参考訳) 階層的多ラベル分類(HMC)の最近の進歩、特にニューロシンボリックに基づくアプローチは、トレーニング中に神経モデルに制約を課すことによって、一貫性と正確性の向上を実証している。 しかし、そのような研究はそのような制約の存在を前提としている。 本稿では,この強い仮定を緩和し,機械学習モデルの障害モードに関する説明可能なルールを学習するための誤り検出規則(EDR)に基づくアプローチを提案する。 これらのルールは,機械学習の分類器が誤りを犯した場合にのみ有効であるだけでなく,HMCの制約として活用できることを示す。 提案手法は,機械学習の誤りの検出や制約の回復に有効であり,ノイズ耐性であり,新たに導入された軍用車両認識データセットを含む,複数のデータセット上でのニューロシンボリックモデルの知識源として機能することを示す。

Recent advances in Hierarchical Multi-label Classification (HMC), particularly neurosymbolic-based approaches, have demonstrated improved consistency and accuracy by enforcing constraints on a neural model during training. However, such work assumes the existence of such constraints a-priori. In this paper, we relax this strong assumption and present an approach based on Error Detection Rules (EDR) that allow for learning explainable rules about the failure modes of machine learning models. We show that these rules are not only effective in detecting when a machine learning classifier has made an error but also can be leveraged as constraints for HMC, thereby allowing the recovery of explainable constraints even if they are not provided. We show that our approach is effective in detecting machine learning errors and recovering constraints, is noise tolerant, and can function as a source of knowledge for neurosymbolic models on multiple datasets, including a newly introduced military vehicle recognition dataset.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 自転車安全解析のためのパノラマ映像における複数物体検出と追跡

Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis ( http://arxiv.org/abs/2407.15199v1 )

ライセンス: Link先を確認
Jingwei Guo, Meihui Wang, Ilya Ilyankou, Natchapon Jongwiriyanurak, Xiaowei Gao, Nicola Christie, James Haworth, (参考訳) パノラマサイクリングビデオは、サイクリストの周囲の360度映像を録画することができる。 したがって, サイクリング安全研究のためのデータ提供のために, コンピュータビジョンモデルを用いて, 自動道路利用者分析を行うことが不可欠である。 しかし, パノラマデータの特徴, 多数の小物体, 境界連続性などの特徴は, 従来のCVモデルに大きな課題をもたらしている。 さらに、アノテーション付きのデータがないため、モデルを再トレーニングするのは簡単ではありません。 これらの問題に対応するため,提案した3段階の手法として,(1)原画像を4視点のサブイメージに投影することで,パノラマデータ上での事前学習対象検出モデルの予測性能の向上,(2)共通に使用される複数物体追跡モデルであるDeepSORTにおける境界連続性およびカテゴリ情報のサポートの導入,(3)追跡結果を用いて周囲車両の過渡行動を検出するアプリケーションの開発,などが提案された。 提案手法は,プロジェクトによって構築されたパノラマサイクリングデータセットに基づいて,任意の入力解像度設定下でのYOLO v5m6とFaster RCNN-FPNの平均精度を向上する。 さらに、DeepSORTのMOTAとIDF1をそれぞれ7.6\%、9.7\%上昇させる。 テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。 コードはGitHubのgithub.com/cuppp1998/360_object_trackingで公開されている。

Panoramic cycling videos can record 360{\deg} views around the cyclists. Thus, it is essential to conduct automatic road user analysis on them using computer vision models to provide data for studies on cycling safety. However, the features of panoramic data such as severe distortions, large number of small objects and boundary continuity have brought great challenges to the existing CV models, including poor performance and evaluation methods that are no longer applicable. In addition, due to the lack of data with annotations, it is not easy to re-train the models. In response to these problems, the project proposed and implemented a three-step methodology: (1) improve the prediction performance of the pre-trained object detection models on panoramic data by projecting the original image into 4 perspective sub-images; (2) introduce supports for boundary continuity and category information into DeepSORT, a commonly used multiple object tracking model, and set an improved detection model as its detector; (3) using the tracking results, develop an application for detecting the overtaking behaviour of the surrounding vehicles. Evaluated on the panoramic cycling dataset built by the project, the proposed methodology improves the average precision of YOLO v5m6 and Faster RCNN-FPN under any input resolution setting. In addition, it raises MOTA and IDF1 of DeepSORT by 7.6\% and 9.7\% respectively. When detecting the overtakes in the test videos, it achieves the F-score of 0.88. The code is available on GitHub at github.com/cuppp1998/360_object_tracking to ensure the reproducibility and further improvements of results.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# HyperbolicLR:エポック非感受性学習率スケジューラ

HyperbolicLR: Epoch insensitive learning rate scheduler ( http://arxiv.org/abs/2407.15200v1 )

ライセンス: Link先を確認
Tae-Geun Kim, (参考訳) 本研究では,Hyperbolic Learning Rate Scheduler (HyperbolicLR) と Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR) の2つの新しい学習率スケジューラを提案する。 これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。 双曲曲線の漸近的挙動を活用することにより、提案したスケジューラは、エポックな設定でより一貫した学習曲線を維持することができる。 HyperbolicLRアルゴリズムは、この特性をエポック学習率空間に直接適用し、ExpHyperbolicLRはエポック学習率と学習率の指数空間にこの概念をマッピングする。 これらのスケジューラの性能を評価するために,まず,少数のエポック上で各スケジューラに対して最適なハイパーパラメータを求め,これらの値を固定し,エポックの数が増えるにつれてそれらの性能を比較した。 各種ディープラーニングタスクとアーキテクチャに関する実験結果から,HyperbolicLRとExpHyperbolicLRは,エポック数の増加に伴い,従来のスケジューラよりも一貫した性能向上を維持していることが示された。 これらの結果は、特に計算資源や時間制約が広範なハイパーパラメータ検索を制限するシナリオにおいて、私たちの双曲型学習率スケジューラがディープニューラルネットワークのトレーニングにより堅牢で効率的なアプローチを提供することを示唆している。

This study proposes two novel learning rate schedulers: the Hyperbolic Learning Rate Scheduler (HyperbolicLR) and the Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR). These schedulers attempt to address the inconsistent learning curves often observed in conventional schedulers when adjusting the number of epochs. By leveraging the asymptotic behavior of hyperbolic curves, the proposed schedulers maintain more consistent learning curves across varying epoch settings. The HyperbolicLR algorithm directly applies this property to the epoch-learning rate space, while the ExpHyperbolicLR maps this concept onto the exponential space of epochs and learning rates. To evaluate the performance of these schedulers, first we found the optimal hyperparameters for each scheduler on a small number of epochs, fixed these values, and compared their performance as the number of epochs increased. Our experimental results on various deep learning tasks and architectures demonstrate that both HyperbolicLR and ExpHyperbolicLR maintain more consistent performance improvements compared to conventional schedulers as the number of epochs increases. These findings suggest that our hyperbolic-based learning rate schedulers offer a more robust and efficient approach to training deep neural networks, especially in scenarios where computational resources or time constraints limit extensive hyperparameter searches.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 近隣住民による薬物標的親和性予測のための事前訓練モデルの構築

Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors ( http://arxiv.org/abs/2407.15202v1 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Zhenyu He, Jinhua Zhu, Yingce Xia, Shufang Xie, Rui Yan, (参考訳) 薬物-標的結合親和性(DTA)予測は薬物発見に不可欠である。 DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。 本研究は,最近の検索手法の成功に触発されて,事前学習したDTA予測モデルに適用された非パラメトリック埋め込みに基づく検索手法である$k$NN-DTAを提案する。 既存の手法と異なり、埋め込み空間とラベル空間の両方から、統合されたフレームワークに統合された2つの隣り合う集約手法を導入する。 具体的には、近辺の「emph{pair-wise search」を持つ「emph{label aggregate」と、近辺の「emph{point-wise search」を持つ「emph{representation aggregate」を提案する。 この方法は、推論フェーズで実行され、トレーニングコストを伴わずにDTA予測性能を効率的に向上することができる。 さらに,Ada-$k$NN-DTAの拡張を提案する。 例えば、BindingDB IC$_{50}$と$K_i$ testbeds、$k$NN-DTAはRMSE $\bf{0.684}$と$\bf{0.750}$の新しいレコードを取得する。 拡張されたAda-$k$NN-DTAはパフォーマンスをさらに改善し、$\bf{0.675}$と$\bf{0.735}$RMSEとなる。 これらの結果は,本手法の有効性を強く証明する。 他の設定や包括的な研究や分析の結果も、$k$NN-DTAアプローチの大きな可能性を示しています。

Drug-Target binding Affinity (DTA) prediction is essential for drug discovery. Despite the application of deep learning methods to DTA prediction, the achieved accuracy remain suboptimal. In this work, inspired by the recent success of retrieval methods, we propose $k$NN-DTA, a non-parametric embedding-based retrieval method adopted on a pre-trained DTA prediction model, which can extend the power of the DTA model with no or negligible cost. Different from existing methods, we introduce two neighbor aggregation ways from both embedding space and label space that are integrated into a unified framework. Specifically, we propose a \emph{label aggregation} with \emph{pair-wise retrieval} and a \emph{representation aggregation} with \emph{point-wise retrieval} of the nearest neighbors. This method executes in the inference phase and can efficiently boost the DTA prediction performance with no training cost. In addition, we propose an extension, Ada-$k$NN-DTA, an instance-wise and adaptive aggregation with lightweight learning. Results on four benchmark datasets show that $k$NN-DTA brings significant improvements, outperforming previous state-of-the-art (SOTA) results, e.g, on BindingDB IC$_{50}$ and $K_i$ testbeds, $k$NN-DTA obtains new records of RMSE $\bf{0.684}$ and $\bf{0.750}$. The extended Ada-$k$NN-DTA further improves the performance to be $\bf{0.675}$ and $\bf{0.735}$ RMSE. These results strongly prove the effectiveness of our method. Results in other settings and comprehensive studies/analyses also show the great potential of our $k$NN-DTA approach.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# Mask Guided Gated Convolution for Amodal Content Completion

Mask Guided Gated Convolution for Amodal Content Completion ( http://arxiv.org/abs/2407.15203v1 )

ライセンス: Link先を確認
Kaziwa Saleh, Sándor Szénási, Zoltán Vámossy, (参考訳) 部分的な可視物体を再構成するモデルを提案する。 モデルではマスクを入力として取り、それを重み付けマスクと呼ぶ。 マスクは、ゲート状の畳み込みによって、背景に比べて隠蔽されたインスタンスの可視画素により多くの重みを割り当てると共に、見えない画素の特徴を無視する。 目に見える領域からより多くの注意を引くことで、ベースラインモデル、特に均一なテクスチャを持つ場合において、我々のモデルは、ベースラインモデルよりも効果的に見えないパッチを予測することができる。 このモデルはCOCOAデータセットと2つのサブセットを自己管理的にトレーニングする。 その結果,本モデルでは,ベースラインモデルよりも高品質でテクスチャに富んだ出力が得られることがわかった。 コードは、https://github.com/KaziwaSaleh/mask-guided.comで入手できる。

We present a model to reconstruct partially visible objects. The model takes a mask as an input, which we call weighted mask. The mask is utilized by gated convolutions to assign more weight to the visible pixels of the occluded instance compared to the background, while ignoring the features of the invisible pixels. By drawing more attention from the visible region, our model can predict the invisible patch more effectively than the baseline models, especially in instances with uniform texture. The model is trained on COCOA dataset and two subsets of it in a self-supervised manner. The results demonstrate that our model generates higher quality and more texture-rich outputs compared to baseline models. Code is available at: https://github.com/KaziwaSaleh/mask-guided.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# クロスドメインマニピュレーションインタフェースとしてのフロー

Flow as the Cross-Domain Manipulation Interface ( http://arxiv.org/abs/2407.15208v1 )

ライセンス: Link先を確認
Mengda Xu, Zhenjia Xu, Yinghao Xu, Cheng Chi, Gordon Wetzstein, Manuela Veloso, Shuran Song, (参考訳) 我々は、多様なデータソースから操作スキルをロボットが取得できるスケーラブルな学習フレームワークIm2Flow2Actを提案する。 Im2Flow2Actの背景にある重要な考え方は、操作インターフェースとしてオブジェクトフローを使用すること、異なる実施形態(人間とロボット)とトレーニング環境(現実世界とシミュレーション)の間のドメインギャップを埋めることである。 Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。 人間のデモビデオに基づいて訓練されたフロー生成ネットワークは、タスク記述に基づいて初期シーン画像からオブジェクトフローを生成する。 シミュレーションされたロボットプレイデータに基づいて訓練されたフロー条件付きポリシーは、生成されたオブジェクトフローをロボットアクションにマッピングし、所望のオブジェクトの動きを実現する。 フローを入力として使うことで、このポリシーは最小限のsim-to-realギャップで現実世界に直接展開できる。 実世界の人間のビデオとシミュレーションされたロボットのプレイデータを活用することで、現実世界での物理的ロボットの遠隔操作という課題を回避し、多様なタスクのためのスケーラブルなシステムを実現する。 我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。

We present Im2Flow2Act, a scalable learning framework that enables robots to acquire manipulation skills from diverse data sources. The key idea behind Im2Flow2Act is to use object flow as the manipulation interface, bridging domain gaps between different embodiments (i.e., human and robot) and training environments (i.e., real-world and simulated). Im2Flow2Act comprises two components: a flow generation network and a flow-conditioned policy. The flow generation network, trained on human demonstration videos, generates object flow from the initial scene image, conditioned on the task description. The flow-conditioned policy, trained on simulated robot play data, maps the generated object flow to robot actions to realize the desired object movements. By using flow as input, this policy can be directly deployed in the real world with a minimal sim-to-real gap. By leveraging real-world human videos and simulated robot play data, we bypass the challenges of teleoperating physical robots in the real world, resulting in a scalable system for diverse tasks. We demonstrate Im2Flow2Act's capabilities in a variety of real-world tasks, including the manipulation of rigid, articulated, and deformable objects.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# ユニバーサル・イメージ・ジェイルブレイクはいつビジョンランゲージ・モデル間で起こるのか?

When Do Universal Image Jailbreaks Transfer Between Vision-Language Models? ( http://arxiv.org/abs/2407.15211v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Dan Valentine, Luke Bailey, James Chua, Cristóbal Eyzaguirre, Zane Durante, Joe Benton, Brando Miranda, Henry Sleight, John Hughes, Rajashree Agrawal, Mrinank Sharma, Scott Emmons, Sanmi Koyejo, Ethan Perez, (参考訳) 新たなモダリティをフロンティアAIシステムに統合することは、エキサイティングな機能を提供すると同時に、そのようなシステムが好ましくない方法で敵に操作される可能性も高めている。 本研究では,視覚とテキストの入力を条件としたテキスト出力を生成する視覚言語モデル (VLM) に焦点をあてる。 我々は,40以上の開度VLMの多種多様なセットを用いて,勾配に基づくユニバーサルイメージ"jailbreaks"の転送可能性を評価するための大規模実験を行った。 全体として、転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。 イメージジェイルブレイクが単一のVLMやVLMのアンサンブルに対して最適化された場合、ジェイルブレイクは攻撃されたVLM(s)に対してジェイルブレイクを成功させるが、他のVLMへのほとんど移行は行わない。 わずかに異なるVLMトレーニングデータを持つ同一事前訓練と同一初期化のVLMと、1つのVLMの異なるトレーニングチェックポイントの間である。 これらの結果を利用して,より大きな「高相似」VLMのアンサンブルを攻撃することにより,特定の目標VLMに対して転送を著しく改善できることを示す。 これらの結果は、言語モデルに対する普遍的で転送可能なテキストジェイルブレイクの既存の証拠や、画像分類器に対する変換可能な敵攻撃とは対照的であり、VLMは勾配に基づく転送攻撃に対してより堅牢である可能性が示唆されている。

The integration of new modalities into frontier AI systems offers exciting capabilities, but also increases the possibility such systems can be adversarially manipulated in undesirable ways. In this work, we focus on a popular class of vision-language models (VLMs) that generate text outputs conditioned on visual and textual inputs. We conducted a large-scale empirical study to assess the transferability of gradient-based universal image "jailbreaks" using a diverse set of over 40 open-parameter VLMs, including 18 new VLMs that we publicly release. Overall, we find that transferable gradient-based image jailbreaks are extremely difficult to obtain. When an image jailbreak is optimized against a single VLM or against an ensemble of VLMs, the jailbreak successfully jailbreaks the attacked VLM(s), but exhibits little-to-no transfer to any other VLMs; transfer is not affected by whether the attacked and target VLMs possess matching vision backbones or language models, whether the language model underwent instruction-following and/or safety-alignment training, or many other factors. Only two settings display partially successful transfer: between identically-pretrained and identically-initialized VLMs with slightly different VLM training data, and between different training checkpoints of a single VLM. Leveraging these results, we then demonstrate that transfer can be significantly improved against a specific target VLM by attacking larger ensembles of "highly-similar" VLMs. These results stand in stark contrast to existing evidence of universal and transferable text jailbreaks against language models and transferable adversarial attacks against image classifiers, suggesting that VLMs may be more robust to gradient-based transfer attacks.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 単眼映像からの高速で快楽な動的人体再構成のためのサーフェルベースガウス逆レンダリング

Surfel-based Gaussian Inverse Rendering for Fast and Relightable Dynamic Human Reconstruction from Monocular Video ( http://arxiv.org/abs/2407.15212v1 )

ライセンス: Link先を確認
Yiqun Zhao, Chenming Wu, Binbin Huang, Yihao Zhi, Chen Zhao, Jingdong Wang, Shenghua Gao, (参考訳) モノクラービデオから、快楽でダイナミックな服を着た人間のアバターを効率的に再現することは、エンターテイメント産業にとって不可欠である。 本稿では,Surfel-based Gaussian Inverse Avatar (SGIA)法を提案する。 SGIAは従来のガウスアバター法を進歩させ、布を被った人間のアバターの物理的ベースレンダリング(PBR)特性を包括的にモデル化し、様々な照明条件下でアバターを新しいポーズに操ることを可能にする。 具体的には、既存の暗黙的手法の性能を超越した高速光計算のために、事前積分と画像ベースの照明を統合する。 材料照明のゆがみと正確な幾何再構成に関わる課題に対処するために,革新的なオクルージョン近似戦略とプログレッシブトレーニングアプローチを提案する。 大規模な実験により、SGIAは高度に正確な物理的特性を達成できるだけでなく、ダイナミックな人間のアバターのリアルなリライティングを著しく向上させ、かなりの速度の優位性をもたらすことが示されている。 プロジェクトページでさらに多くの結果を示す。 \href{https://GS-IA.github.io}{https://GS-IA.github.io}。

Efficient and accurate reconstruction of a relightable, dynamic clothed human avatar from a monocular video is crucial for the entertainment industry. This paper introduces the Surfel-based Gaussian Inverse Avatar (SGIA) method, which introduces efficient training and rendering for relightable dynamic human reconstruction. SGIA advances previous Gaussian Avatar methods by comprehensively modeling Physically-Based Rendering (PBR) properties for clothed human avatars, allowing for the manipulation of avatars into novel poses under diverse lighting conditions. Specifically, our approach integrates pre-integration and image-based lighting for fast light calculations that surpass the performance of existing implicit-based techniques. To address challenges related to material lighting disentanglement and accurate geometry reconstruction, we propose an innovative occlusion approximation strategy and a progressive training approach. Extensive experiments demonstrate that SGIA not only achieves highly accurate physical properties but also significantly enhances the realistic relighting of dynamic human avatars, providing a substantial speed advantage. We exhibit more results in our project page: \href{https://GS-IA.github.io}{https://GS-IA.github.io}.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# AIによる持続的芸術実践のための説明可能性パス

Explainability Paths for Sustained Artistic Practice with AI ( http://arxiv.org/abs/2407.15216v1 )

ライセンス: Link先を確認
Austin Tecks, Thomas Peschlow, Gabriel Vigliensoni, (参考訳) AI駆動型生成オーディオの開発は、より広範なAIトレンドを反映し、しばしば説明責任を犠牲にして、すぐにアクセスできることを優先する。 したがって、こうした道具を持続的な芸術的実践に組み込むことは、依然として大きな課題である。 本稿では,本研究の学習と生成型音声モデルの実装を主目的とした,説明可能性向上のためのいくつかの方法について検討する。 説明可能性を向上させるための実践的な規定として、トレーニング材料よりも人事機関、小規模データセットの実用性、反復的創造プロセスの促進、マッピングツールとしての対話型機械学習の統合を強調する。 重要なことは、これらのステップは、モデル推論中だけでなく、モデルのトレーニングフェーズ中だけでなく、トレーニングデータをキュレートおよび前処理する際にも、生成AIシステムよりも人的エージェンシーを強化することを目的としている。

The development of AI-driven generative audio mirrors broader AI trends, often prioritizing immediate accessibility at the expense of explainability. Consequently, integrating such tools into sustained artistic practice remains a significant challenge. In this paper, we explore several paths to improve explainability, drawing primarily from our research-creation practice in training and implementing generative audio models. As practical provisions for improved explainability, we highlight human agency over training materials, the viability of small-scale datasets, the facilitation of the iterative creative process, and the integration of interactive machine learning as a mapping tool. Importantly, these steps aim to enhance human agency over generative AI systems not only during model inference, but also when curating and preprocessing training data as well as during the training phase of models.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 学習型トーケンマージによる高能率視覚変換器

Efficient Visual Transformer by Learnable Token Merging ( http://arxiv.org/abs/2407.15219v1 )

ライセンス: Link先を確認
Yancheng Wang, Yingzhen Yang, (参考訳) 自己注意とトランスフォーマーは、ディープラーニングで広く使われている。 近年の取り組みは、畳み込みを含む、さまざまなニューラルネットワークアーキテクチャにトランスフォーマーブロックを組み込むことに重点を置いており、コンピュータビジョンタスクのための様々なビジュアルトランスフォーマーを生み出している。 本稿では,Learable Token Merging (LTM) を用いたトランスフォーマー,LTM-Transformerを提案する。 LTM-Transformerは学習可能なスキームでトークンマージを実行する。 LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性があり、予測精度を維持したり改善したりしながら、ビジュアルトランスフォーマーのFLOPと推論時間を短縮する。 実験では、MobileViT、EfficientViT、ViT-S/16、Swin-Tなどの一般的なビジュアルトランスフォーマーのトランスフォーマーブロックをLTM-Transformerブロックに置き換え、異なるバックボーンを持つLTM-Transformerネットワークを実現する。 LTM変換器は、Information Bottleneckの低減により動機付けられ、IB損失に対する新規で分離可能な変分上限が導出される。 トークンマージマスクを生成するLTMブロックにおけるマスクモジュールのアーキテクチャは、IB損失の導出上界を低減するために設計されている。 コンピュータビジョンタスクの広範な結果は、LTM-Transformerが元の視覚変換器と同等またははるかに優れた予測精度でコンパクトで効率的な視覚変換器をレンダリングしていることを示している。 LTM-Transformerのコードは \url{https://github.com/Statistical-Deep-Learning/LTM} で公開されている。

Self-attention and transformers have been widely used in deep learning. Recent efforts have been devoted to incorporating transformer blocks into different neural architectures, including those with convolutions, leading to various visual transformers for computer vision tasks. In this paper, we propose a novel and compact transformer block, Transformer with Learnable Token Merging (LTM), or LTM-Transformer. LTM-Transformer performs token merging in a learnable scheme. LTM-Transformer is compatible with many popular and compact transformer networks, and it reduces the FLOPs and the inference time of the visual transformers while maintaining or even improving the prediction accuracy. In the experiments, we replace all the transformer blocks in popular visual transformers, including MobileViT, EfficientViT, ViT-S/16, and Swin-T, with LTM-Transformer blocks, leading to LTM-Transformer networks with different backbones. The LTM-Transformer is motivated by reduction of Information Bottleneck, and a novel and separable variational upper bound for the IB loss is derived. The architecture of mask module in our LTM blocks which generate the token merging mask is designed to reduce the derived upper bound for the IB loss. Extensive results on computer vision tasks evidence that LTM-Transformer renders compact and efficient visual transformers with comparable or much better prediction accuracy than the original visual transformers. The code of the LTM-Transformer is available at \url{https://github.com/Statistical-Deep-Learning/LTM}.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# FedProtを用いたプライバシ保存型マルチセンター微分タンパク質異常解析

Privacy-Preserving Multi-Center Differential Protein Abundance Analysis with FedProt ( http://arxiv.org/abs/2407.15220v1 )

ライセンス: Link先を確認
Yuliya Burankova, Miriam Abele, Mohammad Bakhtiari, Christine von Törne, Teresa Barth, Lisa Schweizer, Pieter Giesbertz, Johannes R. Schmidt, Stefan Kalkhof, Janina Müller-Deile, Peter A van Veelen, Yassene Mohammed, Elke Hammer, Lis Arend, Klaudia Adamowicz, Tanja Laske, Anne Hartebrodt, Tobias Frisch, Chen Meng, Julian Matschinske, Julian Späth, Richard Röttger, Veit Schwämmle, Stefanie M. Hauck, Stefan Lichtenthaler, Axel Imhof, Matthias Mann, Christina Ludwig, Bernhard Kuster, Jan Baumbach, Olga Zolotareva, (参考訳) 定量質量分析法は、数千のタンパク質の同時定量を可能にして、プロテオミクスに革命をもたらした。 複数の機関から患者由来のデータをポーリングすることは、統計力を高めるが、重要なプライバシー上の懸念を引き起こす。 ここでは、フェデレーション学習と付加的な秘密共有を利用する分散データの協調微分タンパク質量分析のための、最初のプライバシ保護ツールであるFedProtを紹介する。 評価のための多施設患者由来のデータセットが欠如しているため,LFQ E.coli実験から5センター,TMTヒト血清から3センターに1センターを作成した。 これらのデータセットを用いた評価では、FedProtは、プールデータに適用されたDECMSと同等の精度を達成しており、完全に無視可能な絶対差は$\text{$4 \times 10^{-12}$}$以上である。 対照的に、最も正確なメタ分析手法によって計算された-log10(p-values)は、集中分析結果から最大25-27まで変化した。 FedProtはWebツールとして利用可能で、FeatureCloud Appとして詳細なドキュメントが提供されている。

Quantitative mass spectrometry has revolutionized proteomics by enabling simultaneous quantification of thousands of proteins. Pooling patient-derived data from multiple institutions enhances statistical power but raises significant privacy concerns. Here we introduce FedProt, the first privacy-preserving tool for collaborative differential protein abundance analysis of distributed data, which utilizes federated learning and additive secret sharing. In the absence of a multicenter patient-derived dataset for evaluation, we created two, one at five centers from LFQ E.coli experiments and one at three centers from TMT human serum. Evaluations using these datasets confirm that FedProt achieves accuracy equivalent to DEqMS applied to pooled data, with completely negligible absolute differences no greater than $\text{$4 \times 10^{-12}$}$. In contrast, -log10(p-values) computed by the most accurate meta-analysis methods diverged from the centralized analysis results by up to 25-27. FedProt is available as a web tool with detailed documentation as a FeatureCloud App.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# PUFFLE: フェデレートラーニングにおけるプライバシ、ユーティリティ、公正性のバランス

PUFFLE: Balancing Privacy, Utility, and Fairness in Federated Learning ( http://arxiv.org/abs/2407.15224v1 )

ライセンス: Link先を確認
Luca Corbucci, Mikko A Heikkila, David Solans Noguero, Anna Monreale, Nicolas Kourtellis, (参考訳) 公正性とプライバシの原則を同時に遵守すると同時に、優れたユーティリティを保証するマシンラーニングモデルのトレーニングとデプロイは、大きな課題となる。 信頼の3つの要因間の相互作用は、しばしば過小評価され、まだ十分に調査されていない。 その結果、多くの取り組みはこれらの要因のうち2つだけを確実にすることに集中し、その過程で1つを無視した。 データセットの分散化とクライアント間の分散のバリエーションは、フェデレートラーニング(FL)の文脈において、この倫理的トレードオフを達成する複雑さを悪化させます。 FL文学において初めて、これら3つの信頼性の要因に対処する。 本稿では,FLシナリオにおける実用性,プライバシ,公正性のバランスを探究する上で有効な,高レベルのパラメータ化アプローチであるPUFFLEを紹介する。 PUFFLEはさまざまなデータセット、モデル、データ分布に対して有効であり、モデルの不公平性を75%まで低減し、最悪のシナリオでは17%の有効性を最大化しつつ、FLトレーニング中に厳格なプライバシー保証を維持しながら有効であることを示す。

Training and deploying Machine Learning models that simultaneously adhere to principles of fairness and privacy while ensuring good utility poses a significant challenge. The interplay between these three factors of trustworthiness is frequently underestimated and remains insufficiently explored. Consequently, many efforts focus on ensuring only two of these factors, neglecting one in the process. The decentralization of the datasets and the variations in distributions among the clients exacerbate the complexity of achieving this ethical trade-off in the context of Federated Learning (FL). For the first time in FL literature, we address these three factors of trustworthiness. We introduce PUFFLE, a high-level parameterised approach that can help in the exploration of the balance between utility, privacy, and fairness in FL scenarios. We prove that PUFFLE can be effective across diverse datasets, models, and data distributions, reducing the model unfairness up to 75%, with a maximum reduction in the utility of 17% in the worst-case scenario, while maintaining strict privacy guarantees during the FL training.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 反アジア暴力発声音声の認識と検出のためのコミュニティ中心的視点

A Community-Centric Perspective for Characterizing and Detecting Anti-Asian Violence-Provoking Speech ( http://arxiv.org/abs/2407.15227v1 )

ライセンス: Link先を確認
Gaurav Verma, Rynaa Grover, Jiawei Zhou, Binny Mathew, Jordan Kraemer, Munmun De Choudhury, Srijan Kumar, (参考訳) 暴力を誘発する演説は、標的とするコミュニティのメンバーに対する暴力を暗黙的または明示的に推進する演説であり、パンデミックの間、反アジア犯罪の急増に寄与した。 これまでの研究は、恐怖スピーチやヘイトスピーチなどの有害なスピーチを検知するツールを特徴付け、構築してきたが、我々の研究は、反アジア的暴力を誘発するスピーチの研究にコミュニティ中心のアプローチを採用している。 我々は、2020年1月1日から2023年2月1日までの3年間にわたる約420万件のTwitter投稿のデータを用いて、反アジア暴力を誘発するスピーチを特徴付けるコードブックを開発し、コミュニティが蓄積したデータセットを収集し、最先端の分類器を使った大規模な検出を容易にする。 我々は、BERTベースからLLMベースまで、自然言語処理分類器の暴力誘発音声検出能力と反アジアヘイトフル音声検出能力の対比を行った。 ヘイトフルスピーチ(F_1 = 0.89$)の検出におけるそのような分類器の有効性を実証した先行研究とは対照的に,暴力誘発音声の正確かつ確実な検出は難しい課題(F_1 = 0.69$)であることを示す。 本研究の意義,特に公衆衛生危機時にアジアのコミュニティを支援するための積極的な介入の必要性について論じる。 この研究に関連するリソースはhttps://claws-lab.github.io/violence-provoking-speech/で公開されている。

Violence-provoking speech -- speech that implicitly or explicitly promotes violence against the members of the targeted community, contributed to a massive surge in anti-Asian crimes during the pandemic. While previous works have characterized and built tools for detecting other forms of harmful speech, like fear speech and hate speech, our work takes a community-centric approach to studying anti-Asian violence-provoking speech. Using data from ~420k Twitter posts spanning a 3-year duration (January 1, 2020 to February 1, 2023), we develop a codebook to characterize anti-Asian violence-provoking speech and collect a community-crowdsourced dataset to facilitate its large-scale detection using state-of-the-art classifiers. We contrast the capabilities of natural language processing classifiers, ranging from BERT-based to LLM-based classifiers, in detecting violence-provoking speech with their capabilities to detect anti-Asian hateful speech. In contrast to prior work that has demonstrated the effectiveness of such classifiers in detecting hateful speech ($F_1 = 0.89$), our work shows that accurate and reliable detection of violence-provoking speech is a challenging task ($F_1 = 0.69$). We discuss the implications of our findings, particularly the need for proactive interventions to support Asian communities during public health crises. The resources related to the study are available at https://claws-lab.github.io/violence-provoking-speech/.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# カプセル内視鏡による大腸の3次元再構築

3D Reconstruction of the Human Colon from Capsule Endoscope Video ( http://arxiv.org/abs/2407.15228v1 )

ライセンス: Link先を確認
Pål Anders Floor, Ivar Farup, Marius Pedersen, (参考訳) 消化器疾患に罹患する人が増え続けているため、予防検査の需要が高まることは避けられない。 これにより、胃腸科医の作業量が大幅に増加する。 作業負荷を減らすために、コンピュータビジョンのツールが役に立つかもしれません。 本稿では,ヒト大腸全切片の3次元モデル構築の可能性について,ワイヤレスカプセル内視鏡による画像シーケンスを用いて検討し,胃腸科医の視認性を高めることを目的とした。 カプセル内視鏡画像は、多くの3D再構成アルゴリズムでは非理想的であり、歪みやアーチファクトを含んでいるため、この問題は困難である。 しかし,近年のヒト消化器系の仮想グラフィックベースモデルの開発では,歪みやアーティファクトの有効化や無効化が可能となり,その問題を「発見」することが可能となった。 グラフィカルモデルは、3次元再構成法によって導入された幾何歪みの計算を可能にする基礎的真理も提供する。 本稿では,既存の方法により,ヒトの消化管系全体の再構築が可能かどうかを判断するために,ほとんどの歪みや遺物が残されている。 同時局所化とマッピングにより3次元再構成が可能であることを実証した。 さらに, ポアソンの表面再構成は, 密度が大きく変化する点雲から胃腸壁面を再構築するには, よい選択肢である。 結果は有望であり、この問題に関するさらなる研究を奨励している。

As the number of people affected by diseases in the gastrointestinal system is ever-increasing, a higher demand on preventive screening is inevitable. This will significantly increase the workload on gastroenterologists. To help reduce the workload, tools from computer vision may be helpful. In this paper, we investigate the possibility of constructing 3D models of whole sections of the human colon using image sequences from wireless capsule endoscope video, providing enhanced viewing for gastroenterologists. As capsule endoscope images contain distortion and artifacts non-ideal for many 3D reconstruction algorithms, the problem is challenging. However, recent developments of virtual graphics-based models of the human gastrointestinal system, where distortion and artifacts can be enabled or disabled, makes it possible to ``dissect'' the problem. The graphical model also provides a ground truth, enabling computation of geometric distortion introduced by the 3D reconstruction method. In this paper, most distortions and artifacts are left out to determine if it is feasible to reconstruct whole sections of the human gastrointestinal system by existing methods. We demonstrate that 3D reconstruction is possible using simultaneous localization and mapping. Further, to reconstruct the gastrointestinal wall surface from resulting point clouds, varying greatly in density, Poisson surface reconstruction is a good option. The results are promising, encouraging further research on this problem.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# The Hitchhiker's Guide to Human Alignment with *PO

The Hitchhiker's Guide to Human Alignment with *PO ( http://arxiv.org/abs/2407.15229v1 )

ライセンス: Link先を確認
Kian Ahrabian, Xihui Lin, Barun Patra, Vishrav Chaudhary, Alon Benhaim, Jay Pujara, Xia Song, (参考訳) ドメイン間での大規模言語モデル(LLM)の利用の増加に伴い、人間の嗜好への整合性は、トレーニングモデルの最も重要な側面の1つとなっている。 最先端のヒトアライメント手法の最前線は、選好最適化法(*PO)である。 しかし、先行研究は、通常、ハイパーパラメーター上のグリッドサーチを含む、最高のパフォーマンスの方法を特定することに集中しており、これは一般の実践者にとって現実的ではない。 本稿では,高パラメータの変動に対して同時に頑健であるアルゴリズムを同定し,より良い結果が得られる可能性を高めることを目的とする。 我々は、人間のアライメントの現実的な応用を反映し、これらの手法の強みと弱みに関する実践的な洞察を提供する、現実的なアウト・オブ・ディストリビューション(OOD)シナリオに焦点を当てる。 さらに,SFTモデルのKLばらつきのレンズと応答長統計を用いて,モデル生成の欠点をよりよく理解するために,モデル生成を解析する。 解析の結果,広範に採用されているDPO法は,SFT応答に非常に近い品質の長大な応答を連続的に生成することがわかった。 そこで本研究では,DPOアルゴリズムであるLN-DPOに対して,バニラDPOの手法と比較して,品質を犠牲にすることなく,より簡潔な応答が可能であることを示唆した。

With the growing utilization of large language models (LLMs) across domains, alignment towards human preferences has become one of the most critical aspects of training models. At the forefront of state-of-the-art human alignment methods are preference optimization methods (*PO). However, prior research has often concentrated on identifying the best-performing method, typically involving a grid search over hyperparameters, which can be impractical for general practitioners. In this paper, we aim to identify the algorithm that, while being performant, is simultaneously more robust to varying hyperparameters, thereby increasing the likelihood of achieving better results. We focus on a realistic out-of-distribution (OOD) scenario that mirrors real-world applications of human alignment, offering practical insights into the strengths and weaknesses of these methods. Furthermore, to better understand the shortcomings of generations from the different methods, we analyze the model generations through the lens of KL divergence of the SFT model and the response length statistics. Our analysis reveals that the widely adopted DPO method consistently produces lengthy responses of inferior quality that are very close to the SFT responses. Motivated by these findings, we propose an embarrassingly simple extension to the DPO algorithm, LN-DPO, resulting in more concise responses without sacrificing quality compared to the policy obtained by vanilla DPO.
翻訳日:2024-07-23 18:49:14 公開日:2024-07-21
# 宇宙情報ダイナミクス : ランドーアーの原理と宇宙の水平線

Cosmic Information Dynamics: The Landauer Principle and Cosmological Horizon ( http://arxiv.org/abs/2407.15231v1 )

ライセンス: Link先を確認
Oem Trivedi, (参考訳) 膨張する宇宙における宇宙の見かけ上の地平線における情報損失は、情報力学のランダウアー原理と直接対応していることを示す。 このような場合、ランドーアー限界が満たされることを示し、宇宙の見かけ上の地平線における情報消去が可能な限り効率的に行われることを示唆する。 また、この結果が標準エントロピーの定式化の拡張に当てはまることを示す。 これは、情報力学と宇宙の地平線の拡大を直接的に対応させる最初の研究であり、この結果のいくつかの興味深い意味について論じる。

We show that the information loss at the cosmological apparent horizon in an expanding universe has a direct correspondence with the Landauer principle of information dynamics. We show that the Landauer limit is satisfied in this case, which implies that the information erasure at the cosmological apparent horizon happens in the most efficient way possible. We also show that our results hold for extensions of the standard entropy formulations. This is the first work which directly provides a correspondence between information dynamics and expanding cosmic horizons, and we discuss several interesting implications of this result.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# CGB-DM:変圧器を用いた拡散モデルによるコンテンツとグラフィカルバランスレイアウト生成

CGB-DM: Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model ( http://arxiv.org/abs/2407.15233v1 )

ライセンス: Link先を確認
Yu Li, Yifan Chen, Gongye Liu, Jie Wu, Yujiu Yang, (参考訳) レイアウト生成は知的デザインの基礎的なタスクであり、視覚美学の統合とコンテンツ配信の調和した表現を必要とする。 しかし、既存の手法は、図形レイアウトの空間構造と密接に関連しているレイアウト間のブロッキング、重複、空間的ミスアライメントを含む、正確で視覚的に魅力的なレイアウトを生成するという課題に直面している。 これらの手法は、コンテンツ情報に過度にフォーカスし、レイアウト空間構造に制約がないため、コンテンツ認識とグラフィック認識の特徴を学習する不均衡が生じている。 この問題に対処するために,変換器ベース拡散モデル(CGB-DM)を用いたコンテンツとグラフバランスレイアウト生成を提案する。 具体的には、まず、予測されたコンテンツとグラフィック重量のバランスをとるレギュレータを設計し、キャンバス上のコンテンツにより多くの注意を払う傾向を克服する。 第2に、レイアウト表現と画像間の幾何学的特徴のアライメントをさらに高めるために、サリエンシ境界ボックスのグラフィック制約を導入する。 さらに,トランスフォーマーに基づく拡散モデルをバックボーンとして適用することにより,レイアウト生成における品質を保証する。 実験結果から,本手法は定量評価と定性評価の両方において最先端の性能を達成できたことが示唆された。 我々のモデルフレームワークは他のグラフィックデザイン分野にも拡張できる。

Layout generation is the foundation task of intelligent design, which requires the integration of visual aesthetics and harmonious expression of content delivery. However, existing methods still face challenges in generating precise and visually appealing layouts, including blocking, overlap, or spatial misalignment between layouts, which are closely related to the spatial structure of graphic layouts. We find that these methods overly focus on content information and lack constraints on layout spatial structure, resulting in an imbalance of learning content-aware and graphic-aware features. To tackle this issue, we propose Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model (CGB-DM). Specifically, we first design a regulator that balances the predicted content and graphic weight, overcoming the tendency of paying more attention to the content on canvas. Secondly, we introduce a graphic constraint of saliency bounding box to further enhance the alignment of geometric features between layout representations and images. In addition, we adapt a transformer-based diffusion model as the backbone, whose powerful generation capability ensures the quality in layout generation. Extensive experimental results indicate that our method has achieved state-of-the-art performance in both quantitative and qualitative evaluations. Our model framework can also be expanded to other graphic design fields.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# TAGCOS: タスク非依存のクラスタ化コアセット選択によるインストラクションチューニングデータ

TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data ( http://arxiv.org/abs/2407.15235v1 )

ライセンス: Link先を確認
Jipeng Zhang, Yaxuan Qin, Renjie Pi, Weizhong Zhang, Rui Pan, Tong Zhang, (参考訳) インストラクションチューニングはNLPにおいて前例のない成功を収め、大きな言語モデルを汎用的なチャットボットに変えた。 しかし、多種多様な命令データセットが増大し、膨大な計算資源が要求される。 これを解決するためには、完全なデータセットに匹敵するパフォーマンスを達成する、小さくて情報性の高いサブセット(Coresetなど)を抽出することが不可欠である。 この目標を達成するには、ささやかな課題が伴う。 1)データ選択には、トレーニングサンプルの品質を反映した正確なデータ表現が必要である。 2【指示データセットの多様な性質を考慮に入れた上で】 3)大規模モデルにおけるコアセット選択アルゴリズムの効率性を確保する。 これらの課題に対処するため,タスク非依存のクラスタ化コレセット選択(TAGCOS)を提案する。 具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。 実験結果から,本アルゴリズムはデータの5%しか選択せず,他の教師なし手法を超越し,全データセットに近い性能を実現していることがわかった。

Instruction tuning has achieved unprecedented success in NLP, turning large language models into versatile chatbots. However, the increasing variety and volume of instruction datasets demand significant computational resources. To address this, it is essential to extract a small and highly informative subset (i.e., Coreset) that achieves comparable performance to the full dataset. Achieving this goal poses non-trivial challenges: 1) data selection requires accurate data representations that reflect the training samples' quality, 2) considering the diverse nature of instruction datasets, and 3) ensuring the efficiency of the coreset selection algorithm for large models. To address these challenges, we propose Task-Agnostic Gradient Clustered COreset Selection (TAGCOS). Specifically, we leverage sample gradients as the data representations, perform clustering to group similar data, and apply an efficient greedy algorithm for coreset selection. Experimental results show that our algorithm, selecting only 5% of the data, surpasses other unsupervised methods and achieves performance close to that of the full dataset.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 時系列予測のためのDeep State Space Recurrent Neural Networks

Deep State Space Recurrent Neural Networks for Time Series Forecasting ( http://arxiv.org/abs/2407.15236v1 )

ライセンス: Link先を確認
Hugo Inzirillo, (参考訳) 暗号市場のダイナミクスをモデル化するためのニューラルネットワークアーキテクチャについて検討する。 伝統的な線形モデルは、しばしばこの市場のユニークで複雑なダイナミクスを正確に捉えるのに不足する。 対照的に、Deep Neural Networks (DNN) は時系列予測においてかなりの熟練度を示している。 本稿では,固有状態空間モデルの原理とリカレントニューラルネットワーク(RNN)の動的機能とを融合した新しいニューラルネットワークフレームワークを提案する。 本稿では,Long Short Term Memory (LSTM), Gated Residual Units (GRU), Temporal Kolmogorov-Arnold Networks (TKAN) を用いた状態空間モデルを提案する。 結果によると、Kolmogorov-Arnold Networks (KANs)とLSTMにインスパイアされたTKANは、有望な結果を示している。

We explore various neural network architectures for modeling the dynamics of the cryptocurrency market. Traditional linear models often fall short in accurately capturing the unique and complex dynamics of this market. In contrast, Deep Neural Networks (DNNs) have demonstrated considerable proficiency in time series forecasting. This papers introduces novel neural network framework that blend the principles of econometric state space models with the dynamic capabilities of Recurrent Neural Networks (RNNs). We propose state space models using Long Short Term Memory (LSTM), Gated Residual Units (GRU) and Temporal Kolmogorov-Arnold Networks (TKANs). According to the results, TKANs, inspired by Kolmogorov-Arnold Networks (KANs) and LSTM, demonstrate promising outcomes.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 2つの目、2つの視点、そして最後に1つの要約! マルチモーダルなマルチタスク知識融合医療対話の要約に向けて

Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization ( http://arxiv.org/abs/2407.15237v1 )

ライセンス: Link先を確認
Anisha Saha, Abhisek Tiwari, Sai Ruthvik, Sriparna Saha, (参考訳) 我々はしばしば、同質な単位でチャンクし、チャンクを要約する、多人数会話を2段階にまとめる。 したがって、同種話者チャンキングと全体要約タスクの間には相関関係が存在するという仮説を立てる。 本研究では,医学的懸念,医師の印象,全体像の要約を同時に生成する多面的アプローチの有効性について検討する。 本稿では,マルチモーダル情報統合のためのゲート機構を通じて,アダプタベースの微調整を組み込んだマルチモーダル・マルチタスク・知識注入型医療対話要約生成(MMK-Summation)モデルを提案する。 このモデルであるMMK-Summationは、対話を入力として取り、コンテキストに基づいて関連する外部知識を抽出し、対話から知識と視覚的手がかりをテキストコンテンツに統合し、最終的に医学的懸念、医師の印象、包括的概要を含む簡潔な要約を生成する。 紹介されたモデルは、知識誘導型マルチタスク、マルチモーダル医療会話要約の有効性を確証した、すべての評価指標(人的評価を含む)にまたがる、複数のベースラインと従来の要約モデルを上回る。 コードはhttps://github.com/NLP-RL/MMK-Summationで公開されている。

We often summarize a multi-party conversation in two stages: chunking with homogeneous units and summarizing the chunks. Thus, we hypothesize that there exists a correlation between homogeneous speaker chunking and overall summarization tasks. In this work, we investigate the effectiveness of a multi-faceted approach that simultaneously produces summaries of medical concerns, doctor impressions, and an overall view. We introduce a multi-modal, multi-tasking, knowledge-infused medical dialogue summary generation (MMK-Summation) model, which is incorporated with adapter-based fine-tuning through a gated mechanism for multi-modal information integration. The model, MMK-Summation, takes dialogues as input, extracts pertinent external knowledge based on the context, integrates the knowledge and visual cues from the dialogues into the textual content, and ultimately generates concise summaries encompassing medical concerns, doctor impressions, and a comprehensive overview. The introduced model surpasses multiple baselines and traditional summarization models across all evaluation metrics (including human evaluation), which firmly demonstrates the efficacy of the knowledge-guided multi-tasking, multimodal medical conversation summarization. The code is available at https://github.com/NLP-RL/MMK-Summation.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 変動ポテンシャルフロー:エネルギーベース生成モデルのための新しい確率的枠組み

Variational Potential Flow: A Novel Probabilistic Framework for Energy-Based Generative Modelling ( http://arxiv.org/abs/2407.15238v1 )

ライセンス: Link先を確認
Junn Yong Loo, Michelle Adeline, Arghya Pal, Vishnu Monn Baskaran, Chee-Ming Ting, Raphael C. -W. Phan, (参考訳) エネルギーベースモデル(EBM)は、データ可能性モデリングにおける一般化と単純さをアピールしているが、従来は、対照的な分散トレーニング中に、不安定で時間を要する暗黙的なMCMCサンプリングのために訓練が困難であった。 本稿では,暗黙的なMCMCサンプリングを不要とし,補完的な潜在モデルや協調学習に依存しない新しいエネルギーベース生成フレームワークVAPOを提案する。 VAPOフレームワークは、勾配(フロー)が前のサンプルを導くポテンシャルエネルギー関数を学習することを目的としており、その密度の進化は近似データの可能性ホモトピーに密接に従う。 その後、エネルギー損失関数を定式化し、フロー駆動前の密度進化とデータの可能性ホモトピーの間のクルバック・リーバーの分岐を最小化する。 ポテンシャルエネルギーをトレーニングした後、ガウシアンのサンプルを初期化し、ジェネリックODEソルバを用いて固定時間間隔で電位フローを管理するODEを解くことで、画像を生成することができる。 実験の結果,提案するVAPOフレームワークは,様々な画像データセット上でリアルな画像を生成することができることがわかった。 特に,提案フレームワークは,CIFAR-10およびCelebAデータセット上での非条件画像生成のための競合FIDスコアを実現する。

Energy based models (EBMs) are appealing for their generality and simplicity in data likelihood modeling, but have conventionally been difficult to train due to the unstable and time-consuming implicit MCMC sampling during contrastive divergence training. In this paper, we present a novel energy-based generative framework, Variational Potential Flow (VAPO), that entirely dispenses with implicit MCMC sampling and does not rely on complementary latent models or cooperative training. The VAPO framework aims to learn a potential energy function whose gradient (flow) guides the prior samples, so that their density evolution closely follows an approximate data likelihood homotopy. An energy loss function is then formulated to minimize the Kullback-Leibler divergence between density evolution of the flow-driven prior and the data likelihood homotopy. Images can be generated after training the potential energy, by initializing the samples from Gaussian prior and solving the ODE governing the potential flow on a fixed time interval using generic ODE solvers. Experiment results show that the proposed VAPO framework is capable of generating realistic images on various image datasets. In particular, our proposed framework achieves competitive FID scores for unconditional image generation on the CIFAR-10 and CelebA datasets.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 視覚言語モデルからみた画像テキスト検索ベンチマークの脆さ評価

Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective ( http://arxiv.org/abs/2407.15239v1 )

ライセンス: Link先を確認
Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke, (参考訳) 情報検索(IR)における重要なタスクである画像テキスト検索(ITR)は、常に最先端の性能を達成する事前訓練された視覚言語モデル(VLM)によって駆動される。 しかし、重要な課題は既存のIRRベンチマークの脆さにある。 タスクの標準的なデータセットでは、キャプションはしばしばシーンの広範な要約を提供し、特定の概念に関する詳細な情報を無視する。 さらに、現在の評価設定では、画像とテキスト間の単純なバイナリマッチングを前提としており、モダリティーよりもモダリティーに重点を置いており、モデル性能の誤解釈につながる可能性がある。 本研究は, このギャップを動機として, ITR評価パイプラインの脆性に着目し, 概念粒度に着目した検討を行った。 まず、2つの一般的なベンチマークであるMS-COCOとFlickr30kを分析し、概念の粒度をキャプチャする特定の言語的特徴セットを考慮し、それらの拡張版であるMS-COCO-FGとFlickr30k-FGと比較する。 Flickr30k-FG と MS COCO-FG は,選択したすべての機能に対して常に高いスコアを達成していることがわかった。 粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。 選択したデータセットにこれらの摂動を適用する。 我々は,0ショット条件下での標準およびきめ細かいデータセットに対して,適用された摂動を伴わずに,最先端の4つのモデル – ALIGN,AltCLIP,CLIP,GroupViT – を評価する。 その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。 さらに、すべてのセットアップにおける相対的なパフォーマンス低下は、すべてのモデルとデータセット間で一貫しており、問題はベンチマーク内にあることを示している。 我々は、ITR評価パイプラインを改善するためのアジェンダを提供することで、論文を締めくくる。

Image-text retrieval (ITR), an important task in information retrieval (IR), is driven by pretrained vision-language models (VLMs) that consistently achieve state-of-the-art performance. However, a significant challenge lies in the brittleness of existing ITR benchmarks. In standard datasets for the task, captions often provide broad summaries of scenes, neglecting detailed information about specific concepts. Additionally, the current evaluation setup assumes simplistic binary matches between images and texts and focuses on intra-modality rather than cross-modal relationships, which can lead to misinterpretations of model performance. Motivated by this gap, in this study, we focus on examining the brittleness of the ITR evaluation pipeline with a focus on concept granularity. We start by analyzing two common benchmarks, MS-COCO and Flickr30k, and compare them with their augmented versions, MS-COCO-FG and Flickr30k-FG, given a specified set of linguistic features capturing concept granularity. We discover that Flickr30k-FG and MS COCO-FG consistently achieve higher scores across all the selected features. To investigate the performance of VLMs on coarse and fine-grained datasets, we introduce a taxonomy of perturbations. We apply these perturbations to the selected datasets. We evaluate four state-of-the-art models - ALIGN, AltCLIP, CLIP, and GroupViT - on the standard and fine-grained datasets under zero-shot conditions, with and without the applied perturbations. The results demonstrate that although perturbations generally degrade model performance, the fine-grained datasets exhibit a smaller performance drop than their standard counterparts. Moreover, the relative performance drop across all setups is consistent across all models and datasets, indicating that the issue lies within the benchmarks. We conclude the paper by providing an agenda for improving ITR evaluation pipelines.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# BIGbench:マルチモーダルLCMに基づくテキスト・画像生成モデルにおけるソーシャルバイアスの統一ベンチマーク

BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM ( http://arxiv.org/abs/2407.15240v1 )

ライセンス: Link先を確認
Hanjun Luo, Haoyu Huang, Ziye Deng, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは、複雑な高品質の画像を生成する能力においてより重要になっている。 社会学的研究は、バイアスの体系的な分類を確立してきたが、既存のT2Iモデルの研究は、しばしば異なる種類のバイアスを混同し、これらの手法の進歩を妨げる。 本稿では,ビジェス・オブ・イメージ・ジェネレーションのための統一ベンチマークであるBIGbenchを,よく設計されたデータセットで紹介する。 既存のベンチマークとは対照的に、BIGbenchは複雑なバイアスを4つの次元に分類し評価している。 さらに、BIGbenchは高度なマルチモーダル大言語モデル(MLLM)を適用し、高い精度を維持しながら完全な自動評価を実現する。 BIGbenchを応用して,最近の一般的なT2Iモデルと3つのデバイアスド手法を評価する。 また,画像のアライメントと様々なバイアスの同定において,BIGbenchの有効性を実証した。 また,無関係な保護属性の副作用や蒸留など,バイアスに関する新たな研究方向も明らかにした。 私たちのデータセットとベンチマークは、再現性を確保するために、研究コミュニティに公開アクセスできます。

Text-to-Image (T2I) generative models are becoming more crucial in terms of their ability to generate complex and high-quality images, which also raises concerns about the social biases in their outputs, especially in human generation. Sociological research has established systematic classifications of bias; however, existing research of T2I models often conflates different types of bias, hindering the progress of these methods. In this paper, we introduce BIGbench, a unified benchmark for Biases of Image Generation with a well-designed dataset. In contrast to existing benchmarks, BIGbench classifies and evaluates complex biases into four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. Additionally, BIGbench applies advanced multi-modal large language models (MLLM), achieving fully automated evaluation while maintaining high accuracy. We apply BIGbench to evaluate eight recent general T2I models and three debiased methods. We also conduct human evaluation, whose results demonstrated the effectiveness of BIGbench in aligning images and identifying various biases. Besides, our study also revealed new research directions about biases, including the side-effect of irrelevant protected attributes and distillation. Our dataset and benchmark is openly accessible to the research community to ensure the reproducibility.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# オフラインデータを用いた強化学習における時間的抽象化

Temporal Abstraction in Reinforcement Learning with Offline Data ( http://arxiv.org/abs/2407.15241v1 )

ライセンス: Link先を確認
Ranga Shaarad Ayyagari, Anurita Ghosh, Ambedkar Dukkipati, (参考訳) 単一のポリシーを持つ標準的な強化学習アルゴリズムは、スパース報酬、多様な行動、長期計画を含む複雑な環境におけるタスクに対して不十分な性能を発揮する。 この結果、異なる時間スケールで計画するポリシー階層をトレーニングすることで、時間的抽象化を取り入れたアルゴリズムの研究につながった。 オプションフレームワークは、高レベルポリシーによって制御される拡張アクションとして機能する低レベルオプションを学習することで、このような時間的抽象化を実装するために導入された。 これらのアルゴリズムを実世界の問題に適用する際の大きな課題は、オンライン設定では不可能な階層の複数のレベルをトレーニングするために、高いサンプルの複雑さに悩まされていることだ。 本稿では,他の未知のエージェントが収集した既存のオフラインデータセットからオプションを学習できるオフライン階層型RL法を提案する。 これは、学習したオプションとオフラインデータセットに責任を持つポリシーと、私たちの知識との間の分散ミスマッチが原因で、非常に難しい問題です。 本研究では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。 我々は,Gym MuJoCoロコモーション環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。

Standard reinforcement learning algorithms with a single policy perform poorly on tasks in complex environments involving sparse rewards, diverse behaviors, or long-term planning. This led to the study of algorithms that incorporate temporal abstraction by training a hierarchy of policies that plan over different time scales. The options framework has been introduced to implement such temporal abstraction by learning low-level options that act as extended actions controlled by a high-level policy. The main challenge in applying these algorithms to real-world problems is that they suffer from high sample complexity to train multiple levels of the hierarchy, which is impossible in online settings. Motivated by this, in this paper, we propose an offline hierarchical RL method that can learn options from existing offline datasets collected by other unknown agents. This is a very challenging problem due to the distribution mismatch between the learned options and the policies responsible for the offline dataset and to our knowledge, this is the first work in this direction. In this work, we propose a framework by which an online hierarchical reinforcement learning algorithm can be trained on an offline dataset of transitions collected by an unknown behavior policy. We validate our method on Gym MuJoCo locomotion environments and robotic gripper block-stacking tasks in the standard as well as transfer and goal-conditioned settings.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# マイクロサージカルシザーの設計最適化のための遺伝的アルゴリズム

Genetic Algorithm to Optimize Design of Micro-Surgical Scissors ( http://arxiv.org/abs/2407.15243v1 )

ライセンス: Link先を確認
Fatemeh Norouziani, Veerash Palanichamy, Shivam Gupta, Onaizah Onaizah, (参考訳) マイクロロボティクス(Microrobotics)は、小さなロボットが、最小侵襲の手術で提供される精度と器用さを改善する可能性があるため、魅力的な研究分野である。 そのような道具の1つの例は、脳などの体内の奥深くに存在する腫瘍や癌組織を切断するために開発された微小手術用ハサミである。 このタスクは、そのサイズと器用さから、従来のロボットツールでは難しい、あるいは不可能であるとみなされることが多い。 はさみは、偏向を最大化し、切断力を発生させるために、2つの磁石を特定の距離に配置して設計されている。 しかし、マイクロサージカル・ハサミのリモート・アクティベーションとサイズ要件は、組織を穿刺するために発生する力を制限している。 小さい出力力の限界に対処するため、我々は進化的アルゴリズムを用いてハサミの性能をさらに最適化する。 本研究では, 従来開発されたマイクロサージスシザーの設計を改良し, 磁石の最適位置と各磁気モーメントの方向を決定した。 開発したアルゴリズムは、ネットトルクを増大させる4-マグネット構成に成功している。 この純トルクの改善は、直接高い切断力に変換される。 新しい構成では、進化アルゴリズムの80世代から58mNの切断力を生成する。 さらに、開発したアルゴリズムは、他のマイクロロボティックなツールやシステムに小さな修正を加えてデプロイできるという利点があり、様々な医療処置や応用の新たな可能性を開くことができる。

Microrobotics is an attractive area of research as small-scale robots have the potential to improve the precision and dexterity offered by minimally invasive surgeries. One example of such a tool is a pair of micro-surgical scissors that was developed for cutting of tumors or cancerous tissues present deep inside the body such as in the brain. This task is often deemed difficult or impossible with conventional robotic tools due to their size and dexterity. The scissors are designed with two magnets placed a specific distance apart to maximize deflection and generate cutting forces. However, remote actuation and size requirements of the micro-surgical scissors limits the force that can be generated to puncture the tissue. To address the limitation of small output forces, we use an evolutionary algorithm to further optimize the performance of the scissors. In this study, the design of the previously developed untethered micro-surgical scissors has been modified and their performance is enhanced by determining the optimal position of the magnets as well as the direction of each magnetic moment. The developed algorithm is successfully applied to a 4-magnet configuration which results in increased net torque. This improvement in net torque is directly translated into higher cutting forces. The new configuration generates a cutting force of 58 mN from 80 generations of the evolutionary algorithm which is a 1.65 times improvement from the original design. Furthermore, the developed algorithm has the advantage that it can be deployed with minor modifications to other microrobotic tools and systems, opening up new possibilities for various medical procedures and applications.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 二次状態コストを有するワイル微積分と正確に解けるシュレーディンガー橋

Weyl Calculus and Exactly Solvable Schrödinger Bridges with Quadratic State Cost ( http://arxiv.org/abs/2407.15245v1 )

ライセンス: Link先を確認
Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, (参考訳) Schr\"{o}dinger bridge--最適質量輸送の確率的動的一般化--学習制御双対性を示す。 確率的制御問題として見なされ、Schr\"{o}dinger Bridgeは、制御された拡散と期限制約による総制御労力を最小限に抑えながら、与えられた結合状態の統計を別の状態にステアリングする最適な制御ポリシーを見つける。 確率的学習問題として見なされ、Schr\"{o}dinger Bridgeは、最もよく似た分布値を持つ軌道と終端分布の観測、すなわち確率分布の多様体上の2点境界制約の最大極大問題を解く。 近年の研究では、状態依存反応速度として状態費用が現れる反応拡散PDEに関連するマルコフ核を見つける必要がある。 量子力学におけるワイル積分、特にワイル作用素とワイル記号のアイデアは、そのようなマルコフ核を決定するのにどのように役立つかを説明する。 Weyl calculus による2次状態コストの場合のマルコフ核を明示的に見つけ、初期の結果を復元するが、エルミート多項式による退屈な計算は避ける。

Schr\"{o}dinger bridge--a stochastic dynamical generalization of optimal mass transport--exhibits a learning-control duality. Viewed as a stochastic control problem, the Schr\"{o}dinger bridge finds an optimal control policy that steers a given joint state statistics to another while minimizing the total control effort subject to controlled diffusion and deadline constraints. Viewed as a stochastic learning problem, the Schr\"{o}dinger bridge finds the most-likely distribution-valued trajectory connecting endpoint distributional observations, i.e., solves the two point boundary-constrained maximum likelihood problem over the manifold of probability distributions. Recent works have shown that solving the Schr\"{o}dinger bridge problem with state cost requires finding the Markov kernel associated with a reaction-diffusion PDE where the state cost appears as a state-dependent reaction rate. We explain how ideas from Weyl calculus in quantum mechanics, specifically the Weyl operator and the Weyl symbol, can help determine such Markov kernels. We illustrate these ideas by explicitly finding the Markov kernel for the case of quadratic state cost via Weyl calculus, recovering our earlier results but avoiding tedious computation with Hermite polynomials.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# TimeInf: 影響関数による時系列データコントリビューション

TimeInf: Time Series Data Contribution via Influence Functions ( http://arxiv.org/abs/2407.15247v1 )

ライセンス: Link先を確認
Yizi Zhang, Jingyan Shen, Xiaoxue Xiong, Yongchan Kwon, (参考訳) モデルの予測に対する個々のデータポイントの寄与を評価することは、モデルの予測を解釈し、モデルの性能を改善するために重要である。 既存のデータコントリビューション手法は、表データ、画像、テキストなど様々なデータタイプに適用されているが、その主な焦点はi.d.設定である。 時系列データセットに合わせた原則化されたアプローチの必要性が強まっているにもかかわらず、そのような設定におけるデータコントリビューションを見積もるという問題は、おそらくは、本質的に時間的依存関係を扱うことに関連する問題によって、未解決のままである。 本稿では時系列データセットのデータコントリビューション推定手法であるTimeInfを紹介する。 TimeInfはインフルエンス関数を使用して、時間構造を保持しながら個々の時間ポイントにモデル予測を属性付けする。 実験の結果,TimeInfは有害な異常と予測に有用な時間点を同定し,最先端の手法よりも優れていることがわかった。 さらに、TimeInfはデータ値の直感的で解釈可能な属性を提供しており、可視化によって様々な異常パターンを容易に識別することができる。

Evaluating the contribution of individual data points to a model's prediction is critical for interpreting model predictions and improving model performance. Existing data contribution methods have been applied to various data types, including tabular data, images, and texts; however, their primary focus has been on i.i.d. settings. Despite the pressing need for principled approaches tailored to time series datasets, the problem of estimating data contribution in such settings remains unexplored, possibly due to challenges associated with handling inherent temporal dependencies. This paper introduces TimeInf, a data contribution estimation method for time-series datasets. TimeInf uses influence functions to attribute model predictions to individual time points while preserving temporal structures. Our extensive empirical results demonstrate that TimeInf outperforms state-of-the-art methods in identifying harmful anomalies and helpful time points for forecasting. Additionally, TimeInf offers intuitive and interpretable attributions of data values, allowing us to easily distinguish diverse anomaly patterns through visualizations.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# XAIとLLM: 説明可能なAIと大規模言語モデルの関係調査

XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models ( http://arxiv.org/abs/2407.15248v1 )

ライセンス: Link先を確認
Erik Cambria, Lorenzo Malandri, Fabio Mercorio, Navid Nobani, Andrea Seveso, (参考訳) 本稿では,Large Language Models (LLM) 研究における重要な課題に対処し,解釈可能性の重要性に焦点をあてる。 AIやビジネスセクターからの関心が増すことで、私たちはLLMにおける透明性の必要性を強調します。 我々は,現在のLLM研究とeXplainable Artificial Intelligence(XAI)における2つの経路について検討する。 本稿では,機能的進歩と同等に解釈可能性を評価するバランスの取れたアプローチを提唱する。 LLM研究の急速な発展を認識し,本研究におけるXAIの役割を概観した,ピアレビューとプレプリント(arXiv)の両論文を含む。 我々は、LLMとXAIの両方の分野を共に進めるよう研究コミュニティに促すことで締めくくります。

In this survey, we address the key challenges in Large Language Models (LLM) research, focusing on the importance of interpretability. Driven by increasing interest from AI and business sectors, we highlight the need for transparency in LLMs. We examine the dual paths in current LLM research and eXplainable Artificial Intelligence (XAI): enhancing performance through XAI and the emerging focus on model interpretability. Our paper advocates for a balanced approach that values interpretability equally with functional advancements. Recognizing the rapid development in LLM research, our survey includes both peer-reviewed and preprint (arXiv) papers, offering a comprehensive overview of XAI's role in LLM research. We conclude by urging the research community to advance both LLM and XAI fields together.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 断熱量子力学の高速前進問題:エネルギーコストの推定

Fast forward problem for adiabatic quantum dynamics: Estimation of the energy cost ( http://arxiv.org/abs/2407.15250v1 )

ライセンス: Link先を確認
J. D. Matrasulov, J. R. Yusupov, Kh. Sh. Matyokubov, (参考訳) 我々は, 増田-中村高速転送プロトコルを用いて, 量子系の進化の加速(減速)に必要なエネルギーコストの問題を考察する。 特に,移動壁を持つ量子ボックスと時間依存周波数を持つ高調波発振器のモデルを考えることで,ダイナミクスに着目する。 どちらのモデルも、時間関数として加速(減速)に必要なエネルギーを計算した。 得られた結果は、他の加速(減速)プロトコルと比較される。

We consider the problem of energy cost needed for acceleration (deceleration) of the evolution of a quantum system using the Masuda-Nakamura fast forward protocol. In particular, we focus on dynamics by considering models for a quantum box with a moving wall and harmonic oscillator with time-dependent frequency. For both models we computed the energy needed for acceleration (deceleration) as a function of time. The results obtained are compared with those of other acceleration (deceleration) protocols
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 生理的信号を用いたウェアラブルデバイスによるストレス検出システム

An Adaptive System for Wearable Devices to Detect Stress Using Physiological Signals ( http://arxiv.org/abs/2407.15252v1 )

ライセンス: Link先を確認
Gelei Xu, Ruiyang Qin, Zhi Zheng, Yiyu Shi, (参考訳) 時間的ストレス検出は、早期介入を可能にすることにより、脆弱なグループを長期的有害な影響から保護するために重要である。 ウェアラブルデバイスは、リアルタイムな生理的信号を収集することで、個人差を調節する正確なストレス検出のソリューションを提供する。 本稿では PPG と EDA 信号を用いたパーソナライズされたストレス検出のための適応フレームワークを提案する。 ドメインシフトによって新規ユーザに適用された場合,パフォーマンス低下に悩むような一般化されたモデルに依存する従来の手法とは異なり,このフレームワークは,各ユーザに対して,ストレス検出精度を高めるパーソナライズされたモデルを提供することを目的としている。 このフレームワークは、初期データセットでオフラインで一般化されたモデルを開発し、ユーザの未ラベルデータにモデルを適応させ、ユーザインタラクションによって得られたラベル付きデータの小さなセットで微調整する、という3つの段階を含む。 このアプローチは、パーソナライズされたストレス検出と介入を提供するモバイルアプリケーションのための基盤を提供するだけでなく、生理的信号を用いたストレス検出以外の幅広いメンタルヘルス問題にも対処する可能性がある。

Timely stress detection is crucial for protecting vulnerable groups from long-term detrimental effects by enabling early intervention. Wearable devices, by collecting real-time physiological signals, offer a solution for accurate stress detection accommodating individual differences. This position paper introduces an adaptive framework for personalized stress detection using PPG and EDA signals. Unlike traditional methods that rely on a generalized model, which may suffer performance drops when applied to new users due to domain shifts, this framework aims to provide each user with a personalized model for higher stress detection accuracy. The framework involves three stages: developing a generalized model offline with an initial dataset, adapting the model to the user's unlabeled data, and fine-tuning it with a small set of labeled data obtained through user interaction. This approach not only offers a foundation for mobile applications that provide personalized stress detection and intervention but also has the potential to address a wider range of mental health issues beyond stress detection using physiological signals.
翻訳日:2024-07-23 18:39:18 公開日:2024-07-21
# 混合運動ゲームにおけるエージェント決定の解説

Explaining Decisions of Agents in Mixed-Motive Games ( http://arxiv.org/abs/2407.15255v1 )

ライセンス: Link先を確認
Maayan Orner, Oleg Maksimov, Akiva Kleinerman, Charles Ortiz, Sarit Kraus, (参考訳) 近年、エージェントは自然言語を介してシームレスにコミュニケーションし、協力や競争を含む環境をナビゲートできるようになり、社会的ジレンマがもたらされる可能性がある。 協調と競争のインターリーブにより、このような環境におけるエージェントの意思決定は困難であり、人間は説明を得ることの恩恵を受けることができる。 しかし、このような環境やシナリオは、説明可能なAIの文脈で研究されることはめったにない。 協調環境のいくつかの説明法は、混合モチベーションに応用できるが、エージェント間の競争、安価なトーク、行動による暗黙のコミュニケーションには対応しない。 本研究では,これらの問題に対処するための説明手法を設計する。 そこで我々は,非自明な混合動機ゲームをテストケースとして,その有効性と有用性を示す。 最後に,本手法の汎用性を確立し,他のゲームへの適用性を実証する。

In recent years, agents have become capable of communicating seamlessly via natural language and navigating in environments that involve cooperation and competition, a fact that can introduce social dilemmas. Due to the interleaving of cooperation and competition, understanding agents' decision-making in such environments is challenging, and humans can benefit from obtaining explanations. However, such environments and scenarios have rarely been explored in the context of explainable AI. While some explanation methods for cooperative environments can be applied in mixed-motive setups, they do not address inter-agent competition, cheap-talk, or implicit communication by actions. In this work, we design explanation methods to address these issues. Then, we proceed to demonstrate their effectiveness and usefulness for humans, using a non-trivial mixed-motive game as a test case. Lastly, we establish generality and demonstrate the applicability of the methods to other games, including one where we mimic human game actions using large language models.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 背景知識を用いた因果同定の新規則

New Rules for Causal Identification with Background Knowledge ( http://arxiv.org/abs/2407.15259v1 )

ライセンス: Link先を確認
Tian-Zuo Wang, Lue Tao, Zhi-Hua Zhou, (参考訳) さまざまな下流業務において因果関係の特定が不可欠である。 観察データに加えて、人間の専門知識や実験から得られる背景知識(BK)も、通常は因果関係を明らかにするために導入される。 このことは、潜伏変数が存在する場合、観測データとBKから因果関係が特定できるというオープンな問題を引き起こす。 本稿では,オープンな問題に対する新たな視点を提供するBKを導入するための2つの新しいルールを提案する。 さらに,これらのルールは観測データによる因果効果のセットの決定など,典型的な因果関係のタスクに適用可能であることを示す。 我々の規則に基づくアプローチは、指数複雑性を必要とするブロック集合を列挙するプロセスを回避し、最先端の手法を強化する。

Identifying causal relations is crucial for a variety of downstream tasks. In additional to observational data, background knowledge (BK), which could be attained from human expertise or experiments, is usually introduced for uncovering causal relations. This raises an open problem that in the presence of latent variables, what causal relations are identifiable from observational data and BK. In this paper, we propose two novel rules for incorporating BK, which offer a new perspective to the open problem. In addition, we show that these rules are applicable in some typical causality tasks, such as determining the set of possible causal effects with observational data. Our rule-based approach enhances the state-of-the-art method by circumventing a process of enumerating block sets that would otherwise take exponential complexity.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 弱められたSSM : 統計的形状モデリングのための弱められたセグメントの有効性について

Weakly SSM : On the Viability of Weakly Supervised Segmentations for Statistical Shape Modeling ( http://arxiv.org/abs/2407.15260v1 )

ライセンス: Link先を確認
Janmesh Ukey, Tushar Kataria, Shireen Y. Elhabian, (参考訳) 統計形状モデル (SSMs) は、形態学に基づく診断や外科的計画など、様々な臨床および生物医学的応用の核となる、個体群レベルの解剖学的変異の同定に優れる。 しかし、SSMの有効性は専門家主導のマニュアルセグメンテーションの必要性によって制約されることが多い。 近年の深層学習手法により,非分割画像からの統計的形状モデル(SSM)の直接推定が可能となった。 これらのモデルは、デプロイ中にセグメンテーションなしでSSMを予測することができるが、特にリソース制限の設定において、トレーニングに必要な手動アノテーションを取得するという課題には対処しない。 解剖学的セグメンテーションのための半教師付き基礎モデルは、アノテーションの負担を軽減することができる。 しかし、利用可能なアプローチが豊富にあるにもかかわらず、エンドユーザにSSMを構築するための下流タスクの有効性を知らせるガイドラインは確立されていない。 本研究では,SSM構築のための手動セグメンテーションの代替手段として,弱教師付き手法の可能性を体系的に評価する。 我々は,SSMのタスクに対して予測されたセグメンテーションを利用した,低アノテーション設定下での解剖学的セグメンテーションのための,様々な半教師付き基礎モデル手法を用いて,新しい性能ベンチマークを構築した。 形状変化のモードを比較し,手動で注釈付きデータセットから得られた形状モデルと比較する。 以上の結果から,SSMタスクには非常に好ましくないノイズセグメンテーションを生成できる手法もあれば,60~80 %のマニュアルアノテーションで個体群コホートの変化の正しいモードを捉える方法もある。

Statistical Shape Models (SSMs) excel at identifying population level anatomical variations, which is at the core of various clinical and biomedical applications, including morphology-based diagnostics and surgical planning. However, the effectiveness of SSM is often constrained by the necessity for expert-driven manual segmentation, a process that is both time-intensive and expensive, thereby restricting their broader application and utility. Recent deep learning approaches enable the direct estimation of Statistical Shape Models (SSMs) from unsegmented images. While these models can predict SSMs without segmentation during deployment, they do not address the challenge of acquiring the manual annotations needed for training, particularly in resource-limited settings. Semi-supervised and foundation models for anatomy segmentation can mitigate the annotation burden. Yet, despite the abundance of available approaches, there are no established guidelines to inform end-users on their effectiveness for the downstream task of constructing SSMs. In this study, we systematically evaluate the potential of weakly supervised methods as viable alternatives to manual segmentation's for building SSMs. We establish a new performance benchmark by employing various semi-supervised and foundational model methods for anatomy segmentation under low annotation settings, utilizing the predicted segmentation's for the task of SSM. We compare the modes of shape variation and use quantitative metrics to compare against a shape model derived from a manually annotated dataset. Our results indicate that some methods produce noisy segmentation, which is very unfavorable for SSM tasks, while others can capture the correct modes of variations in the population cohort with 60-80\% reduction in required manual annotation.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# LSM-GNN:データ転送方式の最適化による大規模ストレージベースマルチGPUGNNトレーニング

LSM-GNN: Large-scale Storage-based Multi-GPU GNN Training by Optimizing Data Transfer Scheme ( http://arxiv.org/abs/2407.15264v1 )

ライセンス: Link先を確認
Jeongmin Brian Park, Kun Wu, Vikram Sharma Mailthody, Zaid Quresh, Scott Mahlke, Wen-mei Hwu, (参考訳) グラフニューラルネットワーク(GNN)は、今日ではリコメンデーションシステム、不正検出、ノード/リンク分類タスクで広く使われている。 現実のGNNはサイズを拡大し続け、トレーニングに使用するGPUのメモリ容量を超えることが多いグラフや埋め込みを格納するために大きなメモリフットプリントを必要とする。 限られたメモリ容量に対応するため、従来のGNNトレーニングアプローチでは、グラフパーティショニングとシャーディング技術を使用して、ノード内の複数のGPUをまたいだスケールアップと、複数のノードへのスケールアウトを実現している。 しかし、このアプローチはグラフ分割アルゴリズムの計算コストが高く、GPU間の非効率な通信に悩まされている。 これらのオーバーヘッドに対処するため、我々は、GNNモデルを訓練するための大規模ストレージベースマルチGPU GNNフレームワーク(LSM-GNN)を提案する。これは、GPUソフトウェアキャッシュを低オーバーヘッドでシステム全体の共有キャッシュとして機能させる新しい通信層を利用するストレージベースアプローチである。LSM-GNNは、静的ノード情報と動的ノード情報の両方を用いてキャッシュ空間をインテリジェントに管理し、キャッシュ性能を著しく向上するハイブリッドエビクションポリシーを取り入れている。 さらに、プリエンプティブVictim-buffer Prefetcher(PVP)を導入し、CPUピンメモリ内のVictim Bufferからノード特徴データをプリフェッチし、ストレージ装置の圧力をさらに低減する。 実験結果によると、計算能力とメモリ容量が低いにもかかわらず、2つのGPUを持つ単一ノードのSM-GNNは、2ノードの4GPU Dist-DGLベースラインよりも優れた性能を示し、大規模GNNトレーニングを実行しながら、エンドツーエンドのエポックタイムで最大3.75倍の速度を提供する。

Graph Neural Networks (GNNs) are widely used today in recommendation systems, fraud detection, and node/link classification tasks. Real world GNNs continue to scale in size and require a large memory footprint for storing graphs and embeddings that often exceed the memory capacities of the target GPUs used for training. To address limited memory capacities, traditional GNN training approaches use graph partitioning and sharding techniques to scale up across multiple GPUs within a node and/or scale out across multiple nodes. However, this approach suffers from the high computational costs of graph partitioning algorithms and inefficient communication across GPUs. To address these overheads, we propose Large-scale Storage-based Multi-GPU GNN framework (LSM-GNN), a storagebased approach to train GNN models that utilizes a novel communication layer enabling GPU software caches to function as a system-wide shared cache with low overheads.LSM-GNN incorporates a hybrid eviction policy that intelligently manages cache space by using both static and dynamic node information to significantly enhance cache performance. Furthermore, we introduce the Preemptive Victim-buffer Prefetcher (PVP), a mechanism for prefetching node feature data from a Victim Buffer located in CPU pinned-memory to further reduce the pressure on the storage devices. Experimental results show that despite the lower compute capabilities and memory capacities, LSM-GNN in a single node with two GPUs offers superior performance over two-node-four-GPU Dist-DGL baseline and provides up to 3.75x speed up on end-to-end epoch time while running large-scale GNN training
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# フェデレーション学習におけるSOTA攻撃防御を破る学習ベースアタックフレームワーク

A Learning-Based Attack Framework to Break SOTA Poisoning Defenses in Federated Learning ( http://arxiv.org/abs/2407.15267v1 )

ライセンス: Link先を確認
Yuxin Yang, Qiang Li, Chenfei Nie, Yuan Hong, Meng Pang, Binghui Wang, (参考訳) Federated Learning(FL)は、データプライバシを保護する新しいクライアントサーバ分散学習フレームワークである。 しかし最近の研究では、FLは毒殺攻撃に弱いことが示されている。 堅牢なアグリゲータ(AGR)を備えた多くの防衛策がこの問題を軽減するために提案されているが、いずれも先進的な攻撃によって破壊されている。 最近になって、いくつかの新しい堅牢なAGRが設計され、通常、斬新なクリッピングや濾過ストラテジーで設計され、先進的な毒殺攻撃に対する防衛性能が期待できる。 本稿では,これらの新規なロバストなAGRも,慎重に設計された毒殺攻撃に対して脆弱であることを示す。 具体的には、これらの堅牢なAGRを壊すことで、悪意のあるクライアントの切断やフィルタリングを回避し、この観察を活用するための最適化ベースのアタックフレームワークを提案する。 フレームワークでは、それぞれのロバストなAGRに対してカスタマイズされた攻撃を設計します。 複数のデータセットと脅威モデルに対する大規模な実験により、提案した最適化ベースの攻撃がSOTA AGRを壊す可能性がある。 そこで我々はFLに対する毒殺攻撃に対する新たな防御を要請した。 コードは、https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.comで入手できる。

Federated Learning (FL) is a novel client-server distributed learning framework that can protect data privacy. However, recent works show that FL is vulnerable to poisoning attacks. Many defenses with robust aggregators (AGRs) are proposed to mitigate the issue, but they are all broken by advanced attacks. Very recently, some renewed robust AGRs are designed, typically with novel clipping or/and filtering strate-gies, and they show promising defense performance against the advanced poisoning attacks. In this paper, we show that these novel robust AGRs are also vulnerable to carefully designed poisoning attacks. Specifically, we observe that breaking these robust AGRs reduces to bypassing the clipping or/and filtering of malicious clients, and propose an optimization-based attack framework to leverage this observation. Under the framework, we then design the customized attack against each robust AGR. Extensive experiments on multiple datasets and threat models verify our proposed optimization-based attack can break the SOTA AGRs. We hence call for novel defenses against poisoning attacks to FL. Code is available at: https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 正確な放射線診断のためのFact-Aware Multimodal Retrieval Augmentation

Fact-Aware Multimodal Retrieval Augmentation for Accurate Medical Radiology Report Generation ( http://arxiv.org/abs/2407.15268v1 )

ライセンス: Link先を確認
Liwen Sun, James Zhao, Megan Han, Chenyan Xiong, (参考訳) マルチモーダルファンデーションモデルは、放射線診断レポート生成の自動化に重要な可能性を秘めており、心臓疾患の診断において臨床医を支援する。 しかし、生成された報告は、しばしば深刻な事実の不正確さに悩まされる。 本稿では,FactMM-RAG(FactMM-RAG)を高精度に生成するための,ファクトアウェアなマルチモーダル検索拡張パイプラインを提案する。 私たちはまずRadGraphを活用して実例レポートペアを抽出し、次に実例知識を統合してユニバーサルなマルチモーダルレトリバーをトレーニングします。 放射線画像から高画質なマルチモーダル基礎モデルへの参照レポートを抽出し,報告生成の事実的完全性と正確性を向上させる。 F1CheXbertとF1RadGraphで最大6.5%と2%のスコアが得られた。 さらに分析した結果,本手法は,診断ラベルの明確なガイダンスを頼らずに効果的な監視信号を課し,マルチモーダルレトリバーからマルチモーダル基礎モデルへのファクトアウェア機能の普及に成功していることがわかった。

Multimodal foundation models hold significant potential for automating radiology report generation, thereby assisting clinicians in diagnosing cardiac diseases. However, generated reports often suffer from serious factual inaccuracy. In this paper, we introduce a fact-aware multimodal retrieval-augmented pipeline in generating accurate radiology reports (FactMM-RAG). We first leverage RadGraph to mine factual report pairs, then integrate factual knowledge to train a universal multimodal retriever. Given a radiology image, our retriever can identify high-quality reference reports to augment multimodal foundation models, thus enhancing the factual completeness and correctness of report generation. Experiments on two benchmark datasets show that our multimodal retriever outperforms state-of-the-art retrievers on both language generation and radiology-specific metrics, up to 6.5% and 2% score in F1CheXbert and F1RadGraph. Further analysis indicates that employing our factually-informed training strategy imposes an effective supervision signal, without relying on explicit diagnostic label guidance, and successfully propagates fact-aware capabilities from the multimodal retriever to the multimodal foundation model in radiology report generation.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# MedEdit:脳MRIによる非現実的拡散に基づく画像編集

MedEdit: Counterfactual Diffusion-based Image Editing on Brain MRI ( http://arxiv.org/abs/2407.15270v1 )

ライセンス: Link先を確認
Malek Ben Alaya, Daniel M. Lang, Benedikt Wiestler, Julia A. Schnabel, Cosmin I. Bercea, (参考訳) 拡散確率モデルのデノイングにより、高忠実度画像合成と編集が可能となる。 バイオメディシンでは、これらのモデルは反現実的な画像編集を促進し、仮説的条件をシミュレートするために編集された画像のペアを生成する。 例えば、脳卒中などの特定の疾患の進行をモデル化することができる。 しかし、現在の画像編集技術は、脳萎縮のような間接的な病態効果を不十分にモデル化するか、あるいはスキャンを過度に変更することで、元の画像との対応を損なうことによって、現実的なバイオメディカル・カウンターファクトを生成できないことが多い。 本稿では,医用画像編集のための条件拡散モデルであるMedEditを提案する。 MedEditは、疾患効果のモデリングとオリジナルのスキャンの完全性を維持するバランスをとりながら、特定の領域の病理を誘導する。 我々はFrechet Inception DistanceとDiceのスコアを用いてAtlas v2.0のストロークデータセット上でMedEditを評価し、Palette (45%) やSDEdit (61%) のような最先端の拡散ベースの手法より優れていることを示した。 さらに、ボード認証された神経放射線科医による臨床評価では、MedEditは実際のものと区別できない現実的な脳卒中スキャンを生成した。 本研究は, 現実的, 臨床的に有用な画像編集ツールの開発をさらに進めるために, 対物画像編集研究を可能にすると信じている。

Denoising diffusion probabilistic models enable high-fidelity image synthesis and editing. In biomedicine, these models facilitate counterfactual image editing, producing pairs of images where one is edited to simulate hypothetical conditions. For example, they can model the progression of specific diseases, such as stroke lesions. However, current image editing techniques often fail to generate realistic biomedical counterfactuals, either by inadequately modeling indirect pathological effects like brain atrophy or by excessively altering the scan, which disrupts correspondence to the original images. Here, we propose MedEdit, a conditional diffusion model for medical image editing. MedEdit induces pathology in specific areas while balancing the modeling of disease effects and preserving the integrity of the original scan. We evaluated MedEdit on the Atlas v2.0 stroke dataset using Frechet Inception Distance and Dice scores, outperforming state-of-the-art diffusion-based methods such as Palette (by 45%) and SDEdit (by 61%). Additionally, clinical evaluations by a board-certified neuroradiologist confirmed that MedEdit generated realistic stroke scans indistinguishable from real ones. We believe this work will enable counterfactual image editing research to further advance the development of realistic and clinically useful imaging tools.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# MIBench: 複数の画像上でのマルチモーダル大言語モデルの評価

MIBench: Evaluating Multimodal Large Language Models over Multiple Images ( http://arxiv.org/abs/2407.15272v1 )

ライセンス: Link先を確認
Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu, (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、最近、複数のベンチマークで様々な視覚言語タスクにおいて顕著な性能を達成している。 しかし、既存のMLLMやベンチマークのほとんどはシングルイメージの入力シナリオに重点を置いており、現実的な複数の画像を扱う際のMLLMの性能は未定のままである。 いくつかのベンチマークでは複数の画像を考慮しているが、評価の寸法やサンプルは非常に限られている。 そこで本稿では,マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価するベンチマークMIBenchを提案する。 具体的には、MII(Multi-image instruction)、MKS(Multi-modal Knowledge-seeking)、MIC(Multi-modal in-context Learning)の3つのシナリオに分類し、合計で13のタスクを13のアノテーション付きサンプルで構成する。 データ構築中、MII と MKS は、手動のアノテーションから正しいオプションを抽出し、難解なインタプリタを作成し、複数の選択質問を得る。 MICでは、4つのサブタスクを設定し、元のデータセットをテキスト内学習形式に変換する。 提案するMIBench上で,複数のオープンソースMLLMとオープンソースMLLMを評価した。 その結果、現在のモデルは単一画像タスクでは優れているが、混乱した細粒度知覚、限定された多重画像推論、不安定なテキスト内学習など、複数画像入力に直面した場合の重大な欠点が明らかとなった。 MIBenchの注釈付きデータはhttps://huggingface.co/datasets/StarBottle/MIBenchで確認できる。

Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks across multiple benchmarks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images remain underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. Therefore, in this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source MLLMs and close-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as confused fine-grained perception, limited multi-image reasoning, and unstable in-context learning. The annotated data in MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# グラフアウトオブディストリビューションのための不変性と可変性の統合

Unifying Invariant and Variant Features for Graph Out-of-Distribution via Probability of Necessity and Sufficiency ( http://arxiv.org/abs/2407.15273v1 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Kaitao Zheng, Zhifan Jiang, Zhengting Huang, Zhifeng Hao, Zijian Li, (参考訳) Graph Out-of-Distribution (OOD)は、バイアスのあるデータに基づいてトレーニングされたモデルが、目に見えないテストデータに一般化することを要求している。 最も主流の手法の1つは、環境拡張の助けを借りて、原データと拡張データを整列させることによって不変部分グラフを抽出することである。 しかし、これらの解は意味的部分グラフの損失や冗長性を招き、最適下一般化をもたらす可能性がある。 この課題に対処するために,必要十分かつ必要な不変部分構造を抽出するために,PNS(Probability of Necessity and Sufficiency)を活用することを提案する。 さらに、ラベルに関連する領域不変部分グラフを活用して、一般化性能をアンサンブル的に向上させる。 具体的には、まず、グラフデータのデータ生成プロセスについて検討する。 穏やかな条件下では,必要十分かつ必要な不変部分グラフは,必要十分かつ十分である確率の理論的進歩に基づいて構築された上界を最小化することにより抽出可能であることを示す。 さらにこの理論とアルゴリズムを橋渡しするため,SNIGL (Sufficiency and Necessity Inspireed Graph Learning) と呼ばれるモデルを構築した。 実験の結果,SNIGLモデルは6つの公開ベンチマークにおいて最先端技術よりも優れており,実世界のシナリオにおけるその有効性を強調している。

Graph Out-of-Distribution (OOD), requiring that models trained on biased data generalize to the unseen test data, has considerable real-world applications. One of the most mainstream methods is to extract the invariant subgraph by aligning the original and augmented data with the help of environment augmentation. However, these solutions might lead to the loss or redundancy of semantic subgraphs and result in suboptimal generalization. To address this challenge, we propose exploiting Probability of Necessity and Sufficiency (PNS) to extract sufficient and necessary invariant substructures. Beyond that, we further leverage the domain variant subgraphs related to the labels to boost the generalization performance in an ensemble manner. Specifically, we first consider the data generation process for graph data. Under mild conditions, we show that the sufficient and necessary invariant subgraph can be extracted by minimizing an upper bound, built on the theoretical advance of the probability of necessity and sufficiency. To further bridge the theory and algorithm, we devise the model called Sufficiency and Necessity Inspired Graph Learning (SNIGL), which ensembles an invariant subgraph classifier on top of latent sufficient and necessary invariant subgraphs, and a domain variant subgraph classifier specific to the test domain for generalization enhancement. Experimental results demonstrate that our SNIGL model outperforms the state-of-the-art techniques on six public benchmarks, highlighting its effectiveness in real-world scenarios.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# マルコフデータによる等角予測

Conformal Predictions under Markovian Data ( http://arxiv.org/abs/2407.15277v1 )

ライセンス: Link先を確認
Frédéric Zheng, Alexandre Proutiere, (参考訳) マルコフデータに適用した場合の分割等角予測法について検討する。 データ(交換可能なデータと比較)の相関によって引き起こされるカバレッジの差を定量化する。 このギャップは基礎となるマルコフ連鎖の混合特性に強く依存しており、典型的には$\sqrt{t_\mathrm{mix}\ln(n)/n}$(ここで$t_\mathrm{mix}$は鎖の混合時間である)としてスケールすることが証明される。 また、相関が予測セットのサイズに与える影響について上限を導出する。 最後に、キャリブレーションデータセットを薄くし、鎖の混合特性に適応する手法であるK$-split CPを提案する。 そのカバレッジギャップは、予測セットのサイズに影響を与えずに$t_\mathrm{mix}/(n\ln(n))$に縮小される。 最終的に、合成および実世界のデータセットでアルゴリズムをテストしました。

We study the split Conformal Prediction method when applied to Markovian data. We quantify the gap in terms of coverage induced by the correlations in the data (compared to exchangeable data). This gap strongly depends on the mixing properties of the underlying Markov chain, and we prove that it typically scales as $\sqrt{t_\mathrm{mix}\ln(n)/n}$ (where $t_\mathrm{mix}$ is the mixing time of the chain). We also derive upper bounds on the impact of the correlations on the size of the prediction set. Finally we present $K$-split CP, a method that consists in thinning the calibration dataset and that adapts to the mixing properties of the chain. Its coverage gap is reduced to $t_\mathrm{mix}/(n\ln(n))$ without really affecting the size of the prediction set. We finally test our algorithms on synthetic and real-world datasets.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 最大斜め列挙法によるボトムアップロールマイニングにおける役割数最小化

Minimizing the Number of Roles in Bottom-Up Role-Mining using Maximal Biclique Enumeration ( http://arxiv.org/abs/2407.15278v1 )

ライセンス: Link先を確認
Mahesh Tripunitara, (参考訳) ボトムアップ・ロール・マイニング(英: Bottom-up role-mining)とは、ユーザのセットとユーザが所有するパーミッションを入力として与えられるロールのセットを決定することである。 研究文献や実際は情報セキュリティの重要な問題として確立されている。 以前の研究で探求された自然な目的は、役割の集合が最小サイズになることである。 基礎の整合を図りながら、実際の入力に対してこの問題に対処し、特に、問題は \cnph である。 まず、効率的なアルゴリズムに十分な条件を利用する事前作業からのアプローチを、有用な第一歩として、より最近提案されたベンチマーク入力にスケールできないことを観察する。 我々は,最大斜めの列挙という新しい手法を提案する。 我々は、最大二進法の数が入力の硬さの自然な測度を与えることを指摘している。 我々は2つの異なる方法で極大双曲の列挙を利用する。 最初のアプローチは、正確な結果を得るために、ベンチマーク入力の半分以上に対処します。 もう一つのアプローチはハード・インスタンスに対して必要であり、その場合、我々は大きな最大二角形に対応する役割を識別し、採用する。 我々は全てのアルゴリズムを実装し、広範な経験的評価を行い、我々のアプローチが有望であることを示唆している。 私たちのコードはオープンソースとして公開されています。

Bottom-up role-mining is the determination of a set of roles given as input a set of users and the permissions those users possess. It is well-established in the research literature, and in practice, as an important problem in information security. A natural objective that has been explored in prior work is for the set of roles to be of minimum size. We address this problem for practical inputs while reconciling foundations, specifically, that the problem is \cnph. We first observe that an approach from prior work that exploits a sufficient condition for an efficient algorithm, while a useful first step, does not scale to more recently proposed benchmark inputs. We propose a new technique: the enumeration of maximal bicliques. We point out that the number of maximal bicliques provides a natural measure of the hardness of an input. We leverage the enumeration of maximal bicliques in two different ways. Our first approach addresses more than half the benchmark inputs to yield exact results. The other approach is needed for hard instances; in it, we identify and adopt as roles those that correspond to large maximal bicliques. We have implemented all our algorithms and carried out an extensive empirical assessment, which suggests that our approaches are promising. Our code is available publicly as open-source.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# SynCPKL:コモンセンスペルソナ知識リンクのための合成データ生成のためのLLMのハーネス化

SynCPKL: Harnessing LLMs to Generate Synthetic Data for Commonsense Persona Knowledge Linking ( http://arxiv.org/abs/2407.15281v1 )

ライセンス: Link先を確認
Kuan-Yen Lin, (参考訳) リッチな対話を理解するには、関連するコモンセンスのペルソナ知識にアクセスする必要があるが、複雑なコンテキストと暗黙的なコモンセンスの性質のために、この知識を取得することは困難である。 本稿では,オープンドメイン対話システムにおけるペルソナとコモンセンスの知識の統合を重要視する,CPKL(Commonsense Persona Knowledge Linking)へのアプローチを提案する。 我々は,Large Language Modelsを活用して,コモンセンスペルソナ知識リンカをトレーニングするための高品質な合成データセットを生成するパイプラインであるSynCPKL Pipelineを紹介する。 提案手法の有効性を示すために,本課題に特化して設計された新しいデータセットであるSynCPKLを提案する。 本実験は,コモンセンスペルソナ知識リンカーの訓練におけるSynCPKLの有効性を検証した。 さらに,トップパフォーマンスモデルであるDerberta-SynCPKLは,F1スコアの16%向上によってCPKLチャレンジの1位を確保した。 SynCPKLとDerberta-SynCPKLをhttps://github.com/irislin1006/CPKLでリリースしました。

Understanding rich dialogues often requires NLP systems to access relevant commonsense persona knowledge, but retrieving this knowledge is challenging due to complex contexts and the implicit nature of commonsense. This paper presents our approach to the Commonsense Persona Knowledge Linking (CPKL) challenge, addressing the critical need for integrating persona and commonsense knowledge in open-domain dialogue systems. We introduce SynCPKL Pipeline, a pipeline that leverages Large Language Models to generate high-quality synthetic datasets for training commonsense persona knowledge linkers. To demonstrate the efficacy of our approach, we present SynCPKL, a new dataset specifically designed for this task. Our experiments validate the effectiveness of SynCPKL for training commonsense persona knowledge linkers. Additionally, our top-performing model, Derberta-SynCPKL, secured first place in the CPKL challenge by a 16% improvement in F1 score. We released both SynCPKL and Derberta-SynCPKL at https://github.com/irislin1006/CPKL.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# ポイントトランスフォーマーV3 Extreme:セマンティックセグメンテーションにおける2024 Waymo Open Dataset Challengeのための第1位ソリューション

Point Transformer V3 Extreme: 1st Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation ( http://arxiv.org/abs/2407.15282v1 )

ライセンス: Link先を確認
Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao, (参考訳) この技術的レポートでは、2024年のWaymo Open Dataset Challengeのセマンティックセグメンテーショントラックの第一位ソリューションについて詳述する。 WaymoベンチマークにおけるPoint Transformer V3の性能は,最先端のプラグアンドプレイトレーニングと推論技術によって大幅に向上した。 特に、当社の高度なバージョンであるPoint Transformer V3 Extremeは、マルチフレームトレーニングとノークリッピングポイントポリシーを活用し、PTv3のパフォーマンスよりも大幅に向上しています。 さらに、簡単なモデルアンサンブル戦略を採用することで、さらなる結果が得られました。 このアプローチによって、Waymo Open Datasetセマンティックセマンティックセマンティクスのリーダボードのトップポジションが確保され、他のエントリよりも大幅に向上しました。

In this technical report, we detail our first-place solution for the 2024 Waymo Open Dataset Challenge's semantic segmentation track. We significantly enhanced the performance of Point Transformer V3 on the Waymo benchmark by implementing cutting-edge, plug-and-play training and inference technologies. Notably, our advanced version, Point Transformer V3 Extreme, leverages multi-frame training and a no-clipping-point policy, achieving substantial gains over the original PTv3 performance. Additionally, employing a straightforward model ensemble strategy further boosted our results. This approach secured us the top position on the Waymo Open Dataset semantic segmentation leaderboard, markedly outperforming other entries.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 強化学習則勾配アルゴリズムを用いた機械のハードウェア故障耐性向上

Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithms ( http://arxiv.org/abs/2407.15283v1 )

ライセンス: Link先を確認
Sheila Schoepp, Mehran Taghian, Shotaro Miwa, Yoshihiro Mitsuka, Shadan Golestan, Osmar Zaïane, (参考訳) 業界は、マシンハードウェアの欠陥を含む変化する状況を検出し、適応できる完全に自律的で相互接続されたシステムに急速に移行している。 ハードウェアのフォールトトレランスをマシンに追加する従来の手法では、コンポーネントを重複させ、障害が発生した時にマシンのプロセスをアルゴリズム的に再構成する。 しかし、強化学習に基づくロボット制御への関心が高まっていることは、ハードウェアのフォールトトレランスを達成するための新たな視点を提供する。 しかしながら、マシンにおけるハードウェアフォールトトレランスに対するこれらのアプローチの可能性について、限定的な研究がなされている。 本稿では,PPO(Proximal Policy Optimization)とSAC(Soft Actor-Critic)の2つの最先端強化学習アルゴリズムの可能性について検討する。 我々は,2つのOpenAI Gymシミュレーション環境,Ant-v2とFetchReach-v1において,これらのアルゴリズムの性能を評価する。 これらの環境におけるロボットモデルは、シミュレートされたハードウェアの欠陥が6つある。 さらに,エージェントの知識を通常の(事前の)学習環境から連続的な学習環境における(ポストの)フェイル環境へ伝達する最適な方法を決定するために,アブレーション研究を実施している。 提案手法は, シミュレーション機械のハードウェア耐故障性を向上し, 適応は数分で実現できることを示した。 具体的には、PPOはモデル内の知識を保持する際に最も高速な適応を示し、SACは取得した知識を全て捨てるときに最高に機能する。 本研究は, PPO や SAC などの強化学習に基づく手法が, ハードウェアのフォールトトレランスに与える影響を明らかにするものである。 これらの知見は、現実のシナリオで効果的に動作可能な堅牢で適応的なマシンを開発するための道を開いた。

Industry is rapidly moving towards fully autonomous and interconnected systems that can detect and adapt to changing conditions, including machine hardware faults. Traditional methods for adding hardware fault tolerance to machines involve duplicating components and algorithmically reconfiguring a machine's processes when a fault occurs. However, the growing interest in reinforcement learning-based robotic control offers a new perspective on achieving hardware fault tolerance. However, limited research has explored the potential of these approaches for hardware fault tolerance in machines. This paper investigates the potential of two state-of-the-art reinforcement learning algorithms, Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC), to enhance hardware fault tolerance into machines. We assess the performance of these algorithms in two OpenAI Gym simulated environments, Ant-v2 and FetchReach-v1. Robot models in these environments are subjected to six simulated hardware faults. Additionally, we conduct an ablation study to determine the optimal method for transferring an agent's knowledge, acquired through learning in a normal (pre-fault) environment, to a (post-)fault environment in a continual learning setting. Our results demonstrate that reinforcement learning-based approaches can enhance hardware fault tolerance in simulated machines, with adaptation occurring within minutes. Specifically, PPO exhibits the fastest adaptation when retaining the knowledge within its models, while SAC performs best when discarding all acquired knowledge. Overall, this study highlights the potential of reinforcement learning-based approaches, such as PPO and SAC, for hardware fault tolerance in machines. These findings pave the way for the development of robust and adaptive machines capable of effectively operating in real-world scenarios.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 統計信号処理を用いたノード分類のためのグラフニューラルネットワークの近傍集合の再検討

Revisiting Neighborhood Aggregation in Graph Neural Networks for Node Classification using Statistical Signal Processing ( http://arxiv.org/abs/2407.15284v1 )

ライセンス: Link先を確認
Mounir Ghogho, (参考訳) グラフニューラルネットワーク(GNN)の基本コンポーネントである近傍集約の概念を再評価する上で,グラフ内のノード分類の問題について検討する。 本分析では,エッジ非依存ノードラベルの仮定の下での動作において,特定のベンチマークGNNモデル内の概念的欠陥を明らかにする。 統計的信号処理の観点から近傍の集約にアプローチし、より効率的なGNNモデルの設計に使用できる新しい洞察を提供する。

We delve into the issue of node classification within graphs, specifically reevaluating the concept of neighborhood aggregation, which is a fundamental component in graph neural networks (GNNs). Our analysis reveals conceptual flaws within certain benchmark GNN models when operating under the assumption of edge-independent node labels, a condition commonly observed in benchmark graphs employed for node classification. Approaching neighborhood aggregation from a statistical signal processing perspective, our investigation provides novel insights which may be used to design more efficient GNN models.
翻訳日:2024-07-23 16:40:17 公開日:2024-07-21
# 内因性自己補正によるモラル向上 : 内因性メカニズムと表面仮説の解析

Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis ( http://arxiv.org/abs/2407.15286v1 )

ライセンス: Link先を確認
Guangliang Liu, Haitao Mao, Jiliang Tang, Kristen Marie Johnson, (参考訳) 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。 最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。 しかし、自己補正命令の注入方法がLLMの動作を変える過程は未解明のままである。 本稿では,(1)道徳的自己補正作業のシナリオとは何か,という3つの研究課題に答えることで,道徳的自己補正の有効性を検討する。 2)道徳的自己補正の指示に影響されるLLMの内部メカニズム、例えば隠蔽状態はどのようなものか? (3)本質的な道徳的自己補正は実際に表面的であるか? 自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。 言語生成と多選択質問応答の課題に関する実証調査を通じて、結論を下す。 (i)LLMは両課題にまたがって優れた性能を示しており、正解が既に上位にある場合には、自己訂正指示が特に有益である。 二 中間隠蔽状態の道徳レベルは、一方の指示が他方よりも効果的かどうかの指標として強い。 3) 自己訂正行動の中間的隠蔽状態の解析とタスクケーススタディに基づいて,本質的道徳的自己補正が実際に表面的であるという仮説を最初に提案する。

Large Language Models (LLMs) are capable of producing content that perpetuates stereotypes, discrimination, and toxicity. The recently proposed moral self-correction is a computationally efficient method for reducing harmful content in the responses of LLMs. However, the process of how injecting self-correction instructions can modify the behavior of LLMs remains under-explored. In this paper, we explore the effectiveness of moral self-correction by answering three research questions: (1) In what scenarios does moral self-correction work? (2) What are the internal mechanisms of LLMs, e.g., hidden states, that are influenced by moral self-correction instructions? (3) Is intrinsic moral self-correction actually superficial? We argue that self-correction can help LLMs find a shortcut to more morally correct output, rather than truly reducing the immorality stored in hidden states. Through empirical investigation with tasks of language generation and multi-choice question answering, we conclude: (i) LLMs exhibit good performance across both tasks, and self-correction instructions are particularly beneficial when the correct answer is already top-ranked; (ii) The morality levels in intermediate hidden states are strong indicators as to whether one instruction would be more effective than another; (iii) Based on our analysis of intermediate hidden states and task case studies of self-correction behaviors, we are first to propose the hypothesis that intrinsic moral self-correction is in fact superficial.
翻訳日:2024-07-23 16:30:24 公開日:2024-07-21
# アクティブラーニング技術を用いたOCTA画像からの網膜疾患分類の強化

Enhancing Retinal Disease Classification from OCTA Images via Active Learning Techniques ( http://arxiv.org/abs/2407.15293v1 )

ライセンス: Link先を確認
Jacob Thrasher, Annahita Amireskandari, Prashnna Gyawali, (参考訳) 高齢のアメリカ人では眼疾患が一般的であり、視力や視力の低下につながることがある。 近年のイメージング技術の進歩により、臨床医は光学コヒーレンス・トモグラフィー(OCTA)により、これらの疾患の診断と予防対策の迅速化に欠かせない情報を含む、網膜血管の高品質な画像を取得することができるようになった。 OCTAは、一般的なOCT画像から得られる構造情報と比較して、詳細な血管画像を提供する。 OCTイメージングについてはかなり研究されているが、OCTA画像を用いた予測モデリングにおける人工知能(AI)と機械学習(ML)アプローチの役割を探求する研究は、ほとんど行われていない。 本稿では,OCTA画像における眼疾患の同定にディープラーニングを用いる方法について検討する。 しかし、ラベル付きデータがないため、ディープラーニングの直接的な応用は必ずしも良い一般化をもたらすとは限らない。 この目的のために、私たちはアクティブラーニングを利用して、モデルのトレーニングに最も価値のあるデータのサブセットを選択します。 能動的学習サブセット選択は、逆周波数クラス重み付け、ランダムアンダーサンプリング、オーバーサンプリングなどの他の戦略よりもF1評価において最大49%優れることを示した。

Eye diseases are common in older Americans and can lead to decreased vision and blindness. Recent advancements in imaging technologies allow clinicians to capture high-quality images of the retinal blood vessels via Optical Coherence Tomography Angiography (OCTA), which contain vital information for diagnosing these diseases and expediting preventative measures. OCTA provides detailed vascular imaging as compared to the solely structural information obtained by common OCT imaging. Although there have been considerable studies on OCT imaging, there have been limited to no studies exploring the role of artificial intelligence (AI) and machine learning (ML) approaches for predictive modeling with OCTA images. In this paper, we explore the use of deep learning to identify eye disease in OCTA images. However, due to the lack of labeled data, the straightforward application of deep learning doesn't necessarily yield good generalization. To this end, we utilize active learning to select the most valuable subset of data to train our model. We demonstrate that active learning subset selection greatly outperforms other strategies, such as inverse frequency class weighting, random undersampling, and oversampling, by up to 49% in F1 evaluation.
翻訳日:2024-07-23 16:30:24 公開日:2024-07-21
# VideoGameBunny:ビデオゲームのビジョンアシスタントを目指して

VideoGameBunny: Towards vision assistants for video games ( http://arxiv.org/abs/2407.15295v1 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Cor-Paul Bezemer, (参考訳) 大規模マルチモーダルモデル(LMM)は、日々のタスクにおける個人支援から、医療診断などの高度な応用に至るまで、様々な領域で大きな約束を持っている。 しかし、それらの能力は、特にオープンソースモデルにおいて、シーン理解、幻覚、不正確なビデオゲームコンテンツの記述など、ビデオゲーム領域に制限がある。 本稿では,BunnyをベースとしたLLaVAスタイルモデルであるVideoGameBunnyの開発について述べる。 中間チェックポイント,トレーニングログ,および413タイトルから185,259のビデオゲームイメージと,イメージキャプション,質問応答ペア,136,974イメージの16要素のJSON表現を含む389,565のイメージインストラクションペアからなる広範なデータセットをリリースする。 実験の結果,我々の高品質なゲーム関連データにより,比較的小さなモデルが,より大きな最先端モデルであるLLaVa-1.6-34b(パラメータの4倍以上)より優れる可能性が示唆された。 本研究は,ゲーム理解における今後の研究の道を開くものである。 コードとデータはhttps://videogamebunny.github.io/で公開されている。

Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/
翻訳日:2024-07-23 16:30:24 公開日:2024-07-21
# 言語に基づく物体検出のための生成モデルからの弱音合成学習

Weak-to-Strong Compositional Learning from Generative Models for Language-based Object Detection ( http://arxiv.org/abs/2407.15296v1 )

ライセンス: Link先を確認
Kwanyong Park, Kuniaki Saito, Donghyun Kim, (参考訳) 視覚言語(VL)モデルは、複雑で多様な言語クエリを与えられた視覚オブジェクト(例えば、属性、形状、およびそれらの関係)の複雑な表現の限定的な理解を示すことが多い。 従来の手法は、強陰性合成テキストを用いたVLモデルの改善を試みるが、その効果は限られている。 本稿では,生成基礎モデルの特異な構成理解能力を利用する。 本稿では,言語に基づくオブジェクト検出におけるVLモデルの合成理解の向上を目的とした,構造化された合成データ生成手法を提案する。 我々のフレームワークは、画像ドメインとテキストドメインの両方で、密にペア化された正と負の三つ子(画像、テキスト記述、バウンディングボックス)を生成する。 これらの合成三重項を利用して、我々はVLモデルを構成的理解の観点から'Weaker'VLモデルを'stronger'モデルに変換し、これを"Weak-to-Strong compositional Learning"(WSCL)と呼ぶ。 そこで本研究では,合成三重項からの複雑な記述における意味や構造を発見するための,新しいコントラスト学習形式を提案する。 その結果、我々の合成データ生成で訓練されたVLモデルは、Omnilabelベンチマークで+5AP、D3ベンチマークで+6.9AP、既存のベースラインで+6.9APの大幅な性能向上を示した。

Vision-language (VL) models often exhibit a limited understanding of complex expressions of visual objects (e.g., attributes, shapes, and their relations), given complex and diverse language queries. Traditional approaches attempt to improve VL models using hard negative synthetic text, but their effectiveness is limited. In this paper, we harness the exceptional compositional understanding capabilities of generative foundational models. We introduce a novel method for structured synthetic data generation aimed at enhancing the compositional understanding of VL models in language-based object detection. Our framework generates densely paired positive and negative triplets (image, text descriptions, and bounding boxes) in both image and text domains. By leveraging these synthetic triplets, we transform 'weaker' VL models into 'stronger' models in terms of compositional understanding, a process we call "Weak-to-Strong Compositional Learning" (WSCL). To achieve this, we propose a new compositional contrastive learning formulation that discovers semantics and structures in complex descriptions from synthetic triplets. As a result, VL models trained with our synthetic data generation exhibit a significant performance boost in the Omnilabel benchmark by up to +5AP and the D3 benchmark by +6.9AP upon existing baselines.
翻訳日:2024-07-23 16:30:24 公開日:2024-07-21
# Geometric-Semantic Disentanglementによるリアルタイム3次元動作予測

Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement ( http://arxiv.org/abs/2407.13155v2 )

ライセンス: Link先を確認
Yulin He, Wei Chen, Tianci Xun, Yusong Tan, (参考訳) 職業予測は、微粒な幾何学的知覚と一般的な物体認識能力により、自律運転(AD)において重要な役割を担っている。 しかし、既存の手法はしばしば高い計算コストを発生させ、ADのリアルタイム要求とは矛盾する。 この目的のために、我々はまず、一般に利用可能なほとんどのメソッドの速度とメモリ使用量を評価し、焦点を単に精度を優先することから、効率も考慮することを目的としている。 次に、高速かつ正確な性能を達成する上でのコア課題を特定します: \textbf{the strong coupling between geometry and semantic}。 この問題に対処する。 1) ハイブリッドBEV-Voxel表現を用いたジオメトリ・セマンティックデュアルブランチネットワーク(GSDBN)を提案する。 BEVブランチでは、高密度な意味的特徴を抽出するために、BEVレベルの時間融合モジュールとU-Netエンコーダが導入された。 ボクセル分岐では、スパース3次元形状を洗練し、計算量を削減するために、大カーネル再パラメータ化3次元畳み込みが提案されている。 さらに,両枝の機能融合のために,BEV機能をボクセル空間に投射する新しいBEV-ボクセル昇降モジュールを提案する。 ネットワーク設計に加えて。 2)Geometric-Semantic Decoupled Learning(GSDL)戦略も提案する。 この戦略は最初、接地構造深度を用いて正確な幾何学のセマンティクスを学習し、その後予測された深度を徐々に混合して予測された幾何にモデルを適応させる。 Occ3D-nuScenesベンチマークによる大規模な実験により,20.0FPSの39.4mIoUを実現した。 この結果は、CVPR2023 3D Occupancy Prediction Challengeの勝者であるFB-OCCと比較して、$\sim 3 \times$ faster and +1.9 mIoU である。 私たちのコードはオープンソースにされます。

Occupancy prediction plays a pivotal role in autonomous driving (AD) due to the fine-grained geometric perception and general object recognition capabilities. However, existing methods often incur high computational costs, which contradicts the real-time demands of AD. To this end, we first evaluate the speed and memory usage of most public available methods, aiming to redirect the focus from solely prioritizing accuracy to also considering efficiency. We then identify a core challenge in achieving both fast and accurate performance: \textbf{the strong coupling between geometry and semantic}. To address this issue, 1) we propose a Geometric-Semantic Dual-Branch Network (GSDBN) with a hybrid BEV-Voxel representation. In the BEV branch, a BEV-level temporal fusion module and a U-Net encoder is introduced to extract dense semantic features. In the voxel branch, a large-kernel re-parameterized 3D convolution is proposed to refine sparse 3D geometry and reduce computation. Moreover, we propose a novel BEV-Voxel lifting module that projects BEV features into voxel space for feature fusion of the two branches. In addition to the network design, 2) we also propose a Geometric-Semantic Decoupled Learning (GSDL) strategy. This strategy initially learns semantics with accurate geometry using ground-truth depth, and then gradually mixes predicted depth to adapt the model to the predicted geometry. Extensive experiments on the widely-used Occ3D-nuScenes benchmark demonstrate the superiority of our method, which achieves a 39.4 mIoU with 20.0 FPS. This result is $\sim 3 \times$ faster and +1.9 mIoU higher compared to FB-OCC, the winner of CVPR2023 3D Occupancy Prediction Challenge. Our code will be made open-source.
翻訳日:2024-07-23 13:31:17 公開日:2024-07-21
# オンライン決定のための適応的基礎モデル:高速なインクリメンタル不確実性推定を伴うハイパーエージェント

Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation ( http://arxiv.org/abs/2407.13195v2 )

ライセンス: Link先を確認
Yingru Li, Jiawei Xu, Zhi-Quan Luo, (参考訳) ファウンデーションモデルは、オンライン意思決定の新たな状況に直面し、この不確実性を解決するためにスケーラブルで効率的な探索を必要とする場合、しばしば不確実性に苦慮する。 GPT-HyperAgentは,自然言語入力に関わる基本的なオンライン決定問題である,不確実性を認識し,拡張性のある探索を行うためのGPT-HyperAgentである。 我々はHyperAgentが、線形実現可能な仮定の下で、$\tilde{O}(\log T)$ 1ステップの計算複雑性で高速なインクリメンタル不確実性推定を実現することを証明した。 我々の分析は、ハイパーエージェントの後悔の順序が線形文脈帯域における正確なトンプソンサンプリングと一致していることを示し、スケーラブルな探索において重要な理論的ギャップを閉じた。 GPT-HyperAgentの安全性決定における実用的有効性を検証するために,人間のフィードバックによる自動コンテンツモデレーションなどの実世界のコンテキスト的盗聴作業の実証的な結果を得た。 我々のコードは \url{https://github.com/szrlee/GPT-HyperAgent/} でオープンソース化されています。

Foundation models often struggle with uncertainty when faced with new situations in online decision-making, necessitating scalable and efficient exploration to resolve this uncertainty. We introduce GPT-HyperAgent, an augmentation of GPT with HyperAgent for uncertainty-aware, scalable exploration in contextual bandits, a fundamental online decision problem involving natural language input. We prove that HyperAgent achieves fast incremental uncertainty estimation with $\tilde{O}(\log T)$ per-step computational complexity over $T$ periods under the linear realizable assumption. Our analysis demonstrates that HyperAgent's regret order matches that of exact Thompson sampling in linear contextual bandits, closing a significant theoretical gap in scalable exploration. Empirical results in real-world contextual bandit tasks, such as automated content moderation with human feedback, validate the practical effectiveness of GPT-HyperAgent for safety-critical decisions. Our code is open-sourced at \url{https://github.com/szrlee/GPT-HyperAgent/}.
翻訳日:2024-07-23 13:31:17 公開日:2024-07-21